字符串基本特点
很多人初学编程时,总是担心自己数学不行,潜意识里认为数学好才能编程。实际上,大多数程序员打交道最多的是“字符串”而不是“数字”。因为,编程是用来解决现实问题的,因此逻辑思维的重要性远远超过数学能力。
字符串的本质是:字符序列。Python的字符串是可变的,我们无法对原字符串做任何修改。但,可以将字符串的一部分复制到新创建的字符串,达到“看起来修改”的效果。
Python不支持单字符类型,单字符也是作为一个字符串使用的。
字符串编码
Python3直接支持Unicode,可以表示世界上任何书面语言的字符。Python3的字符默认就是16位Unicode编码,ASCII码是Unicode编码的子集。
使用内置函数ord()可以把字符转换成对应的Unicode码;
使用内置函数chr()可以把十进制数字转换成对应的字符。
>>>ord('A')65>>>ord('高')39640>>>chr(66)'B'
引号创建字符串
我们可以通过单引号或双引号创建字符串。例如:a=‘abc‘:b=”sxt”
使用两种引号的好处是可以创建本身就包含引号的字符串,而不用使用转义字符。例如:
a =”I’m a teacher!”
b=’my_name is “TOM” ‘
连续三个单引号或三个双引号,可以帮助我们创建多行字符串。例如:
>>>a='''helloworld'''
空字符串和len()函数
Python允许空字符串的存在,不包含任何字符且长度为0。例如:
>>>C="">>>len(c)0
len()用于计算字符串含有多少字符。例如:
>>>d='abc'>>>len(d)6
转义字符
我们可以使用“+特殊字符”,实现某些难以用字符表示的效果。比如:换行等。常见的转义字符有这些:
转义符 | 描述 |
---|---|
\ | 续行符 |
\\ | 反斜杠符号 |
\‘ | 单引号 |
\“ | 双引号 |
\b | 退格 |
\n | 横向制表符 |
\t | 回车 |
>>>a="hello \n world"
字符串拼接
1.可以使用+将多个字符串拼接起来。例如:’aa’+’bb’ ==>’aabb’
如果+两边部是宇符串,则拼接。
如果+两边都是数字,则加法运算。
如果+两边类型不同,则抛出异常。
2.可以将多个字面字符串直接放到一起实现拼接。例如:’aa’ ‘bb’==>’aabb’
字符串复制
使用*可以实现复制
>>>a="sxw"*3"sxwsxwsxw"
不换行打印
调用print时,会自动打印一个换行符,有时不想换行,不想自动添加换行符。可以自己通过参数end=“任意字符串”。实现末尾添加任何内容:
>>>print("sxw",end="")
控制台读取字符串
>>>name=input("请输入名字:")>>>print(name)
使用str()实现类型转换
str可以帮助我们将其他数据类型转换为字符串。例如:
>>>str(5.20)==>'5.20'>>>str(3.14e2)==>'314.0'>>>str(True)==>'True'
当我们调用print()时,解释器自动调用了str()将非字符串的对象转成了字符串。我们在面向对象章节中详细讲解这部分内容。
[]提取字符
字符串的本质就是字符序列,我们可以通过在字符串后面添加0,在里面指定偏移量,可以提取该位置的单个字符。
正向搜索:最左侧第一个字符,偏移量是0,第二个偏移量是1,以此类推。直到Ien(str)-1为止
反向搜索:最右侧第一个字符,偏移量是-1,倒数第二个偏移量是-2,以此类推,直到-Ien(str)为止。
>>>a='abcdef'>>>a[0]'a'>>>a[6-1]'f'
Replace()替换
原字符串不可变,实现替换是在创建新的字符串来实现
>>>name="1234">>>print(id(name))>>>name=name.replace("1","new")>>>print(id(name))id发生了改变
字符串切片
切片slice操作可以让我们快速的提取子字符串。标准格式为:
[起始偏移量start:终止偏移量end:步长step]
操作 | 实例 | 结果 |
---|---|---|
[:]提取整个字符串 | “abcdef” [:] | “abcdef” |
[start:]从索引开始到结束 | “abcdef” [2:] | “cdef” |
[:end]从头开始到end-1 | “abcdef” [:2] | “ab” |
[start :end] | “abcdef” [2:4] | “cd” |
[start :end :step] | “abcdef” [1:5:2] | “bd” |
[-start :]从结尾往前数 | “abcdef” [-3:] | “def” |
[-start :-end] | “abcdef” [-3:-1] | “de” |
[::-1] | 步长为负,从右到左反向提取 | “fedcba” |
切片操作时,起始偏移量和终止偏移量不在[0,字符串长度-1]这个范围,也不会报错。起始偏移量小于0则会当做0,终止偏移量大于”长度-1”会被当成-1。例如:
>>>a="abcdefg">>>a[3:50]"def"
Split()分割和Join合并
split()可以基于指定分隔符将字符串分隔成多个子字符串(存储到数组列表中)。如果不指定分隔符,则默认使用空白字符换行符/空格/制表符。示例代码如下:
a="to be or not to be"a.split()['to','be','or','not','to',be]
join的作用和split作用刚好相反,用于将一系列子字符串连接起来。示例代码如下:
a=['to','be','or','not','to',be]'-'.join(a)"to-be-or-not-to-be"
拼接字符串要点:
使用字符串拼接符+,会生成新的字符串对象,因此不推荐使用+来拼接字符串。推荐使用join函数,因为join函数在拼接字符串之前会计算所有字符串的长度,然后逐一拷贝,仅新建一次对像。
字符串驻留机制和字符串比较
字符串驻留:仅保存一份相同且不可变字符串的方法,不同的值被存放在字符串驻留池中。
Python支持字符串驻留机制,对于符合标识符规则的字符串(仅包含下划线(_)、字母和数字)会启用字符串驻留机制驻留机制。
>>>a="abc_33">>>b="abc_33">>>a is b //true>>>a="abc#">>>b="abc#">>>a is b //false
字符串比较和同一性
我们可以直接使用==,!=对字符串进行比较,是否含有相同的字符。
我们使用is/not is,判断两个对象是否同一个对象。比较的是对象的地址,即id(obj1)是否和id(obj2)相等。
成员操作符
in /not in关键字,判断某个字符(子字符串)是否存在于字符串中。
>>>a="abcd""b" in a //true
字符串常用方法
我们以一段文本作为测试:
>>>a="'我是高淇,今年18岁了,我在北京尚学堂科技上班。我的儿子叫高洛希,他6岁了。我是一个编程教育的普及者,希望影响6000万学习编程的中国人。我儿子现在也开始学习编程,希望他18岁的时候可以超过我"'
方法 | 说明 | 结果 |
---|---|---|
len(a) | 统计字符串个数 | 96 |
a.startswith(“我是高淇”) | 判断字符串开始 | True |
a.endswith(“过我”) | 判断字符串结束 | True |
a.find(“高”) | 第一次出现的位置 | 2 |
a.rfind(“高”) | 最后一次出现位置 | 29 |
a.count(“编程”) | 统计出现次数 | 3 |
a.isalnum() | 所有字符是全字母或数字 | False |
去除首尾信息
我们可以通过stripo去除字符串首尾指定信息。通过Istrip0去除字符串左边指定信息,rstrip0去除字符串右边指定信息。
【操作】去除字符串首尾信息
>>>a='*s*x*t*'
去除指定方法 | 说明 | 结果 |
---|---|---|
a.strip(“”) | 去除首尾指定内容 | s*x*t |
a.ltrip(“”) | 去除左侧指定内容 | s*x*t* |
a.rtrip(“”) | 去除右侧侧指定内容 | *s*x*t |
a.strip(“”) | 去除两侧指定内容 | sxt |
大小写转换
编程中关于字符串大小写转换的情况,经常遇到。我们将相关方法汇总到这里。为了方便学习,先设定一个测试变量:
>>>a ="gaoqi love programming,love SXT"
大小写 | 说明 | 结果 |
---|---|---|
a.capitalize() | 产生新字符串,首字母大写 | “I love programming,love SXT” |
a.title() | 产生新字符串,每个单词首字母大写 | “I Love Programming,Love Sxt” |
a.upper() | 产生新字符串,全大写 | “I LOVE PROGRAMMING,LOVE SXT” |
a.lower() | 产生新字符串,全小写 | “I love programming,love sxt” |
a.swapcase() | 产生新字符串,所有字母大小写反转 | “I LOVE PROGRAMMING,LOVE sxt” |
格式排版
>>>a='SXT'
排版 | 说明 | 结果 |
---|---|---|
a.center(10,”-“) | 字符串居中排列指定字符, 第一个参数指定行的位置数 | ‘—-SXT——‘ |
a.ljust(10,”-“) | 字符串左对齐,余下的填充指定字符 | ‘SXT———-‘ |
a.rjust() | 字符串右对齐,余下的填充指定字符 | ‘———-SXT’ |
其他 | 说明 | 结果 |
---|---|---|
a.isalnum() | 是否由字母或数字组成(含汉字) | |
a.isalpha() | 是否由字母组成(含汉字) | |
a.isdigit() | 是否由数字组成 | |
a.isspace() | 是否为空白符 | |
a.isupper() | 是否为大写字母 | |
a.islower() | 是否为小写字母 |
字符格式化
Python2.6开始,新增了一种格式化字符串的函数str.format(),它增强了字符串格式化的功能。
基本语法是通过{}和:来代替以前的%
format函数可以接受不限个参数,位置可以不按顺序.
>>>a="名字是:{0},年龄是:{1},{0}很好">>>a.format("py",18)>>>a="名字是:{name},年龄是:{age}很好">>>a.format(name="py",age=18)#支持多行模版>>>a='''名字是:{name},年龄是:{age}很好'''
填充常跟对齐一起便用
^、<、>分别是居中、左对齐、右对齐,后面带宽度
:号后面带填充的字符,只能是一个字符,不指定的话默认是用空格填充,8表示预留8个位置
>>>a="名字是:{name:-^8},年龄是:{age}很好" #^居中<左对齐 >右对齐>>>a.format(name="py",age=18)>>>a="名字是:---py---,年龄是:18很好"
数字格式化
>>>a="我是{0},圆周率有{1:.2f}">>>a.format("py",3.141596)// 3.14
数字 | 格式 | 输出 | 说明 |
---|---|---|---|
3.141592 | {:.2f} | 3.14 | 保留小数点后2位 |
3.141592 | {:+.2f} | 3.14 | 带符号保留小数点后2位 |
3.141592 | {:.0f} | 3 | 不带小数 |
5 | {:0>2d} | 5 | 数字补零 |
10 | {:x<4d} | 10xx | |
1000000 | {:,} | 1,000,000 | 以逗号分隔数字 |
0.25 | {:.2%} | 25.00% | 百分比格式 |
13 | {:<10d} | 13 | 右对齐,排版默认10宽度 |
可变字符串
在Python中,字符串属于不可变对象,不支持原地修改,如果需要修改其中的值,只能创建新的字符串对象。但是,经常我们确实需要原地修改字符串,可以使用io.StringIO对象或array模块。
>>>import io>>>s="hello world">>>sio=io.StringIO(s)>>>print(sio)>>>sio.getvalue()>>>sio.seek(4)>>>sio.write("l")>>>print(sio.getvalue())>>>print(sio)