Python 字符串方法详解

工作经常用到一些字符串的方法,借此机会也总结一下~~

find

find方法可以在一个较长的字符串中查找子字符串。它返回子串所在位置的最左端索引。如果没有找到则返回-1。

>>> a = 'test'
>>> a.find('s')
2
>>> 

find方法其实和列表取步长的方法联用来截取某段需要的字符串。

>>> a  = 'hello world'
>>> iwantstring = a[a.find('w'):a.find('r')]
>>> iwantstring
'wo'
>>>

join

join方法是非常重要的字符串方法,它是split方法的逆方法,用来在队列中添加元素。注意:需要添加的队列元素都必须是字符串。

>>> test = ['a','b','c','d']
>>> out = '+'.join(test)
>>> out
'a+b+c+d'

replace

replace方法返回某个字符串的所有匹配项均被替换之后得到的字符串。

>>> a  = 'hello world'
>>> b = a.replace('l','t')
>>> b
'hetto wortd'
>>> 

split

这是个非常重要的字符串方法,它是join的逆方法,用来将字符串按指定字符串元素进行分割并返回列表。注意:如果不提供任何分隔符,程序会把所有空格作为分隔符(空格、制表、换行等)

>>> a  = 'hello world'
>>> b = a.split('l')
>>> b
['he', '', 'o wor', 'd']
>>> 

strip

strip方法返回去除两侧(不包含内部)空格的字符串

>>> a = '   hello world    '
>>> b = a.strip()
>>> b
'hello world'
>>> 

translate

  translate方法和replace方法一样,可以替换字符串中的某些部分,但是和前者不同的是,translate方法只处理单个字符。它的优势在于可以同时进行多个替换,有些时候比replace效率高得多。
  在使用translate转换前,需要先完成一张转换表。转换表中是以某字符替换某字符的对应关系。因为这个表(事实上是字符串)有多达256个项目,我们还是不要自己写了,用string模块里面的maketrans函数就行了。

maketrans函数接收两个参数:两个等长的字符串,表示第一个字符串中的每个字符都用第二个字符串中相同位置的字符替换。

>>> from string import maketrans
>>> table = maketrans('ho', 'at')

创建这个表后,可以将它用作translate方法的参数,进行字符串的转换:

>>> a  = 'hello world'
>>> b = a.translate(table)
>>> b
'aellt wtrld'

translate的第二个参数是可选的,这个参数是用来指定需要删除的字符。

>>> b = a.translate(table, ' ')
>>> b
'aelltwtrld'
>>> 

= 生成字符串变量

>>> test = 'hello world'
>>> test
'hello world'
>>> 

len 字符串长度获取

>>> a  = 'hello world'
>>> b = len(a)
>>> b
11
>>> 

+ 连接字符串

>>> a = 'hello'
>>> b = ' '
>>> c = 'world'
>>> d = a+b+c
>>> d
'hello world'
>>> 

cmp 比较字符串

>>> a = 'hello'
>>> b = 'world'
>>> c = cmp(a,b)
>>> c
-1
>>> 

[] 截取字符串

注意:一定要搞清楚下标是从0开始的,列表右边的元素是不被包含的

>>>a = '0123456789'
>>>b = a[0:3] # 截取第一位到第三位的字符
>>>b
'012'

>>>b = a[:] # 截取字符串的全部字符
>>>b
'0123456789' 

>>>b = a[6:] # 截取第七个字符到结尾
>>>b
'6789' 

>>>b = a[:-3] # 截取从头开始到倒数第三个字符之前
>>>b
'0123456'

>>>b = a[2] # 截取第三个字符
>>>b
'2' 

>>>b = a[-1] # 截取倒数第一个字符
>>>b
'9' 

>>>b = a[::-1] # 创造一个与原字符串顺序相反的字符串
>>>b
'9876543210' 

>>>b = a[-3:-1] # 截取倒数第三位与倒数第一位之前的字符
>>>b
'78' 

>>>b = a[-3:] # 截取倒数第三位到结尾
>>>b
'789'

字符串中的搜索和替换

S.find(substr, [start, [end]])   
#返回S中出现substr的第一个字母的标号,如果S中没有substr则返回-1。start和end作用就相当于在S[start:end]中搜索
S.index(substr, [start, [end]])   
#与find()相同,只是在S中没有substr时,会返回一个运行时错误
S.rfind(substr, [start, [end]])   
#返回S中最后出现的substr的第一个字母的标号,如果S中没有substr则返回-1,也就是说从右边算起的第一次出现的substr的首字母标号
S.rindex(substr, [start, [end]])
S.count(substr, [start, [end]])    
#计算substr在S中出现的次数
S.replace(oldstr, newstr, [count])    
#把S中的oldstr替换为newstr,count为替换次数。这是替换的通用形式,还有一些函数进行特殊字符的替换
S.strip([chars]) 
#把S中前后chars中有的字符全部去掉,可以理解为把S前后chars替换为None
S.lstrip([chars])
S.rstrip([chars])
S.expandtabs([tabsize])   
#把S中的tab字符替换没空格,每个tab替换为tabsize个空格,默认是8个

字符串的分割和组合:

S.split([sep, [maxsplit]]) 
# 以sep为分隔符,把S分成一个list。maxsplit表示分割的次数。默认的分割符为空白字符
S.rsplit([sep, [maxsplit]])
S.splitlines([keepends]) 
# 把S按照行分割符分为一个list,keepends是一个bool值,如果为真每行后而会保留行分割符。
S.join(seq) 
# 把seq代表的序列──字符串序列,用S连接起来

字符串的mapping,这一功能包含两个函数:
String.maketrans(from, to)

# 返回一个256个字符组成的翻译表,其中from中的字符被一一对应地转换成to,所以from和to必须是等长的。
S.translate(table[,deletechars]) 
#  使用上面的函数产后的翻译表,把S进行翻译,并把deletechars中有的字符删掉。需要注意的是,如果S为unicode字符串,那么就不支持 deletechars参数,可以使用把某个字符翻译为None的方式实现相同的功能。此外还可以使用codecs模块的功能来创建更加功能强大的翻译 表。

字符串中字符大小写的变换:

S.lower()   #小写
S.upper()   #大写
S.swapcase()   #大小写互换
S.capitalize()   #首字母大写
String.capwords(S)  #这是模块中的方法。它把S用split()函数分开,然后用
capitalize()把首字母变成大写,最后用join()合并到一起
S.title()    #只有首字母大写,其余为小写,模块中没有这个方法

字符串去空格及去指定字符

去两边空格:str.strip()
去左空格:str.lstrip()
去右空格:str.rstrip()
去两边字符串:str.strip('d'),相应的也有lstrip,rstrip
str=' python String function '
print '%s strip=%s' % (str,str.strip())
str='python String function'
print '%s strip=%s' % (str,str.strip('d'))

字符串编码和解码的函数:

S.encode([encoding,[errors]]) 
# 其中encoding可以有多种值,比如gb2312 gbk gb18030 bz2 zlib big5 bzse64等都支持。errors默认值为strict,意思是UnicodeError。可能的值还有'ignore', 'replace', 'xmlcharrefre
S.encode([encoding,[errors]]) 
# 其中encoding可以有多种值,比如gb2312 gbk gb18030 bz2 zlib big5 bzse64等都支持。errors默认值为"strict",意思是UnicodeError。可能的值还有'ignore', 'replace', 'xmlcharrefreplace', 'backslashreplace' 和所有的通过codecs.register_error注册的值。这一部分内容涉及codecs模块,不是特明白
S.decode([encoding,[errors]])

字符串的测试函数,这一类函数在string模块中没有,这些函数返回的都是bool值:

S.startwith(prefix[,start[,end]]) #是否以prefix开头
S.endwith(suffix[,start[,end]])  #以suffix结尾
S.isalnum()  #是否全是字母和数字,并至少有一个字符
S.isalpha()  #是否全是字母,并至少有一个字符
S.isdigit()  #是否全是数字,并至少有一个字符
S.isspace() #是否全是空白字符,并至少有一个字符
S.islower() #S中的字母是否全是小写
S.isupper() #S中的字母是否便是大写
S.istitle() #S是否是首字母大写的

字符串类型转换函数,这几个函数只在string模块中有:

string.atoi(s[,base])  
# base默认为10,如果为0,那么s就可以是012或0x23这种形式的字符串,如果是16那么s就只能是0x23或0X12这种形式的字符串
string.atol(s[,base])  
# 转成long
string.atof(s[,base])  
# 转成float

python字符串与数字的转化

数字变为字符串 str()
字符串变为数字 string.atoi(s,[,base]) //base为进制基数
浮点数转换 string.atof(s)

字符串在输出时的对齐:

S.ljust(width,[fillchar])   #输出width个字符,S左对齐,不足部分用fillchar填充,默认的为空格。
S.rjust(width,[fillchar])    #右对齐
S.center(width, [fillchar])    #中间对齐
S.zfill(width)   #把S变成width长,并在右对齐,不足部分用0补足

字符串中的单引号,双引号用 \ 来转义。

把字符串转换成数字

int('1234')
string模块里有
import string
>>> a="12345"
>>> import string
>>> string.atoi(a)
12345
>>> b="123.678"
>>> string.atof(b)
123.678

textwrap 使用 textwrap 模块来格式化字符串的输出

s = "Look into my eyes, look into my eyes, the eyes, the eyes, \
the eyes, not around the eyes, don't look around the eyes, \
look into my eyes, you're under."

>>> import textwrap
>>> print(textwrap.fill(s, 70))
Look into my eyes, look into my eyes, the eyes, the eyes, the eyes,
not around the eyes, don't look around the eyes, look into my eyes,
you're under.

>>> print(textwrap.fill(s, 40))
Look into my eyes, look into my eyes,
the eyes, the eyes, the eyes, not around
the eyes, don't look around the eyes,
look into my eyes, you're under.

>>> print(textwrap.fill(s, 40, initial_indent='    '))
    Look into my eyes, look into my
eyes, the eyes, the eyes, the eyes, not
around the eyes, don't look around the
eyes, look into my eyes, you're under.

>>> print(textwrap.fill(s, 40, subsequent_indent='    '))
Look into my eyes, look into my eyes,
    the eyes, the eyes, the eyes, not
    around the eyes, don't look around
    the eyes, look into my eyes, you're
    under.

textwrap 模块对于字符串打印是非常有用的,特别是当你希望输出自动匹配终端大小的时候。 你可以使用 os.get_terminal_size() 方法来获取终端的大小尺寸

>>> import os
>>> os.get_terminal_size().columns
80
>>>

fill() 方法接受一些其他可选参数来控制tab,语句结尾等。 参阅 textwrap.TextWrapper文档 获取更多内容。

在字符串中处理html和xml

你想将HTML或者XML实体如 &entity; 或 &#code; 替换为对应的文本。 再者,你需要转换文本中特定的字符(比如<, >, 或 &)。

解决方案

如果你想替换文本字符串中的 ‘<’ 或者 ‘>’ ,使用 html.escape() 函数可以很容易的完成。比如:

>>> s = 'Elements are written as "<tag>text</tag>".'
>>> import html
>>> print(s)
Elements are written as "<tag>text</tag>".
>>> print(html.escape(s))
Elements are written as &quot;&lt;tag&gt;text&lt;/tag&gt;&quot;.

>>> # Disable escaping of quotes
>>> print(html.escape(s, quote=False))
Elements are written as "&lt;tag&gt;text&lt;/tag&gt;".
>>>

如果你正在处理的是ASCII文本,并且想将非ASCII文本对应的编码实体嵌入进去, 可以给某些I/O函数传递参数 errors=’xmlcharrefreplace’ 来达到这个目。比如:

>>> s = 'Spicy Jalapeño'
>>> s.encode('ascii', errors='xmlcharrefreplace')
b'Spicy Jalape&#241;o'
>>>

为了替换文本中的编码实体,你需要使用另外一种方法。 如果你正在处理HTML或者XML文本,试着先使用一个合适的HTML或者XML解析器。 通常情况下,这些工具会自动替换这些编码值,你无需担心。

有时候,如果你接收到了一些含有编码值的原始文本,需要手动去做替换, 通常你只需要使用HTML或者XML解析器的一些相关工具函数/方法即可。比如:

>>> s = 'Spicy &quot;Jalape&#241;o&quot.'
>>> from html.parser import HTMLParser
>>> p = HTMLParser()
>>> p.unescape(s)
'Spicy "Jalapeño".'
>>>
>>> t = 'The prompt is &gt;&gt;&gt;'
>>> from xml.sax.saxutils import unescape
>>> unescape(t)
'The prompt is >>>'
>>>

讨论

在生成HTML或者XML文本的时候,如果正确的转换特殊标记字符是一个很容易被忽视的细节。 特别是当你使用 print() 函数或者其他字符串格式化来产生输出的时候。 使用像 html.escape() 的工具函数可以很容易的解决这类问题。

如果你想以其他方式处理文本,还有一些其他的工具函数比如 xml.sax.saxutils.unescapge() 可以帮助你。 然而,你应该先调研清楚怎样使用一个合适的解析器。 比如,如果你在处理HTML或XML文本, 使用某个解析模块比如 html.parse 或 xml.etree.ElementTree 已经帮你自动处理了相关的
替换细节。


热评文章