Python字符串的處理那些事

來(lái)源：懂視網(wǎng) 責(zé)編：小采時(shí)間：2020-11-27 14:21:14

Python字符串的處理那些事

Python字符串的處理那些事:本章介紹了Python字符串的編寫與處理，在之前，我們搞清楚了令人頭疼的字符編碼問(wèn)題后，我們?cè)賮?lái)研究Python的字符串。在最新的Python 3版本中，字符串是以Unicode編碼的，也就是說(shuō)，Python的字符串支持多語(yǔ)言，例如：>>> print(&#

推薦度：

點(diǎn)擊下載本文 文檔為doc格式

導(dǎo)讀Python字符串的處理那些事:本章介紹了Python字符串的編寫與處理，在之前，我們搞清楚了令人頭疼的字符編碼問(wèn)題后，我們?cè)賮?lái)研究Python的字符串。在最新的Python 3版本中，字符串是以Unicode編碼的，也就是說(shuō)，Python的字符串支持多語(yǔ)言，例如：>>> print(&#

本章介紹了Python字符串的編寫與處理，在之前，我們搞清楚了令人頭疼的字符編碼問(wèn)題后，我們?cè)賮?lái)研究Python的字符串。

在最新的Python 3版本中，字符串是以Unicode編碼的，也就是說(shuō)，Python的字符串支持多語(yǔ)言，例如：

>>> print('包含中文的str')
包含中文的str

對(duì)于單個(gè)字符的編碼，Python提供了ord()函數(shù)獲取字符的整數(shù)表示，chr()函數(shù)把編碼轉(zhuǎn)換為對(duì)應(yīng)的字符：

>>> ord('A')
65
>>> ord('中')
20013
>>> chr(66)
'B'
>>> chr(25991)
'文'

如果知道字符的整數(shù)編碼，還可以用十六進(jìn)制這么寫str：

>>> 'u4e2du6587'
'中文'

兩種寫法完全是等價(jià)的。

由于Python的字符串類型是str，在內(nèi)存中以Unicode表示，一個(gè)字符對(duì)應(yīng)若干個(gè)字節(jié)。如果要在網(wǎng)絡(luò)上傳輸，或者保存到磁盤上，就需要把str變?yōu)橐宰止?jié)為單位的bytes。

Python對(duì)bytes類型的數(shù)據(jù)用帶b前綴的單引號(hào)或雙引號(hào)表示：

x = b'ABC'

要注意區(qū)分'ABC'和b'ABC'，前者是str，后者雖然內(nèi)容顯示得和前者一樣，但bytes的每個(gè)字符都只占用一個(gè)字節(jié)。

以Unicode表示的str通過(guò)encode()方法可以編碼為指定的bytes，例如：

>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'xe4xb8xadxe6x96x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>UnicodeEncodeError:
 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

純英文的str可以用ASCII編碼為bytes，內(nèi)容是一樣的，含有中文的str可以用UTF-8編碼為bytes。含有中文的str無(wú)法用ASCII編碼，因?yàn)橹形木幋a的范圍超過(guò)了ASCII編碼的范圍，Python會(huì)報(bào)錯(cuò)。

在bytes中，無(wú)法顯示為ASCII字符的字節(jié)，用x##顯示。

反過(guò)來(lái)，如果我們從網(wǎng)絡(luò)或磁盤上讀取了字節(jié)流，那么讀到的數(shù)據(jù)就是bytes。要把bytes變?yōu)閟tr，就需要用decode()方法：

>>> b'ABC'.decode('ascii')
'ABC'
>>> b'xe4xb8xadxe6x96x87'.decode('utf-8')
'中文'

如果bytes中包含無(wú)法解碼的字節(jié)，decode()方法會(huì)報(bào)錯(cuò)：

>>> b'xe4xb8xadxff'.decode('utf-8')
Traceback (most recent call last):
 ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 3: invalid start byte

以上，就是Python字符串編程的問(wèn)題

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

Python字符串的處理那些事

推薦度：

點(diǎn)擊下載本文 文檔為doc格式

標(biāo)簽：處理的處理 python

熱門焦點(diǎn)

Python字符串的處理那些事

Python字符串的處理那些事

Python字符串的處理那些事

最新推薦

猜你喜歡

熱門推薦