Python爬蟲從入門到精通（解析庫re的使用：正則表達(dá)式）

網(wǎng)海拾貝網(wǎng)絡(luò)豬 2020-03-17

展開全文

解析庫使用篇：
解析庫re的使用：正則表達(dá)式
 解析庫XPath的使用
 解析庫Beautiful Soup的使用
 解析庫pyquery的使用

正則表達(dá)式是處理字符串的強(qiáng)大工具，它有自己特定的語法結(jié)構(gòu)，有了它，實現(xiàn)字符串的檢索、替換、匹配驗證都不在話下。對于爬蟲，基于正則表達(dá)式，從HTML里提取想要的信息就非常方便了。

正則表達(dá)式有特定的語法規(guī)則的。寫好正則表達(dá)式后，就可以拿它去一個長字符串里匹配查找了。不論這個字符串里面有什么，只要符合我們寫的規(guī)則，統(tǒng)統(tǒng)可以找出來。對于網(wǎng)頁來說，如果想找出網(wǎng)頁源代碼里有多少URL，用匹配URL的正則表達(dá)式去匹配即可。下圖就列出了正則表達(dá)式常用的匹配規(guī)則。

正則表達(dá)式不是Python獨(dú)有的，它可以用在其他編程語言中。在Python中，re庫提供了整個正則表達(dá)式的實現(xiàn)，利用這個庫，可以在Python中使用正則表達(dá)式。在Python中寫正則表達(dá)式幾乎都用這個庫，下面就來了解它的一些常用方法。

match()

match()傳入要匹配的字符串以及正則表達(dá)式，就可以檢測這個正則表達(dá)式是否匹配字符串。match()方法會嘗試從字符串的起始位置匹配正則表達(dá)式，如果匹配，就返回匹配成功的結(jié)果，如果不匹配，就返回None。

import re

content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.match('Blog:\w{11}', content)
print(result.group())

運(yùn)行結(jié)果：

Blog:hy592070616

這里首先聲明了一個字符串 'Blog:hy592070616 Corporation:HUAWEI'，其中包含英文字母、空格、數(shù)字、冒號等。接下來，我們寫一個正則表達(dá)式'Blog:\w{11}'來匹配這個字符串。正則表達(dá)式中Blog:就是待匹配字符串的開頭，\w通過查上表可知是匹配字母、數(shù)字及下劃線，\w后面跟著{11}表示匹配11個\w。根據(jù)這個規(guī)則就可以從字符串 'Blog:hy592070616 Corporation:HUAWEI'中匹配出字符串Blog:hy592070616。同樣，我們可以加入\s來匹配空格，\d來匹配數(shù)字以匹配整個字符串。

import re

content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.match('\w{4}:\w{2}\d{9}\s\w{11}:\w{6}', content)
print(result.group())

運(yùn)行結(jié)果：

Blog:hy592070616 Corporation:HUAWEI

當(dāng)然，做這種簡單的任務(wù)我們可以用\S來匹配任意非空字符達(dá)到相同的效果。

import re

content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.match('\S{16}\s\S{18}', content)
print(result.group())

上面幾種正則表達(dá)式比較復(fù)雜，出現(xiàn)空白字符我們就寫\s匹配，出現(xiàn)數(shù)字我們就用\d匹配，這樣的工作量非常大。其實完全沒必要這么做，在上表中有一個萬能匹配.*。其中，.可以匹配任意字符（除換行符），*代表字符無限次，所以它們組合在一起就可以匹配任意字符了。有了.*，我們就不用挨個字符地匹配了。

import re

content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.match('B.*I', content)
print(result.group())

正則表達(dá)式B.*I中的B和I代表了字符串Blog:hy592070616 Corporation:HUAWEI首位兩個字符，其它的字符均用.*來進(jìn)行匹配。我們就可以得到相同的結(jié)果：

Blog:hy592070616 Corporation:HUAWEI

如果想從字符串中提取一部分內(nèi)容，可以使用()將想提取的子字符串括起來。()實際上標(biāo)記了一個子表達(dá)式的開始和結(jié)束位置，被標(biāo)記的每個子表達(dá)式會依次對應(yīng)每一個分組，調(diào)用group()方法傳入分組的索引即可獲取提取的結(jié)果。比如希望從我的博客名hy592070616中提取我的QQ號592070616就可以使用()。

import re

content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.match('\w{4}:\w\w(\d+)', content)
print(result.group(1))

運(yùn)行結(jié)果：

592070616

可以看到，我們成功得到了592070616。這里用的是group(1)，它與group()有所不同。group()會輸出完整的匹配結(jié)果，而group(1)會輸出第一個被()包圍的匹配結(jié)果。假如正則表達(dá)式后面還有()包括的內(nèi)容，那么可以依次用group(2)、group(3)等來獲取。

若使用.*匹配時，有時候匹配到的并不是我們想要的結(jié)果。比如還是從我的博客名hy592070616中提取我的QQ號592070616。

import re

content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.match('B.*(\d+)', content)
print(result.group(1))

運(yùn)行結(jié)果為：

很明顯，我們希望提取的是592070616，而此處由于我們用了萬能匹配符.*在語句中，正則表達(dá)式就會匹配59207061，所以在括號中我們就只能提取到一個數(shù)字6。這里就涉及一個貪婪匹配與非貪婪匹配的問題了。在貪婪匹配下，.*會匹配盡可能多的字符。正則表達(dá)式中.*后面是\d+，也就是至少一個數(shù)字，并沒有指定具體多少個數(shù)字，因此，.*就盡可能匹配多的字符，這里就把59207061給匹配了，給\d+留下一個可滿足條件的數(shù)字6。這很明顯會給我們帶來很大的不便。有時候，匹配結(jié)果會莫名其妙少了一部分內(nèi)容。其實，這里只需要使用非貪婪匹配就好了。非貪婪匹配的寫法是.*?，我們需要將將第一個.*改成了.*?就可以轉(zhuǎn)變?yōu)榉秦澙菲ヅ洹?/p>

import re

content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.match('B.*?(\d+)', content)
print(result.group(1))

結(jié)果如下：

592070616

match()還有個可選參數(shù)修飾符，修飾符可以擴(kuò)展正則表達(dá)式的匹配范圍。
正則表達(dá)式修飾符
比如，在字符串Blog:hy592070616 Corporation:HUAWEI中加入換行，將其變?yōu)椋?/p>

Blog:hy592070616
Corporation:HUAWEI

用之前的方法就沒有辦法對其進(jìn)行匹配：

import re

content = '''Blog:hy592070616
Corporation:HUAWEI
'''
result = re.match('B.*I', content)
print(result.group())

這里的result就會返回一個None，因為.*無法匹配換行符。我們只需在match()中的第三個參數(shù)加一個修飾符re.S，即可修正這個錯誤。

import re

content = '''Blog:hy592070616
Corporation:HUAWEI
'''
result = re.match('B.*I', content, re.S)
print(result.group())

這樣就可以正常返回結(jié)果：

Blog:hy592070616
Corporation:HUAWEI

search()

match()方法是從字符串的開頭開始匹配的，一旦開頭不匹配，那么整個匹配就失敗了。而search()方法在匹配時會掃描整個字符串，然后返回第一個成功匹配的結(jié)果。也就是說，正則表達(dá)式可以是字符串的一部分，在匹配時，search()方法會依次掃描字符串，直到找到第一個符合規(guī)則的字符串，然后返回匹配內(nèi)容，如果搜索完了還沒有找到，就返回None。比如我們要匹配字符串Blog:hy592070616 Corporation:HUAWEI中的HUAWEI：

import re

content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.search('Corporation:(\w+)', content)
print(result.group(1))

就可以得到HUAWEI結(jié)果，而不需要將字符串前部全部匹配。

findall()

search()方法可以返回匹配正則表達(dá)式的第一個內(nèi)容，但是如果想要獲取匹配正則表達(dá)式的所有內(nèi)容，就需要findall()方法。該方法會搜索整個字符串，然后返回匹配正則表達(dá)式的所有內(nèi)容并返回列表。假設(shè)我們有HTML文件：

<div id="songs-list">
    <h2 class="title">經(jīng)典老歌</h2>
    <p class="introduction">
        經(jīng)典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齊秦">往事隨風(fēng)</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="鄧麗君"><i class="fa fa-user"></i>但愿人長久</a>
        </li>
    </ul>
</div>

我們希望提取歌手和歌名的信息，則可以：

import re

html = '''<div id="songs-list">
    <h2 class="title">經(jīng)典老歌</h2>
    <p class="introduction">
        經(jīng)典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齊秦">往事隨風(fēng)</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="鄧麗君"><i class="fa fa-user"></i>但愿人長久</a>
        </li>
    </ul>
</div>'''

result = re.findall('singer="(\w+).*>(\w+)</a>', html)
print(result)

我們可以看到，大部分的歌手和歌名是singer="歌手">歌名</a>的形式，則我們可以寫正則表達(dá)式singer="(\w+)">(\w+)</a>。但是我們發(fā)現(xiàn)有一條 singer="鄧麗君"><i class="fa fa-user"></i>但愿人長久</a>中有其他信息，使用上述的正則表達(dá)式這無法匹配出（鄧麗君，但愿人長久）這個信息。基于這個問題，我們可以將正則表達(dá)式修改為singer="(\w+).*>(\w+)</a>（上述代碼中的正則表達(dá)式），就可以順利匹配出所有信息了。

[('任賢齊', '滄海一聲笑'), ('齊秦', '往事隨風(fēng)'), ('beyond', '光輝歲月'), ('陳慧琳', '記事本'), ('鄧麗君', '但愿人長久')]

sub()

除了使用正則表達(dá)式提取信息外，有時候還需要借助它來修改文本。比如，想要把一串文本中的所有數(shù)字都去掉，這時就可以借助sub()方法。比如，我想將字符串Blog:hy592070616 Corporation:HUAWEI中的Corporation:HUAWEI去掉，就可以匹配Corporation:HUAWEI并用空的字符串替換。

import re

content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.sub('Corporation:.*', '',content)
print(result)

結(jié)果如下：

Blog:hy592070616

compile()

除了前面提到的處理字符串的方法以外，最后再介紹一下compile()方法，這個方法可以將正則字符串編譯成正則表達(dá)式對象，以便在后面的匹配中復(fù)用。

import re

content1 = '2019-01-01 12:00'
content2 = '2019-01-02 12:30'
content3 = '2019-01-03 13:00'
pattern = re.compile('(\d+)-(\d+)-(\d+)\s.*')
result_1 = re.match(pattern, content1)
result_2 = re.match(pattern, content2)
result_3 = re.match(pattern, content3)
print('Year:' + result_1.group(1) + '  Month:' + result_1.group(2) + '  Day:' + result_1.group(3))
print('Year:' + result_2.group(1) + '  Month:' + result_2.group(2) + '  Day:' + result_2.group(3))
print('Year:' + result_3.group(1) + '  Month:' + result_3.group(2) + '  Day:' + result_3.group(3))

這里為了找到各個字符串中的年月日信息構(gòu)建了正則表達(dá)式對象(\d+)-(\d+)-(\d+)\s.*以復(fù)用，輸出結(jié)果如下：

import re

content1 = '2019-01-01 12:00'
content2 = '2019-01-02 12:30'
content3 = '2019-01-03 13:00'
pattern = re.compile('(\d+)-(\d+)-(\d+)\s.*')
result_1 = re.match(pattern, content1)
result_2 = re.match(pattern, content2)
result_3 = re.match(pattern, content3)
print('Year:' + result_1.group(1) + '  Month:' + result_1.group(2) + '  Day:' + result_1.group(3))
print('Year:' + result_2.group(1) + '  Month:' + result_2.group(2) + '  Day:' + result_2.group(3))
print('Year:' + result_3.group(1) + '  Month:' + result_3.group(2) + '  Day:' + result_3.group(3))

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：網(wǎng)海拾貝網(wǎng)絡(luò)豬 > 《爬蟲》

舉報/認(rèn)領(lǐng)