Python中裝飾器的一個(gè)妙用

來(lái)源：懂視網(wǎng) 責(zé)編：小采時(shí)間：2020-11-27 14:40:19

Python中裝飾器的一個(gè)妙用

Python中裝飾器的一個(gè)妙用:好吧，我知道是大半夜……，但我還是覺(jué)得趕緊花上半個(gè)小時(shí)，把這最新的想法分享出來(lái)是值得的~直接進(jìn)入正題~ 我們來(lái)模擬一個(gè)場(chǎng)景，需要你去抓去一個(gè)頁(yè)面，然后這個(gè)頁(yè)面有好多url也要分別去抓取，而進(jìn)入這些子url后，還有數(shù)據(jù)要抓取。簡(jiǎn)單點(diǎn)，我們就按照三層來(lái)

推薦度：

點(diǎn)擊下載本文 文檔為doc格式

導(dǎo)讀Python中裝飾器的一個(gè)妙用:好吧，我知道是大半夜……，但我還是覺(jué)得趕緊花上半個(gè)小時(shí)，把這最新的想法分享出來(lái)是值得的~直接進(jìn)入正題~ 我們來(lái)模擬一個(gè)場(chǎng)景，需要你去抓去一個(gè)頁(yè)面，然后這個(gè)頁(yè)面有好多url也要分別去抓取，而進(jìn)入這些子url后，還有數(shù)據(jù)要抓取。簡(jiǎn)單點(diǎn)，我們就按照三層來(lái)

好吧，我知道是大半夜……，但我還是覺(jué)得趕緊花上半個(gè)小時(shí)，把這最新的想法分享出來(lái)是值得的~直接進(jìn)入正題~

我們來(lái)模擬一個(gè)場(chǎng)景，需要你去抓去一個(gè)頁(yè)面，然后這個(gè)頁(yè)面有好多url也要分別去抓取，而進(jìn)入這些子url后，還有數(shù)據(jù)要抓取。簡(jiǎn)單點(diǎn)，我們就按照三層來(lái)看，那我們的代碼就是如下：

代碼如下:

def func_top(url):
data_dict= {}

#在頁(yè)面上獲取到子url
sub_urls = xxxx

data_list = []
for it in sub_urls:
data_list.append(func_sub(it))

data_dict[\'data\'] = data_list

return data_dict

def func_sub(url):
data_dict= {}

#在頁(yè)面上獲取到子url
bottom_urls = xxxx

data_list = []
for it in bottom_urls:
data_list.append(func_bottom(it))

data_dict[\'data\'] = data_list

return data_dict

def func_bottom(url):
#獲取數(shù)據(jù)
data = xxxx
return data

func_top是上層頁(yè)面的處理函數(shù)，func_sub是子頁(yè)面的處理函數(shù)，func_bottom是最深層頁(yè)面的處理函數(shù)，func_top會(huì)在取到子頁(yè)面url后遍歷調(diào)用func_sub,func_sub也是同樣。

如果正常情況下，這樣確實(shí)已經(jīng)滿(mǎn)足需求了，但是偏偏這個(gè)你要抓取的網(wǎng)站可能極不穩(wěn)定，經(jīng)常鏈接不上，導(dǎo)致數(shù)據(jù)拿不到。

于是這個(gè)時(shí)候你有兩個(gè)選擇:

1.遇到錯(cuò)誤就停止，之后重新從斷掉的位置開(kāi)始重新跑
2.遇到錯(cuò)誤繼續(xù)，但是要在之后重新跑一遍，這個(gè)時(shí)候已經(jīng)有的數(shù)據(jù)不希望再去網(wǎng)站拉一次，而只去拉沒(méi)有取到的數(shù)據(jù)

對(duì)第一種方案基本無(wú)法實(shí)現(xiàn)，因?yàn)槿绻麆e人網(wǎng)站的url調(diào)整順序，那么你記錄的位置就無(wú)效了。那么只有第二種方案，說(shuō)白了，就是要把已經(jīng)拿到的數(shù)據(jù)cache下來(lái)，等需要的時(shí)候，直接從cache里面取。

OK，目標(biāo)已經(jīng)有了，怎么實(shí)現(xiàn)呢？

如果是在C++中的，這是個(gè)很麻煩的事情，而且寫(xiě)出來(lái)的代碼必定丑陋無(wú)比，然而慶幸的是，我們用的是python，而python對(duì)函數(shù)有裝飾器。

所以實(shí)現(xiàn)方案也就有了:

定義一個(gè)裝飾器，如果之前取到數(shù)據(jù)，就直接取cache的數(shù)據(jù)；如果之前沒(méi)有取到，那么就從網(wǎng)站拉取，并且存入cache中.

代碼如下:

def get_dump_data(dir_name, url):
m = hashlib.md5(url)
filename = m.hexdigest()
full_file_name = \'dumps/%s/%s\' % (dir_name,filename)

if os.path.isfile(full_file_name):
return eval(file(full_file_name,\'r\').read())
else:
return None

def set_dump_data(dir_name, url, data):
if not os.path.isdir(\'dumps/\'+dir_name):
os.makedirs(\'dumps/\'+dir_name)

m = hashlib.md5(url)
filename = m.hexdigest()
full_file_name = \'dumps/%s/%s\' % (dir_name,filename)

f = file(full_file_name, \'w+\')
f.write(repr(data))
f.close()

def deco_dump_data(func):
def func_wrapper(url):
data = get_dump_data(func.__name__,url)
if data is not None:
return data

data = func(url)
if data is not None:
set_dump_data(func.__name__,url,data)
return data

return func_wrapper

然后，我們只需要在每個(gè)func_top,func_sub,func_bottom都加上deco_dump_data這個(gè)裝飾器即可~~

搞定！這樣做最大的好處在于，因?yàn)閠op,sub,bottom，每一層都會(huì)dump數(shù)據(jù)，所以比如某個(gè)sub層數(shù)據(jù)dump之后，是根本不會(huì)走到他所對(duì)應(yīng)的bottom層的，減少了大量的開(kāi)銷(xiāo)！

OK，就這樣~ 人生苦短，我用python！

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

Python中裝飾器的一個(gè)妙用

推薦度：

點(diǎn)擊下載本文 文檔為doc格式

標(biāo)簽：一個(gè) python 裝飾器

熱門(mén)焦點(diǎn)

Python中裝飾器的一個(gè)妙用

Python中裝飾器的一個(gè)妙用

Python中裝飾器的一個(gè)妙用

最新推薦

猜你喜歡

熱門(mén)推薦