<span id="mktg5"></span>

<i id="mktg5"><meter id="mktg5"></meter></i>

        <label id="mktg5"><meter id="mktg5"></meter></label>
        最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
        問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
        當前位置: 首頁 - 科技 - 知識百科 - 正文

        Windows下Node爬蟲神器Puppeteer安裝記

        來源:懂視網 責編:小采 時間:2020-11-27 22:02:13
        文檔

        Windows下Node爬蟲神器Puppeteer安裝記

        Windows下Node爬蟲神器Puppeteer安裝記:對于爬蟲,相信大家并不陌生。當希望得到一些網站的數據并做一些有趣的事時,必不可少要爬取網頁,用到爬蟲。而目前網絡上也有很多爬蟲的教程資料,不過又尤以python語言居多。想來自己是做web的,就希望以js的方式解決問題,于是希望利用nodejs。今天介紹
        推薦度:
        導讀Windows下Node爬蟲神器Puppeteer安裝記:對于爬蟲,相信大家并不陌生。當希望得到一些網站的數據并做一些有趣的事時,必不可少要爬取網頁,用到爬蟲。而目前網絡上也有很多爬蟲的教程資料,不過又尤以python語言居多。想來自己是做web的,就希望以js的方式解決問題,于是希望利用nodejs。今天介紹

        對于爬蟲,相信大家并不陌生。當希望得到一些網站的數據并做一些有趣的事時,必不可少要爬取網頁,用到爬蟲。而目前網絡上也有很多爬蟲的教程資料,不過又尤以python語言居多。想來自己是做web的,就希望以js的方式解決問題,于是希望利用nodejs。今天介紹一款node的爬蟲利器:Puppeteer。

        Puppeteer正如其名“木偶”,它允許我們像牽線木偶一樣操縱它。它是一個建立在DevTools協議上的提供控制無頭Chrome或Chromium的高級接口的Node庫。官網上對其應用舉了幾個例子:

      1. - 生成網頁的截屏(目前僅支持支持jpeg、png格式)和pdf文件
      2. - 爬取SPA和異步渲染網頁
      3. - 自動表單提交、鍵盤輸入、UI測試等
      4. - 創建最新的自動測試環境,也就是說可以使用最新的瀏覽器特性
      5. - 捕獲站點的時間線以幫助分析性能問題
      6. Puppeteer本質上是一個headless chrome。無頭瀏覽器,相信如果大家做爬蟲肯定有所耳聞。其實就是一個沒有UI界面的瀏覽器,它包含了瀏覽器應該具有的功能,通常做web測試用,不過做爬蟲也是沒問題的。PhantomJS就提供這樣的功能,基于webkit內核,已經有好幾年歷史了。不過因為Puppeteer有背景(谷歌Chrome團隊開發),我最后還是選擇了Puppeteer。它們之間的不同點是后者只關注于Chromium或Chrome。這也導致了最坑的一點是總是綁定最新版本的Chromium。

        上面說到Puppeteer會綁定最新版本的Chromium,這意味著每次使用npm i puppeteer安裝使用它時都會下載最新版本的Chromium,該版本在Windows上大約是130Mb。本來下載npm包就很不易,還要下載一個一百多兆的東西更是難上加難了。當然可以使用cnpm,下圖是我下載的一個界面。可以看到下載了55分鐘,這固然有我網絡慢的問題,但是能不下載Chromium就盡量不下載了吧。

        官網講到可以通過設置環境變量或配置npm config的方式避免下載。但設置環境變量我一直沒有成功,所以接下來講解配置npm config的方式。PUPPETEER_SKIP_CHROMIUM_DOWNLOAD參數可以避免下載,所以可以在安裝puppeteer之前使用下面的命令:

        npm config set puppeteer_skip_chromium_download = 1

        但這樣每次都要敲這個命令總不是辦法,所以可以將其寫入.npmrc文件中。npm官網講到有四個影響npm配置的文件,分別是:項目配置文件(/path/to/my/project/.npmrc)、用戶配置文件 (~/.npmrc)、全局配置文件($PREFIX/etc/npmrc)、npm內置配置文件(/path/to/npm/npmrc)。可以使用npm config list來查看影響npm的配置文件有哪些。不過這里面有個問題,就是上面的介紹文檔是針對npm最新的6.0版本的。而一般隨nodejs下載的npm版本沒有這么高,只是npm4.x,導致項目中的配置文件不生效。可以從下面兩張圖片看到兩種版本的npm的配置文件的不同(上面一張:npm4.0.2,下面一張npm6.0),可以看到后者多出一個project config列表。

        身為強迫癥的我,當然希望直接在項目目錄中更改配置文件了,所以使用下面的命令安裝最新版本的npm:

        npm install npm@latest -g

        然后在項目目錄下建立.npmrc文件,輸入以下配置命令:

        puppeteer_skip_chromium_download = 1

        這樣配置之后,就可以跳過下載了,如圖所示:

        接著就可以使用它了,以官網的例子為例:

        const puppeteer = require('puppeteer');
        
        (async () => {
         const browser = await puppeteer.launch();
         const page = await browser.newPage();
         await page.goto('https://example.com');
         await page.screenshot({path: 'example.png'});
        
         await browser.close();
        })();

        以為這樣就完了嗎?不,雖然跳過下載的事情解決了,但是因為沒有下載會導致puppeteer無法得知要使用的Chrome或Chromium在哪里,所以還需要指明啟動路徑。修改一下:

        const puppeteer = require('puppeteer');
        
        (async () => {
         const browser = await puppeteer.launch({
         // headless: false,//不使用無頭chrome模式
         executablePath: 'C:\\Users\\sunbo\\AppData\\Local\\Google\\Chrome\\Application\\chrome.exe',//path to your chrome
         });
         const page = await browser.newPage();
         await page.goto('https://example.com');
         await page.screenshot({path: 'example.png'});
        
         await browser.close();
        })();

        更改executablePath參數指向你本地chrome所在目錄,注意一定要指向chrome.exe才能正常使用。headless參數也是挺有趣的,如果其值為false,就會真的為我們啟動一個chrome進程,讓我們可以可視化整個程序運行的過程。

        好了,安裝配置好就可以盡情享受Puppeteer帶給我們的美好世界了。最后說一點,官網例子使用async/awaitpromise,所以有必要了解這些異步知識,這些東西運用好,簡直打開了異步編程的新世界。祝好運!!!

        聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

        文檔

        Windows下Node爬蟲神器Puppeteer安裝記

        Windows下Node爬蟲神器Puppeteer安裝記:對于爬蟲,相信大家并不陌生。當希望得到一些網站的數據并做一些有趣的事時,必不可少要爬取網頁,用到爬蟲。而目前網絡上也有很多爬蟲的教程資料,不過又尤以python語言居多。想來自己是做web的,就希望以js的方式解決問題,于是希望利用nodejs。今天介紹
        推薦度:
        標簽: Windows node 安裝node
        • 熱門焦點

        最新推薦

        猜你喜歡

        熱門推薦

        專題
        Top
        主站蜘蛛池模板: 黄页网站在线看免费| 日韩吃奶摸下AA片免费观看| 国产在线观看www鲁啊鲁免费| 亚洲人成7777影视在线观看| 91嫩草免费国产永久入口| 久久精品国产亚洲av麻豆小说| 亚洲av片不卡无码久久| 国产亚洲精品免费| 亚洲精品A在线观看| 亚洲三级中文字幕| 最近2019中文字幕mv免费看 | 亚洲av无码一区二区乱子伦as| 一级毛片免费播放试看60分钟| 日韩吃奶摸下AA片免费观看| 中文字幕亚洲男人的天堂网络| 青青青国产免费一夜七次郎| 亚洲视频免费一区| 免费无码又爽又刺激网站| 亚洲高清专区日韩精品| 未满十八18禁止免费无码网站 | 亚洲av最新在线观看网址| 最近免费最新高清中文字幕韩国| 亚洲性日韩精品一区二区三区| 亚洲色在线无码国产精品不卡| 精品久久免费视频| 国产精品福利片免费看| 四虎永久免费地址在线观看| yellow免费网站| 久久久久亚洲av无码专区喷水| 大地资源二在线观看免费高清| 国产精品成人亚洲| 国产亚洲成av片在线观看| 国产精品免费αv视频| 国产亚洲精品一品区99热| 999久久久免费精品国产| 亚洲熟妇丰满xxxxx| 伊人久久综在合线亚洲91| 成年人网站免费视频| 四虎国产精品成人免费久久| 亚洲欧洲日产国码高潮αv| 在线成人爽a毛片免费软件|