<span id="mktg5"></span>

<i id="mktg5"><meter id="mktg5"></meter></i>

        <label id="mktg5"><meter id="mktg5"></meter></label>
        最新文章專題視頻專題問答1問答10問答100問答1000問答2000關(guān)鍵字專題1關(guān)鍵字專題50關(guān)鍵字專題500關(guān)鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關(guān)鍵字專題關(guān)鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
        問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
        當(dāng)前位置: 首頁(yè) - 科技 - 知識(shí)百科 - 正文

        Ubuntu12.04+Nutch2.2.1+MySQL配置筆記

        來(lái)源:懂視網(wǎng) 責(zé)編:小采 時(shí)間:2020-11-09 15:42:23
        文檔

        Ubuntu12.04+Nutch2.2.1+MySQL配置筆記

        Ubuntu12.04+Nutch2.2.1+MySQL配置筆記:日期:2013/10/13 系統(tǒng) :Ubuntu12.04LTS JDK :1.7.0_21 Nutch :2.2.1 MySQL :5.5.32 -----------------------------------------------------------------------------------------------------
        推薦度:
        導(dǎo)讀Ubuntu12.04+Nutch2.2.1+MySQL配置筆記:日期:2013/10/13 系統(tǒng) :Ubuntu12.04LTS JDK :1.7.0_21 Nutch :2.2.1 MySQL :5.5.32 -----------------------------------------------------------------------------------------------------

        日期:2013/10/13 系統(tǒng) :Ubuntu12.04LTS JDK :1.7.0_21 Nutch :2.2.1 MySQL :5.5.32 ------------------------------------------------------------------------------------------------------------------------------------------------------------


        日期:2013/10/13

        系統(tǒng):Ubuntu12.04LTS

        JDK:1.7.0_21

        Nutch:2.2.1

        MySQL:5.5.32

        --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

        Pre1:安裝配置OracleJDK

        Pre2:安裝配置MySQL sudo apt-get install mysql-server,mysql-client

        Pre3:安裝配置Apache Ant sudo apt-get install ant

        Start:Ubuntu下搭建Nutch2.2.1,并以MySQL作為數(shù)據(jù)庫(kù),UTF-8為默認(rèn)編碼綜合配置


        Step1:MySQL配置

        首先編輯 /etc/mysql/my.cnf 文件在[mysqld]下面添加以下內(nèi)容:

        innodb_file_format=barracuda
        innodb_file_per_table=true
        innodb_large_prefix=true
        character-set-server=utf8
        collation-server=utf8mb4_unicode_ci
        max_allowed_packet=500M
        

        然后創(chuàng)建數(shù)據(jù)庫(kù)與數(shù)據(jù)表:

        CREATE DATABASE nutch DEFAULT CHARACTER SET utf8mb4 DEFAULT COLLATE utf8;
        CREATE TABLE `webpage` (
        `id` varchar(767) NOT NULL,
        `headers` blob,
        `text` mediumtext DEFAULT NULL,
        `status` int(11) DEFAULT NULL,
        `markers` blob,
        `parseStatus` blob,
        `modifiedTime` bigint(20) DEFAULT NULL,
        `score` float DEFAULT NULL,
        `typ` varchar(32) CHARACTER SET latin1 DEFAULT NULL,
        `batchId` varchar(32) CHARACTER SET latin1 DEFAULT NULL, 
        `baseUrl` varchar(767) DEFAULT NULL,
        `content` longblob,
        `title` varchar(2048) DEFAULT NULL,
        `reprUrl` varchar(767) DEFAULT NULL,
        `fetchInterval` int(11) DEFAULT NULL,
        `prevFetchTime` bigint(20) DEFAULT NULL,
        `inlinks` mediumblob,
        `prevSignature` blob,
        `outlinks` mediumblob,
        `fetchTime` bigint(20) DEFAULT NULL,
        `retriesSinceFetch` int(11) DEFAULT NULL,
        `protocolStatus` blob,
        `signature` blob,
        `metadata` blob,
        PRIMARY KEY (`id`)
        ) ENGINE=InnoDB
        ROW_FORMAT=COMPRESSED
        DEFAULT CHARSET=utf8;
        
        注:表中的字段根據(jù)nutch的conf文件“gora-sql-mapping”進(jìn)行設(shè)置。同時(shí)也可通過自動(dòng)方式生成數(shù)據(jù)庫(kù)和表:配置好“gora-sql-mapping”、“gora.properties”及其它文件后,首次通過運(yùn)行”bin/nutchinject urls”即可自動(dòng)生成數(shù)據(jù)庫(kù)和表,不過或許在自動(dòng)生成的時(shí)候你會(huì)遇到問題,不過沒有關(guān)系,通過及時(shí)查看hadoop.log文件你便會(huì)發(fā)現(xiàn)很多問題(如下圖之一)與MySQL支持的數(shù)據(jù)類型、數(shù)據(jù)長(zhǎng)度有關(guān),只需要根據(jù)日志提示做修改、調(diào)試(可借助navicat工具像SQLServer方便操作數(shù)據(jù)庫(kù)),然后再重復(fù)自動(dòng)生成過程,直到成功為止。


        Step2:Nutch配置

        獲取Nutch2.2.1,從官網(wǎng)http://www.apache.org/dyn/closer.cgi/nutch/下載,然后解壓至本地安裝目錄,如本地根目錄為${APACHE_NUTCH_HOME}

        配置nutch對(duì)mysql的支持,修改${APACHE_NUTCH_HOME}/ivy/ivy.xml文件

        將以下行的注釋取消:

        default”/>

        修改以下行:

        為:

        Step3:數(shù)據(jù)庫(kù)連接配置

        編輯${APACHE_NUTCH_HOME}/conf/gora.properties文件,注釋掉默認(rèn)的數(shù)據(jù)庫(kù)連接配置,同時(shí)添加以下配置內(nèi)容:

        ###############################
        # MySQL configure #
        ###############################
        gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
        gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true
        gora.sqlstore.jdbc.user=xxxx(MySQL用戶名)
        gora.sqlstore.jdbc.password=xxxx(MySQL密碼)

        Step4:數(shù)據(jù)表映射配置

        修改${APACHE_NUTCH_HOME}/conf/gora.properties文件,這里的修改建議按照前面介紹的自動(dòng)生成數(shù)據(jù)表的方法進(jìn)行修改,網(wǎng)上說(shuō)的要將primarykey的長(zhǎng)度從512修改成767,即:

        改: 為:

        Step5:nutch-site.xml配置

        添加以下配置:

        
        	http.agent.name
        	Your Nutch Spider
        
        
        	http.accept.language
        	zh-cn, en-us,en-gb,en;q=0.7,*;q=0.3
        	*
        
        
        	parser.character.encoding.default
        	utf-8
        	*
        
        
        	storage.data.store.class
        	org.apache.gora.sql.store.SqlStore
        	*
        
        
        特別需要注意,本人在配置過程中也遇到了:
        java.lang.NullPointerException 
        at org.apache.avro.util.Utf8.(Utf8.java:37) 
        at org.apache.nutch.crawl.GeneratorReducer.setup(GeneratorReducer.java:100) 
        at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:174) 
        at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:649) 
        at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418) 
        at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:398) 
        解決辦法就是在上述文件中另外添加一個(gè)屬性:
        
        
         generate.batch.id
        
         *
        
        
        Step6:使用ant 構(gòu)建Nutch

        (關(guān)于ant的命令,這里就不說(shuō)明了),只需要切換到${APACHE_NUTCH_HOME}下執(zhí)行ant clean 然后ant 即可。構(gòu)建完畢后會(huì)在${APACHE_NUTCH_HOME}目錄下生成runtime 文件夾。

        Step:7 網(wǎng)頁(yè)抓取,種子配置

        創(chuàng)建種子文件

        cd${APACHE_NUTCH_HOME}/runtime/local 
        mkdir -p urls 
        echo 'http://www.sina.com.cn' > urls/seed.txt
        echo 'http://www.ifeng.com' > urls/seed.txt
        執(zhí)行爬取操作
        bin/nutchcrawl urls -depth 5 -topN 10

        至此,已經(jīng)完成了基本的配置。

        聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

        文檔

        Ubuntu12.04+Nutch2.2.1+MySQL配置筆記

        Ubuntu12.04+Nutch2.2.1+MySQL配置筆記:日期:2013/10/13 系統(tǒng) :Ubuntu12.04LTS JDK :1.7.0_21 Nutch :2.2.1 MySQL :5.5.32 -----------------------------------------------------------------------------------------------------
        推薦度:
        標(biāo)簽: 筆記 ubuntu mysql
        • 熱門焦點(diǎn)

        最新推薦

        猜你喜歡

        熱門推薦

        專題
        Top
        主站蜘蛛池模板: 亚洲日本国产综合高清| 亚洲毛片无码专区亚洲乱| 亚洲av成本人无码网站| 久久WWW免费人成人片| 亚洲中文字幕一区精品自拍| 毛片网站免费在线观看| 亚洲乱人伦中文字幕无码| 成人免费视频88| 老司机福利在线免费观看| 久久乐国产精品亚洲综合| 免费看无码特级毛片| 亚洲日本精品一区二区| 最新黄色免费网站| 亚洲高清中文字幕免费| 国产成人免费高清在线观看| 日韩亚洲翔田千里在线| 国产亚洲情侣一区二区无| 久久精品成人免费看| 亚洲国产品综合人成综合网站| 国产成人yy免费视频| 极品色天使在线婷婷天堂亚洲| 精品亚洲视频在线观看| 少妇太爽了在线观看免费视频| 亚洲乱码卡一卡二卡三| 免费在线黄色网址| 国产精品免费AV片在线观看| 亚洲国产综合在线| 亚洲国产精品国产自在在线| 老司机69精品成免费视频| 亚洲乱码一二三四五六区| 免费在线观看日韩| 国产精品免费一区二区三区四区| 亚洲国产精品一区二区三区在线观看 | 亚洲自偷自偷在线制服| 久久精品无码专区免费东京热| 亚洲精品国产精品国自产网站 | 亚洲无线一二三四区| 日韩亚洲精品福利| 3d成人免费动漫在线观看| 国产亚洲精品AAAA片APP| 亚洲免费视频在线观看|