添加lzoforhivetable
來源:懂視網
責編:小采
時間:2020-11-09 13:25:02
添加lzoforhivetable
添加lzoforhivetable:hivehiveconf hive.exec.compress.output=true hiveconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec 之后為其每個lzo塊添加index: hadoop jar /usr/local/hadoop/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.Distr hiveR
導讀添加lzoforhivetable:hivehiveconf hive.exec.compress.output=true hiveconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec 之后為其每個lzo塊添加index: hadoop jar /usr/local/hadoop/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.Distr hiveR

hive?hiveconf hive.exec.compress.output=true hiveconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec 之后為其每個lzo塊添加index: hadoop jar /usr/local/hadoop/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.Distr
hive?–hiveconf hive.exec.compress.output=true –hiveconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec
之后為其每個lzo塊添加index:
hadoop jar /usr/local/hadoop/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.DistributedLzoIndexer ?path/xxx.lzo ? ?注意(沒有-jobconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec選項只設置-jobconf mapred.output.compress=true 選項的話 reduce作業輸出文件的格式為.lzo_deflate )
之所以要為其添加index的原理:
這樣會按照block大小來切分塊。(速度變快,但是多消耗cpu時間。map數目大量增加)
如果不對文件建立lzo索引則不會按照block來切分塊
使用LZO過程會發現它有兩種壓縮編碼可以使用,即LzoCodec和LzopCodec,下面說說它們區別:
- LzoCodec比LzopCodec更快, LzopCodec為了兼容LZOP程序添加了如?bytes signature, header等信息
- 如果使用?LzoCodec作為Reduce輸出,則輸出文件擴展名為”.lzo_deflate”,它無法被lzop讀取;如果使用LzopCodec作為Reduce輸出,則擴展名為”.lzo”,它可以被lzop讀取
- 生成lzo index job的”DistributedLzoIndexer“無法為 LzoCodec,即 “.lzo_deflate”擴展名的文件創建index
- ”.lzo_deflate“文件無法作為MapReduce輸入,”.LZO”文件則可以。
- 綜上所述得出最佳實踐:map輸出的中間數據使用 LzoCodec,reduce輸出使用 LzopCodec
原文地址:添加lzo for hive table, 感謝原作者分享。
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com
添加lzoforhivetable
添加lzoforhivetable:hivehiveconf hive.exec.compress.output=true hiveconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec 之后為其每個lzo塊添加index: hadoop jar /usr/local/hadoop/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.Distr hiveR