<span id="mktg5"></span>

<i id="mktg5"><meter id="mktg5"></meter></i>

        <label id="mktg5"><meter id="mktg5"></meter></label>
        最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
        問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
        當前位置: 首頁 - 科技 - 知識百科 - 正文

        Python使用gensim計算文檔相似性

        來源:懂視網 責編:小采 時間:2020-11-27 14:35:43
        文檔

        Python使用gensim計算文檔相似性

        Python使用gensim計算文檔相似性:pre_file.py #-*-coding:utf-8-*- import MySQLdb import MySQLdb as mdb import os,sys,string import jieba import codecs reload(sys) sys.setdefaultencoding('utf-8') #連接數據庫 try: conn=mdb.connect(host='127.0.0.1',user='root',passwd='kongjunli',
        推薦度:
        導讀Python使用gensim計算文檔相似性:pre_file.py #-*-coding:utf-8-*- import MySQLdb import MySQLdb as mdb import os,sys,string import jieba import codecs reload(sys) sys.setdefaultencoding('utf-8') #連接數據庫 try: conn=mdb.connect(host='127.0.0.1',user='root',passwd='kongjunli',

        pre_file.py

        #-*-coding:utf-8-*-
        import MySQLdb
        import MySQLdb as mdb
        import os,sys,string
        import jieba
        import codecs
        reload(sys)
        sys.setdefaultencoding('utf-8')
        #連接數據庫
        try:
         conn=mdb.connect(host='127.0.0.1',user='root',passwd='kongjunli',db='test1',charset='utf8')
        except Exception,e:
         print e
         sys.exit()
        #獲取cursor對象操作數據庫
        cursor=conn.cursor(mdb.cursors.DictCursor) #cursor游標
        #獲取內容
        sql='SELECT link,content FROM test1.spider;'
        cursor.execute(sql) #execute()方法,將字符串當命令執行
        data=cursor.fetchall()#fetchall()接收全部返回結果行
        f=codecs.open('C:UserskkDesktophello-result1.txt','w','utf-8')
         
        for row in data: #row接收結果行的每行數據
         seg='/'.join(list(jieba.cut(row['content'],cut_all='False')))
         f.write(row['link']+' '+seg+'
        ')
        f.close()
         
        cursor.close()
         #提交事務,在插入數據時必須
        
        

        jiansuo.py

        #-*-coding:utf-8-*-
        import sys
        import string
        import MySQLdb
        import MySQLdb as mdb
        import gensim
        from gensim import corpora,models,similarities
        from gensim.similarities import MatrixSimilarity
        import logging
        import codecs
        reload(sys)
        sys.setdefaultencoding('utf-8')
         
        con=mdb.connect(host='127.0.0.1',user='root',passwd='kongjunli',db='test1',charset='utf8')
        with con:
         cur=con.cursor()
         cur.execute('SELECT * FROM cutresult_copy')
         rows=cur.fetchall()
         class MyCorpus(object):
         def __iter__(self):
         for row in rows:
         yield str(row[1]).split('/')
        #開啟日志
        logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level=logging.INFO)
        Corp=MyCorpus()
        #將網頁文檔轉化為tf-idf
        dictionary=corpora.Dictionary(Corp)
        corpus=[dictionary.doc2bow(text) for text in Corp] #將文檔轉化為詞袋模型
        #print corpus
        tfidf=models.TfidfModel(corpus)#使用tf-idf模型得出文檔的tf-idf模型
        corpus_tfidf=tfidf[corpus]#計算得出tf-idf值
        #for doc in corpus_tfidf:
         #print doc
        ###
        '''
        q_file=open('C:UserskkDesktopq.txt','r')
        query=q_file.readline()
        q_file.close()
        vec_bow=dictionary.doc2bow(query.split(' '))#將請求轉化為詞帶模型
        vec_tfidf=tfidf[vec_bow]#計算出請求的tf-idf值
        #for t in vec_tfidf:
         # print t
        '''
        ###
        query=raw_input('Enter your query:')
        vec_bow=dictionary.doc2bow(query.split())
        vec_tfidf=tfidf[vec_bow]
        index=similarities.MatrixSimilarity(corpus_tfidf)
        sims=index[vec_tfidf]
        similarity=list(sims)
        print sorted(similarity,reverse=True)
        
        

        encodings.xml

        <?xml version="1.0" encoding="UTF-8"?>
        
         
         
         
        
        
        

        misc.xml

        <?xml version="1.0" encoding="UTF-8"?>
        
         
         
         
         
         
         
         
         
         
         
         
        
        
        

        modules.xml

        <?xml version="1.0" encoding="UTF-8"?>
        
         
         
         
         
         
        
        

        聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

        文檔

        Python使用gensim計算文檔相似性

        Python使用gensim計算文檔相似性:pre_file.py #-*-coding:utf-8-*- import MySQLdb import MySQLdb as mdb import os,sys,string import jieba import codecs reload(sys) sys.setdefaultencoding('utf-8') #連接數據庫 try: conn=mdb.connect(host='127.0.0.1',user='root',passwd='kongjunli',
        推薦度:
        標簽: 相似度 計算 文本
        • 熱門焦點

        最新推薦

        猜你喜歡

        熱門推薦

        專題
        Top
        主站蜘蛛池模板: 亚洲午夜在线一区| 亚洲精品欧洲精品| 男男黄GAY片免费网站WWW | 久久精品一区二区免费看| 国产亚洲精品精品国产亚洲综合| 思思久久99热免费精品6| 又爽又高潮的BB视频免费看| 老司机亚洲精品影院在线观看| 国产91在线免费| 一级免费黄色大片| 亚洲精品成人片在线观看精品字幕 | 97无码免费人妻超级碰碰夜夜 | 偷自拍亚洲视频在线观看99| 亚洲AV无码一区二三区| 一级毛片视频免费| 亚洲国产精品一区二区久久| 国产永久免费高清在线| 亚洲熟妇丰满多毛XXXX| 曰批全过程免费视频在线观看无码| 亚洲精品无码永久在线观看你懂的| 日韩电影免费在线观看中文字幕| 亚洲视频2020| 啦啦啦手机完整免费高清观看| 日韩精品亚洲专区在线影视| 久久亚洲av无码精品浪潮| 久久中文字幕免费视频| 亚洲 欧洲 日韩 综合在线| 国产免费拔擦拔擦8x| 男女一进一出抽搐免费视频| 亚洲欧洲日韩不卡| 成人一a毛片免费视频| 人妻仑乱A级毛片免费看| 亚洲AV无码久久| 免费观看的毛片手机视频| 香蕉国产在线观看免费| 久久久久久久久亚洲| 免费看的黄色大片| 九九精品成人免费国产片| 亚洲中文无码卡通动漫野外| 精品亚洲视频在线观看| 麻豆视频免费播放|