欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

Python對聊天記錄進(jìn)行拆分,找出用戶最關(guān)心的咨詢問題!

背景:

創(chuàng)新互聯(lián)2013年開創(chuàng)至今,先為通州等服務(wù)建站,通州等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為通州企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。

最近部門領(lǐng)導(dǎo)交給筆者一個任務(wù),想要從記錄用戶聊天記錄的數(shù)據(jù)表中,找出用戶對哪些問題比較關(guān)心(即:用戶咨詢過程中問到的哪些詞語出現(xiàn)的頻率最高),以便后期適當(dāng)?shù)淖鲂I(yè)務(wù)的調(diào)整,改變推廣策略等等

聊天記錄如下:

你好

想了解想美國的博士申請

今年就畢業(yè)。準(zhǔn)備申請2020年的。打算申金融或者工商

正在準(zhǔn)備中

有幾篇中文的。比較水。

還沒有。博士競爭激烈。打算多申一些學(xué)校。

那qq吧。1111111

謝謝

2222222

本科GPA一般。3.4的樣子

211

學(xué)生

都行的

嗯好的

麻煩問下會先qq聯(lián)系吧

電話不一定能接到

嗯對

謝謝

思路:

使用jieba模塊的自定義詞庫對每條聊天記錄進(jìn)行拆分(即:中文分詞),然后將每條分詞的結(jié)果存到中間表,最后對這張中間表進(jìn)行結(jié)果的匯總。雖然jieba具備了新詞語的識別能力,但是詞庫中的詞語可能對于某個特定領(lǐng)域的詞語分詞的識別的不是特別令人滿意,使用自定義的關(guān)鍵詞庫,可以使分詞時保證更高的準(zhǔn)確性。

源代碼:

cat userdict.txt

留學(xué)

出國

研究生

英國

美國

cat fenci_dictionary.py

import jieba.analyse

import pyMySQL

db = pymysql.connect(host='xx.xx.xx.xx',user='xxx',passwd='xxx',db='dbname',charset='utf8',connect_timeout=30)

cursor = db.cursor()

sql= 'SELECT msg from tablename where msg_type="g" limit 50'

cursor.execute(sql)

results = cursor.fetchall()

for row in results:

? ? row = row[0]

? ? # UserDictionary Model

? ? jieba.load_userdict('userdict.txt')

? ? for i in jieba.cut(row):

? ? ? ? sql1 = 'insert into test.tmp_fenci_statistic(keywords) values("%s")' % i

? ? ? ? try:

? ? ? ? ? ? cursor.execute(sql1)

? ? ? ? ? ? db.commit()

? ? ? ? except:

? ? ? ? ? ? db.rollback()

db.close()

jieba介紹:

jieba分詞器安裝(就是一個Python模塊)

pip3 install jieba

jieba分詞添加自定義詞典:

如果詞庫中沒有特定領(lǐng)域的詞語,或者對于某個特定領(lǐng)域的關(guān)鍵詞不是識別的特別令人滿意,雖然jieba具備了新詞語的識別能力,但是我們可以自定義屬于自己的關(guān)鍵詞庫,以便在分詞時保證更高的準(zhǔn)確性

語法:

jieba.load_userdict(filename)? ? #filename為自定義的詞典路徑

詞典格式:

一個詞占一行,可以包含三個部分,1:詞語,2:詞頻;3:詞性? 2、3 都可以省略,之間用空格隔開

例:

cat userdict.txt

留學(xué)

出國

研究生

英國

美國

題外:

jieba還支持全精確模式、全模式、搜索引擎模式的分詞功能,這些分詞功能,無絕對的優(yōu)劣之分,主要看適不適用于業(yè)務(wù)分析。關(guān)于這部分的內(nèi)容,如果讀者有興趣,請自行百度查閱吧。

網(wǎng)頁標(biāo)題:Python對聊天記錄進(jìn)行拆分,找出用戶最關(guān)心的咨詢問題!
瀏覽路徑:http://www.chinadenli.net/article40/pigdho.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設(shè)搜索引擎優(yōu)化全網(wǎng)營銷推廣Google營銷型網(wǎng)站建設(shè)建站公司

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

營銷型網(wǎng)站建設(shè)