python中怎么實(shí)現(xiàn)文本單詞提取和詞頻統(tǒng)計(jì)功能,針對(duì)這個(gè)問題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問題的小伙伴找到更簡單易行的方法。

操作:
strip_html(cls, text) 去除html標(biāo)簽
separate_words(cls, text, min_lenth=3) 文本提取
get_words_frequency(cls, words_list) 獲取詞頻
源碼:
class DocProcess(object):
@classmethod
def strip_html(cls, text):
"""
Delete html tags in text.
text is String
"""
new_text = " "
is_html = False
for character in text:
if character == "<":
is_html = True
elif character == ">":
is_html = False
new_text += " "
elif is_html is False:
new_text += character
return new_text
@classmethod
def separate_words(cls, text, min_lenth=3):
"""
Separate text into words in list.
"""
splitter = re.compile("\\W+")
return [s.lower() for s in splitter.split(text) if len(s) > min_lenth]
@classmethod
def get_words_frequency(cls, words_list):
"""
Get frequency of words in words_list.
return a dict.
"""
num_words = {}
for word in words_list:
num_words[word] = num_words.get(word, 0) + 1
return num_words關(guān)于python中怎么實(shí)現(xiàn)文本單詞提取和詞頻統(tǒng)計(jì)功能問題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。
文章標(biāo)題:python中怎么實(shí)現(xiàn)文本單詞提取和詞頻統(tǒng)計(jì)功能-創(chuàng)新互聯(lián)
文章源于:http://www.chinadenli.net/article22/dhdsjc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信公眾號(hào)、網(wǎng)站營銷、小程序開發(fā)、品牌網(wǎng)站制作、定制網(wǎng)站、面包屑導(dǎo)航
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)