這篇文章主要介紹了Python中Tf-idf怎么用,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

目前成都創(chuàng)新互聯(lián)已為近千家的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)頁(yè)空間、網(wǎng)站托管維護(hù)、企業(yè)網(wǎng)站設(shè)計(jì)、東勝網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng),共同發(fā)展。
說(shuō)明
1、TF-IDF是如果詞或詞組出現(xiàn)在文章中的概率較高,而在其他文章中很少出現(xiàn),那么它就被認(rèn)為具有很好的類(lèi)別區(qū)分能力,適合進(jìn)行分類(lèi)。
2、提取文本特征,用來(lái)評(píng)估字詞對(duì)文件集或某個(gè)語(yǔ)料庫(kù)中文件的重要性。
實(shí)例
def tfidf_demo():
"""
用tfidf的方法進(jìn)行文本特征提取
:return:
"""
# 1.將中文文本進(jìn)行分詞
data = ["一種還是一種今天很殘酷,明天更殘酷,后天很美好,但絕對(duì)大部分是死在明天晚上,所以每個(gè)人不要放棄今天。",
"我們看到的從很遠(yuǎn)星系來(lái)的光是在幾百萬(wàn)年之前發(fā)出的,這樣當(dāng)我們看到宇宙時(shí),我們是在看它的過(guò)去。",
"如果只用一種方式了解某樣事物,你就不會(huì)真正了解它。了解事物真正含義的秘密取決于如何將其與我們所了解的事物相聯(lián)系。"]
data_new = []
for sent in data:
data_new.append(cut_word(sent))
# print(data_new)
# 2.實(shí)例化一個(gè)轉(zhuǎn)換器類(lèi)
transfer = TfidfVectorizer(stop_words=["一種", '因?yàn)?#39;])
# 3.調(diào)用fit_transform
data_final = transfer.fit_transform(data_new)
print("data_new:\n", data_final.toarray())
print("特征名字:\n", transfer.get_feature_names())
return None感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“Python中Tf-idf怎么用”這篇文章對(duì)大家有幫助,同時(shí)也希望大家多多支持創(chuàng)新互聯(lián),關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關(guān)知識(shí)等著你來(lái)學(xué)習(xí)!
網(wǎng)頁(yè)名稱:Python中Tf-idf怎么用
文章起源:http://www.chinadenli.net/article48/gghoep.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供移動(dòng)網(wǎng)站建設(shè)、網(wǎng)站營(yíng)銷(xiāo)、手機(jī)網(wǎng)站建設(shè)、虛擬主機(jī)、企業(yè)建站、Google
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)