本文小編為大家詳細(xì)介紹“Extracting, transforming和selecting features的使用方法是什么”,內(nèi)容詳細(xì),步驟清晰,細(xì)節(jié)處理妥當(dāng),希望這篇“Extracting, transforming和selecting features的使用方法是什么”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來(lái)學(xué)習(xí)新知識(shí)吧。
創(chuàng)新互聯(lián)公司專(zhuān)注為客戶(hù)提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都做網(wǎng)站、成都網(wǎng)站設(shè)計(jì)、隆林網(wǎng)絡(luò)推廣、小程序開(kāi)發(fā)、隆林網(wǎng)絡(luò)營(yíng)銷(xiāo)、隆林企業(yè)策劃、隆林品牌公關(guān)、搜索引擎seo、人物專(zhuān)訪、企業(yè)宣傳片、企業(yè)代運(yùn)營(yíng)等,從售前售中售后,我們都將竭誠(chéng)為您服務(wù),您的肯定,是我們最大的嘉獎(jiǎng);創(chuàng)新互聯(lián)公司為所有大學(xué)生創(chuàng)業(yè)者提供隆林建站搭建服務(wù),24小時(shí)服務(wù)熱線:18980820575,官方網(wǎng)址:www.chinadenli.net
Table of Contents
Feature Extractors 特征提取
TF-IDF
Word2Vec
CountVectorizer
Feature Transformers 特征變換
Tokenizer 分詞器
StopWordsRemover 停用字清除
nn-gram
Binarizer 二元化方法
PCA 主成成分分析
PolynomialExpansion 多項(xiàng)式擴(kuò)展
Discrete Cosine Transform (DCT-離散余弦變換)
StringIndexer 字符串-索引變換
IndexToString 索引-字符串變換
OneHotEncoder 獨(dú)熱編碼
VectorIndexer 向量類(lèi)型索引化
Interaction
Normalizer 范數(shù)p-norm規(guī)范化
StandardScaler 標(biāo)準(zhǔn)化 基于特征矩陣的列,將屬性值轉(zhuǎn)換至服從正態(tài)分布
MinMaxScaler 最大-最小歸一化[0,1]
MaxAbsScaler 絕對(duì)值歸一化[-1,1]
Bucketizer 分箱器
ElementwiseProduct Hadamard乘積
SQLTransformer SQL變換
VectorAssembler 特征向量合并
QuantileDiscretizer 分位數(shù)離散化
Imputer
Feature Selectors 特征選擇
VectorSlicer 向量選擇
RFormula R模型公式
ChiSqSelector 卡方特征選擇
Locality Sensitive Hashing 局部哈希敏感
Bucketed Random Projection for Euclidean Distance 歐式距離分桶隨機(jī)投影
MinHash for Jaccard Distance 杰卡德距離
Feature Transformation 特征轉(zhuǎn)換
Approximate Similarity Join 近似相似聯(lián)接
Approximate Nearest Neighbor Search 近似最近鄰搜索
LSH Operations
LSH Algorithms
詞頻-逆向文件頻率(TF-IDF)是一種特征向量化方法,廣泛用于文本挖掘中,以反映詞語(yǔ)對(duì)語(yǔ)料庫(kù)中文檔的重要性。 用tt表示詞語(yǔ),用dd表示文檔,用DD表示語(yǔ)料庫(kù)。 詞語(yǔ)頻率TF(t,d)TF(t,d)是詞語(yǔ)tt在文檔dd中出現(xiàn)的次數(shù),而文檔頻率DF(t,D)DF(t,D)是包含詞語(yǔ)的文檔數(shù)量 tt。 如果我們僅使用詞語(yǔ)頻率來(lái)衡量重要性,則很容易過(guò)分強(qiáng)調(diào)那些經(jīng)常出現(xiàn)但幾乎沒(méi)有有關(guān)文檔信息的詞語(yǔ),e.g. “a”, “the”, and “of”。 如果一個(gè)詞語(yǔ)在整個(gè)語(yǔ)料庫(kù)中經(jīng)常出現(xiàn),則表示該詞語(yǔ)不包含有關(guān)特定文檔的重要信息。 反向文檔頻率是一個(gè)詞語(yǔ)提供多少信息的數(shù)字度量:
IDF(t,D)=log|D|+1DF(t,D)+1,
D
是語(yǔ)料庫(kù)中文檔的總數(shù)。由于使用了log函數(shù),如果某個(gè)詞語(yǔ)出現(xiàn)在所有文檔中,則其IDF值將變?yōu)?。加1是為了避免分母為0的情況。TF-IDF 度量值表示如下:
TFIDF(t,d,D)=TF(t,d)?IDF(t,D).
在 MLlib ,TF-IDF被分成兩部分:TF 和 IDF,這樣會(huì)更靈活。

TF: HashingTF和CountVectorizer都可以用來(lái)生成詞語(yǔ)頻率向量。.
HashingTF是一個(gè)轉(zhuǎn)換器,它接受詞條并將這些術(shù)語(yǔ)集轉(zhuǎn)換為固定長(zhǎng)度的特征向量。在文本處理中,一個(gè)詞袋模型。HashingTF utilizes the hashing trick.原始特征使用hash 函數(shù)映射成為索引。這里hash函數(shù)是MurmurHash 3。然后根據(jù)映射的索引計(jì)算詞頻。這種方法避免了需要計(jì)算一個(gè)全局 term-to-index 地圖,在映射大量語(yǔ)料庫(kù)時(shí)需要花費(fèi)更長(zhǎng)的時(shí)間。但是存在的哈希沖突,即哈希后,不同的原始特征可能會(huì)是同一個(gè)詞。為了減少碰撞的機(jī)會(huì),我們可以增加特征維度,i.e., 提高h(yuǎn)ash表的桶數(shù)。由于使用了簡(jiǎn)單的模將哈希函數(shù)轉(zhuǎn)換為列索引,建議使用2的冪作為特征維,否則,要素將不會(huì)均勻地映射到列。默認(rèn)的特征維度是218=262,144218=262,144。可選的binary toggle parameter控制項(xiàng)頻率計(jì)數(shù)。設(shè)置為true時(shí),所有非零頻率計(jì)數(shù)都設(shè)置為1。這對(duì)于模擬二進(jìn)制計(jì)數(shù)而非整數(shù)計(jì)數(shù)的離散概率模型特別有用。
將文本文檔轉(zhuǎn)換為詞語(yǔ)計(jì)數(shù)的向量。 有關(guān)更多詳細(xì)信息,請(qǐng)參考 CountVectorizer。.
IDF: IDF是一個(gè)Estimator,在一個(gè)數(shù)據(jù)集上應(yīng)用它的fit()方法,產(chǎn)生一個(gè)IDFModel。 該IDFModel 接收特征向量(由HashingTF產(chǎn)生),然后計(jì)算每一個(gè)詞在文檔中出現(xiàn)的頻次。IDF會(huì)減少那些在語(yǔ)料庫(kù)中出現(xiàn)頻率較高的詞的權(quán)重。
Note: spark.ml沒(méi)有提供文本分割工具。 We refer users to the Stanford NLP Group and scalanlp/chalk.
讀到這里,這篇“Extracting, transforming和selecting features的使用方法是什么”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識(shí)點(diǎn)還需要大家自己動(dòng)手實(shí)踐使用過(guò)才能領(lǐng)會(huì),如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
本文題目:Extracting,transforming和selectingfeatures的使用方法是什么
文章位置:http://www.chinadenli.net/article22/iiepjc.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站維護(hù)、網(wǎng)站建設(shè)、企業(yè)建站、定制開(kāi)發(fā)、商城網(wǎng)站、微信小程序
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)