欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

Extracting,transforming和selectingfeatures的使用方法是什么

本文小編為大家詳細(xì)介紹“Extracting, transforming和selecting features的使用方法是什么”,內(nèi)容詳細(xì),步驟清晰,細(xì)節(jié)處理妥當(dāng),希望這篇“Extracting, transforming和selecting features的使用方法是什么”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來(lái)學(xué)習(xí)新知識(shí)吧。

創(chuàng)新互聯(lián)公司專(zhuān)注為客戶(hù)提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都做網(wǎng)站、成都網(wǎng)站設(shè)計(jì)、隆林網(wǎng)絡(luò)推廣、小程序開(kāi)發(fā)、隆林網(wǎng)絡(luò)營(yíng)銷(xiāo)、隆林企業(yè)策劃、隆林品牌公關(guān)、搜索引擎seo、人物專(zhuān)訪、企業(yè)宣傳片、企業(yè)代運(yùn)營(yíng)等,從售前售中售后,我們都將竭誠(chéng)為您服務(wù),您的肯定,是我們最大的嘉獎(jiǎng);創(chuàng)新互聯(lián)公司為所有大學(xué)生創(chuàng)業(yè)者提供隆林建站搭建服務(wù),24小時(shí)服務(wù)熱線:18980820575,官方網(wǎng)址:www.chinadenli.net

Table of Contents

  • Feature Extractors 特征提取

    • TF-IDF

    • Word2Vec

    • CountVectorizer

  • Feature Transformers 特征變換

    • Tokenizer 分詞器

    • StopWordsRemover 停用字清除

    • nn-gram

    • Binarizer 二元化方法

    • PCA 主成成分分析

    • PolynomialExpansion 多項(xiàng)式擴(kuò)展

    • Discrete Cosine Transform (DCT-離散余弦變換) 

    • StringIndexer 字符串-索引變換

    • IndexToString 索引-字符串變換

    • OneHotEncoder 獨(dú)熱編碼

    • VectorIndexer 向量類(lèi)型索引化

    • Interaction 

    • Normalizer 范數(shù)p-norm規(guī)范化

    • StandardScaler  標(biāo)準(zhǔn)化  基于特征矩陣的列,將屬性值轉(zhuǎn)換至服從正態(tài)分布

    • MinMaxScaler  最大-最小歸一化[0,1]

    • MaxAbsScaler 絕對(duì)值歸一化[-1,1]

    • Bucketizer  分箱器

    • ElementwiseProduct Hadamard乘積

    • SQLTransformer SQL變換

    • VectorAssembler 特征向量合并

    • QuantileDiscretizer 分位數(shù)離散化

    • Imputer

  • Feature Selectors  特征選擇

    • VectorSlicer 向量選擇

    • RFormula R模型公式

    • ChiSqSelector 卡方特征選擇

  • Locality Sensitive Hashing  局部哈希敏感

    • Bucketed Random Projection for Euclidean Distance   歐式距離分桶隨機(jī)投影

    • MinHash for Jaccard Distance 杰卡德距離

    • Feature Transformation   特征轉(zhuǎn)換

    • Approximate Similarity Join   近似相似聯(lián)接

    • Approximate Nearest Neighbor Search   近似最近鄰搜索

    • LSH Operations

    • LSH Algorithms

Feature Extractors

TF-IDF

詞頻-逆向文件頻率(TF-IDF)是一種特征向量化方法,廣泛用于文本挖掘中,以反映詞語(yǔ)對(duì)語(yǔ)料庫(kù)中文檔的重要性。 用tt表示詞語(yǔ),用dd表示文檔,用DD表示語(yǔ)料庫(kù)。 詞語(yǔ)頻率TF(t,d)TF(t,d)是詞語(yǔ)tt在文檔dd中出現(xiàn)的次數(shù),而文檔頻率DF(t,D)DF(t,D)是包含詞語(yǔ)的文檔數(shù)量 tt。 如果我們僅使用詞語(yǔ)頻率來(lái)衡量重要性,則很容易過(guò)分強(qiáng)調(diào)那些經(jīng)常出現(xiàn)但幾乎沒(méi)有有關(guān)文檔信息的詞語(yǔ),e.g. “a”, “the”, and “of”。 如果一個(gè)詞語(yǔ)在整個(gè)語(yǔ)料庫(kù)中經(jīng)常出現(xiàn),則表示該詞語(yǔ)不包含有關(guān)特定文檔的重要信息。 反向文檔頻率是一個(gè)詞語(yǔ)提供多少信息的數(shù)字度量:

IDF(t,D)=log|D|+1DF(t,D)+1,

D 是語(yǔ)料庫(kù)中文檔的總數(shù)。由于使用了log函數(shù),如果某個(gè)詞語(yǔ)出現(xiàn)在所有文檔中,則其IDF值將變?yōu)?。加1是為了避免分母為0的情況。TF-IDF 度量值表示如下:

TFIDF(t,d,D)=TF(t,d)?IDF(t,D).

 在 MLlib ,TF-IDF被分成兩部分:TF 和 IDF,這樣會(huì)更靈活。

Extracting, transforming和selecting features的使用方法是什么

TF: HashingTF和CountVectorizer都可以用來(lái)生成詞語(yǔ)頻率向量。.
HashingTF是一個(gè)轉(zhuǎn)換器,它接受詞條并將這些術(shù)語(yǔ)集轉(zhuǎn)換為固定長(zhǎng)度的特征向量。在文本處理中,一個(gè)詞袋模型。HashingTF utilizes the hashing trick.原始特征使用hash 函數(shù)映射成為索引。這里hash函數(shù)是MurmurHash 3。然后根據(jù)映射的索引計(jì)算詞頻。這種方法避免了需要計(jì)算一個(gè)全局 term-to-index 地圖,在映射大量語(yǔ)料庫(kù)時(shí)需要花費(fèi)更長(zhǎng)的時(shí)間。但是存在的哈希沖突,即哈希后,不同的原始特征可能會(huì)是同一個(gè)詞。為了減少碰撞的機(jī)會(huì),我們可以增加特征維度,i.e., 提高h(yuǎn)ash表的桶數(shù)。由于使用了簡(jiǎn)單的模將哈希函數(shù)轉(zhuǎn)換為列索引,建議使用2的冪作為特征維,否則,要素將不會(huì)均勻地映射到列。默認(rèn)的特征維度是218=262,144218=262,144。可選的binary toggle parameter控制項(xiàng)頻率計(jì)數(shù)。設(shè)置為true時(shí),所有非零頻率計(jì)數(shù)都設(shè)置為1。這對(duì)于模擬二進(jìn)制計(jì)數(shù)而非整數(shù)計(jì)數(shù)的離散概率模型特別有用。

將文本文檔轉(zhuǎn)換為詞語(yǔ)計(jì)數(shù)的向量。 有關(guān)更多詳細(xì)信息,請(qǐng)參考 CountVectorizer。.

IDF: IDF是一個(gè)Estimator,在一個(gè)數(shù)據(jù)集上應(yīng)用它的fit()方法,產(chǎn)生一個(gè)IDFModel。 該IDFModel 接收特征向量(由HashingTF產(chǎn)生),然后計(jì)算每一個(gè)詞在文檔中出現(xiàn)的頻次。IDF會(huì)減少那些在語(yǔ)料庫(kù)中出現(xiàn)頻率較高的詞的權(quán)重。 

Note: spark.ml沒(méi)有提供文本分割工具。 We refer users to the Stanford NLP Group and scalanlp/chalk.

讀到這里,這篇“Extracting, transforming和selecting features的使用方法是什么”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識(shí)點(diǎn)還需要大家自己動(dòng)手實(shí)踐使用過(guò)才能領(lǐng)會(huì),如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

本文題目:Extracting,transforming和selectingfeatures的使用方法是什么
文章位置:http://www.chinadenli.net/article22/iiepjc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站維護(hù)網(wǎng)站建設(shè)企業(yè)建站定制開(kāi)發(fā)商城網(wǎng)站微信小程序

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都seo排名網(wǎng)站優(yōu)化