這篇文章主要介紹了有哪些實用的數(shù)據(jù)科學Python庫的相關(guān)知識,內(nèi)容詳細易懂,操作簡單快捷,具有一定借鑒價值,相信大家閱讀完這篇有哪些實用的數(shù)據(jù)科學Python庫文章都會有所收獲,下面我們一起來看看吧。
創(chuàng)新互聯(lián)公司服務項目包括武隆網(wǎng)站建設、武隆網(wǎng)站制作、武隆網(wǎng)頁制作以及武隆網(wǎng)絡營銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢、行業(yè)經(jīng)驗、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,武隆網(wǎng)站推廣取得了明顯的社會效益與經(jīng)濟效益。目前,我們服務的客戶以成都為中心已經(jīng)輻射到武隆省份的部分城市,未來相信會繼續(xù)擴大服務區(qū)域并繼續(xù)獲得客戶的支持與信任!
從網(wǎng)絡上提取數(shù)據(jù)是數(shù)據(jù)科學家的重要任務之一。Wget 是一個免費的實用程序,可以用于從網(wǎng)絡上下載非交互式的文件。它支持 HTTP、HTTPS 和 FTP 協(xié)議,以及通過 HTTP 的代理進行文件檢索。由于它是非交互式的,即使用戶沒有登錄,它也可以在后臺工作。所以下次當你想要下載一個網(wǎng)站或者一個頁面上的所有圖片時,wget 可以幫助你。
安裝:
$ pip install wget
例子:
import wget url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3' filename = wget.download(url) 100% [................................................] 3841532 / 3841532 filename 'razorback.mp3'
對于那些在 python 中處理日期時間時會感到沮喪的人來說,Pendulum 很適合你。它是一個簡化日期時間操作的 Python 包。它是 Python 原生類的簡易替代。請參閱文檔深入學習。
安裝:
$ pip install pendulum
例子:
import pendulum dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto') dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver') print(dt_vancouver.diff(dt_toronto).in_hours()) 3
可以看出,當每個類的樣本數(shù)量基本相同時,大多數(shù)分類算法的效果是最好的,即需要保持數(shù)據(jù)平衡。但現(xiàn)實案例中大多是不平衡的數(shù)據(jù)集,這些數(shù)據(jù)集對機器學習算法的學習階段和后續(xù)預測都有很大影響。幸運的是,這個庫就是用來解決此問題的。它與 scikit-learn 兼容,是 scikit-lear-contrib 項目的一部分。下次當你遇到不平衡的數(shù)據(jù)集時,請嘗試使用它。
安裝:
$ pip install -U imbalanced-learn # 或者 $ conda install -c conda-forge imbalanced-learn
在 NLP 任務中,清理文本數(shù)據(jù)往往需要替換句子中的關(guān)鍵字或從句子中提取關(guān)鍵字。通常,這種操作可以使用正則表達式來完成,但是如果要搜索的術(shù)語數(shù)量達到數(shù)千個,這就會變得很麻煩。Python 的 FlashText 模塊是基于 FlashText 算法為這種情況提供了一個合適的替代方案。FlashText 最棒的一點是,不管搜索詞的數(shù)量如何,運行時間都是相同的。你可以在這里了解更多內(nèi)容。
安裝:
$ pip install flashtext
例子:
提取關(guān)鍵字
from flashtext import KeywordProcessor keyword_processor = KeywordProcessor() # keyword_processor.add_keyword(,) keyword_processor.add_keyword('Big Apple', 'New York') keyword_processor.add_keyword('Bay Area') keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.') keywords_found ['New York', 'Bay Area']
替換關(guān)鍵字
keyword_processor.add_keyword('New Delhi', 'NCR region') new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.') new_sentence 'I love New York and NCR region.' Fuzzywuzzy
這個庫的名字聽起來很奇怪,但是在字符串匹配方面,fuzzywuzzy 是一個非常有用的庫。可以很方便地實現(xiàn)計算字符串匹配度、令牌匹配度等操作,也可以很方便地匹配保存在不同數(shù)據(jù)庫中的記錄。
安裝:
$ pip install fuzzywuzzy
例子:
from fuzzywuzzy import fuzz from fuzzywuzzy import process # 簡單匹配度 fuzz.ratio("this is a test", "this is a test!") 97 # 模糊匹配度 fuzz.partial_ratio("this is a test", "this is a test!") 100
時間序列分析是機器學習領(lǐng)域中最常見的問題之一。PyFlux 是 Python 中的一個開源庫,它是為處理時間序列問題而構(gòu)建的。該庫擁有一系列優(yōu)秀的現(xiàn)代時間序列模型,包括但不限于 ARIMA、GARCH 和 VAR 模型。簡而言之,PyFlux 為時間序列建模提供了一種概率方法。值得嘗試一下。
安裝
pip install pyflux
結(jié)果展示也是數(shù)據(jù)科學中的一個重要方面。能夠?qū)⒔Y(jié)果進行可視化將具有很大優(yōu)勢。IPyvolume 是一個可以在 Jupyter notebook 中可視化三維體和圖形(例如三維散點圖等)的 Python 庫,并且只需要少量配置。但它目前還是 1.0 之前的版本階段。用一個比較恰當?shù)谋扔鱽斫忉尵褪牵篒Pyvolume 的 volshow 對于三維數(shù)組就像 matplotlib 的 imshow 對于二維數(shù)組一樣好用。可以在這里獲取更多。
使用 pip
$ pip install ipyvolume
使用 Conda/Anaconda
$ conda install -c conda-forge ipyvolume
例子
動畫
體繪制
Dash 是一個高效的用于構(gòu)建 web 應用程序的 Python 框架。它是在 Flask、Plotly.js 和 React.js 基礎(chǔ)上設計而成的,綁定了很多比如下拉框、滑動條和圖表的現(xiàn)代 UI 元素,你可以直接使用 Python 代碼來寫相關(guān)分析,而無需再使用 javascript。Dash 非常適合構(gòu)建數(shù)據(jù)可視化應用程序。然后,這些應用程序可以在 web 瀏覽器中呈現(xiàn)。用戶指南可以在這里獲取。
安裝
pip install dash==0.29.0# 核心 dash 后端 pip install dash-html-components==0.13.2# HTML 組件 pip install dash-core-components==0.36.0# 增強組件 pip install dash-table==3.1.3# 交互式 DataTable 組件(最新!)
例子下面的例子展示了一個具有下拉功能的高度交互式圖表。當用戶在下拉菜單中選擇一個值時,應用程序代碼將動態(tài)地將數(shù)據(jù)從 Google Finance 導出到 panda DataFrame。
OpenAI 的 Gym 是一款用于增強學習算法的開發(fā)和比較工具包。它兼容任何數(shù)值計算庫,如 TensorFlow 或 Theano。Gym 庫是測試問題集合的必備工具,這個集合也稱為環(huán)境 —— 你可以用它來開發(fā)你的強化學習算法。這些環(huán)境有一個共享接口,允許你進行通用算法的編寫。
安裝
pip install gym
例子這個例子會運行CartPole-v0環(huán)境中的一個實例,它的時間步數(shù)為 1000,每一步都會渲染整個場景。
關(guān)于“有哪些實用的數(shù)據(jù)科學Python庫”這篇文章的內(nèi)容就介紹到這里,感謝各位的閱讀!相信大家對“有哪些實用的數(shù)據(jù)科學Python庫”知識都有一定的了解,大家如果還想學習更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
本文題目:有哪些實用的數(shù)據(jù)科學Python庫
文章位置:http://www.chinadenli.net/article26/iejicg.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設計、網(wǎng)站導航、企業(yè)建站、企業(yè)網(wǎng)站制作、App開發(fā)、云服務器
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)