數(shù)組允許進行批量操作而無需使用for循環(huán),因此更加簡便,這種特性也被稱為向量化。任何兩個等尺寸之間的算術操作都應用逐元素操作的方式進行。

成都創(chuàng)新互聯(lián)公司專業(yè)成都網(wǎng)站設計、成都網(wǎng)站建設,集網(wǎng)站策劃、網(wǎng)站設計、網(wǎng)站制作于一體,網(wǎng)站seo、網(wǎng)站優(yōu)化、網(wǎng)站營銷、軟文推廣等專業(yè)人才根據(jù)搜索規(guī)律編程設計,讓網(wǎng)站在運行后,在搜索中有好的表現(xiàn),專業(yè)設計制作為您帶來效益的網(wǎng)站!讓網(wǎng)站建設為您創(chuàng)造效益。
同尺度數(shù)組之間的比較,會產(chǎn)生一個布爾型數(shù)組。
上述操作均是在同尺度數(shù)組之間進行的,對于不同尺度數(shù)組間的操作,會使用到廣播特性。
索引:獲取數(shù)組中特定位置元素的過程;
切片:獲取數(shù)組元素子集的過程。
new_a = a.astype(new_type)
astype()方法一定會創(chuàng)建新的數(shù)組(原始數(shù)據(jù)的一個拷貝),即使兩個類型一致。
ls = a.tolist()
轉置是一種特殊的數(shù)據(jù)重組形式,可以返回底層數(shù)據(jù)的視圖而不需要復制任何內容。
數(shù)組擁有 transpose 方法,也有特殊的 T 屬性。
對于更高緯度的數(shù)組, transpose 方法可以接受包含軸編號的元組,用于轉置軸。
ndarray的 swapaxes 方法,通過接受一對軸編號作為參數(shù),并對軸進行調整用于重組數(shù)據(jù)。
swapaxes 方法返回的是數(shù)據(jù)的視圖,而沒有對數(shù)據(jù)進行復制。
Reference:
《Python for Data Analysis:Data Wrangling with Pandas,Numpy,and IPython》
是否非常想學好 Python,一方面被瑣事糾纏,一直沒能動手,另一方面,擔心學習成本太高,心里默默敲著退堂鼓?
幸運的是,Python 是一門初學者友好的編程語言,想要完全掌握它,你不必花上太多的時間和精力。
Python 的設計哲學之一就是簡單易學,體現(xiàn)在兩個方面:
語法簡潔明了:相對 Ruby 和 Perl,它的語法特性不多不少,大多數(shù)都很簡單直接,不玩兒玄學。
切入點很多:Python 可以讓你可以做很多事情,科學計算和數(shù)據(jù)分析、爬蟲、Web 網(wǎng)站、游戲、命令行實用工具等等等等,總有一個是你感興趣并且愿意投入時間的。
廢話不多說,學會一門語言的捷徑只有一個: Getting Started
? 起步階段
任何一種編程語言都包含兩個部分:硬知識和軟知識,起步階段的主要任務是掌握硬知識。
硬知識
“硬知識”指的是編程語言的語法、算法和數(shù)據(jù)結構、編程范式等,例如:變量和類型、循環(huán)語句、分支、函數(shù)、類。這部分知識也是具有普適性的,看上去是掌握了一種語法,實際是建立了一種思維。例如:讓一個 Java 程序員去學習 Python,他可以很快的將 Java 中的學到的面向對象的知識 map 到 Python 中來,因此能夠快速掌握 Python 中面向對象的特性。
如果你是剛開始學習編程的新手,一本可靠的語法書是非常重要的。它看上去可能非常枯燥乏味,但對于建立穩(wěn)固的編程思維是必不可少。
下面列出了一些適合初學者入門的教學材料:
廖雪峰的 Python 教程 ? ?Python 中文教程的翹楚,專為剛剛步入程序世界的小白打造。 ?
笨方法學 Python ? ?這本書在講解 Python 的語法成分時,還附帶大量可實踐的例子,非常適合快速起步。 ?
The Hitchhiker’s Guide to Python! ? ?這本指南著重于 Python 的最佳實踐,不管你是 Python 專家還是新手,都能獲得極大的幫助。 ?
Python 的哲學:
用一種方法,最好是只有一種方法來做一件事。
學習也是一樣,雖然推薦了多種學習資料,但實際學習的時候,最好只選擇其中的一個,堅持看完。
必要的時候,可能需要閱讀講解數(shù)據(jù)結構和算法的書,這些知識對于理解和使用 Python 中的對象模型有著很大的幫助。
軟知識
“軟知識”則是特定語言環(huán)境下的語法技巧、類庫的使用、IDE的選擇等等。這一部分,即使完全不了解不會使用,也不會妨礙你去編程,只不過寫出的程序,看上去顯得“傻”了些。
對這些知識的學習,取決于你嘗試解決的問題的領域和深度。對初學者而言,起步階段極易走火,或者在選擇 Python 版本時徘徊不決,一會兒看 2.7 一會兒又轉到 3.0,或者徜徉在類庫的大海中無法自拔,Scrapy,Numpy,Django 什么都要試試,或者參與編輯器圣戰(zhàn)、大括號縮進探究、操作系統(tǒng)辯論賽等無意義活動,或者整天跪舔語法糖,老想著怎么一行代碼把所有的事情做完,或者去構想圣潔的性能安全通用性健壯性全部滿分的解決方案。
很多“大牛”都會告誡初學者,用這個用那個,少走彎路,這樣反而把初學者推向了真正的彎路。
還不如告訴初學者,學習本來就是個需要你去走彎路出 Bug,只能腳踏實地,沒有奇跡只有狗屎的過程。
選擇一個方向先走下去,哪怕臟丑差,走不動了再看看有沒有更好的解決途徑。
自己走了彎路,你才知道這么做的好處,才能理解為什么人們可以手寫狀態(tài)機去匹配卻偏要發(fā)明正則表達式,為什么面向過程可以解決卻偏要面向對象,為什么我可以操縱每一根指針卻偏要自動管理內存,為什么我可以嵌套回調卻偏要用 Promise...
更重要的是,你會明白,高層次的解決方法都是對低層次的封裝,并不是任何情況下都是最有效最合適的。
技術涌進就像波浪一樣,那些陳舊的封存已久的技術,消退了遲早還會涌回的。就像現(xiàn)在移動端應用、手游和 HTML5 的火熱,某些方面不正在重演過去 PC 的那些歷史么?
因此,不要擔心自己走錯路誤了終身,堅持并保持進步才是正道。
起步階段的核心任務是掌握硬知識,軟知識做適當了解,有了穩(wěn)固的根,粗壯的枝干,才能長出濃密的葉子,結出甜美的果實。
? 發(fā)展階段
完成了基礎知識的學習,必定會感到一陣空虛,懷疑這些語法知識是不是真的有用。
沒錯,你的懷疑是非常正確的。要讓 Python 發(fā)揮出它的價值,當然不能停留在語法層面。
發(fā)展階段的核心任務,就是“跳出 Python,擁抱世界”。
在你面前會有多個分支:科學計算和數(shù)據(jù)分析、爬蟲、Web 網(wǎng)站、游戲、命令行實用工具等等等等,這些都不是僅僅知道 Python 語法就能解決的問題。
拿爬蟲舉例,如果你對計算機網(wǎng)絡,HTTP 協(xié)議,HTML,文本編碼,JSON 一無所知,你能做好這部分的工作么?而你在起步階段的基礎知識也同樣重要,如果你連循環(huán)遞歸怎么寫都還要查文檔,連 BFS 都不知道怎么實現(xiàn),這就像工匠做石凳每次起錘都要思考錘子怎么使用一樣,非常低效。
在這個階段,不可避免要接觸大量類庫,閱讀大量書籍的。
類庫方面
「Awesome Python 項目」:vinta/awesome-python · GitHub
這里列出了你在嘗試解決各種實際問題時,Python 社區(qū)已有的工具型類庫,如下圖所示:
請點擊輸入圖片描述
vinta/awesome-python
你可以按照實際需求,尋找你需要的類庫。
至于相關類庫如何使用,必須掌握的技能便是閱讀文檔。由于開源社區(qū)大多數(shù)文檔都是英文寫成的,所以,英語不好的同學,需要惡補下。
書籍方面
這里我只列出一些我覺得比較有一些幫助的書籍,詳細的請看豆瓣的書評:
科學和數(shù)據(jù)分析:
?「集體智慧編程」:集體智慧編程 (豆瓣)
?「數(shù)學之美」:數(shù)學之美 (豆瓣)
?「統(tǒng)計學習方法」:統(tǒng)計學習方法 (豆瓣)
?「Pattern Recognition And Machine Learning」:Pattern Recognition And Machine Learning (豆瓣)
?「數(shù)據(jù)科學實戰(zhàn)」:數(shù)據(jù)科學實戰(zhàn) (豆瓣)
?「數(shù)據(jù)檢索導論」:信息檢索導論 (豆瓣)
爬蟲:
?「HTTP 權威指南」:HTTP權威指南 (豆瓣)
Web 網(wǎng)站:
?「HTML CSS 設計與構建網(wǎng)站」:HTML CSS設計與構建網(wǎng)站 (豆瓣)
...
列到這里已經(jīng)不需要繼續(xù)了。
聰明的你一定會發(fā)現(xiàn)上面的大部分書籍,并不是講 Python 的書,而更多的是專業(yè)知識。
事實上,這里所謂“跳出 Python,擁抱世界”,其實是發(fā)現(xiàn) Python 和專業(yè)知識相結合,能夠解決很多實際問題。這個階段能走到什么程度,更多的取決于自己的專業(yè)知識。
? 深入階段
這個階段的你,對 Python 幾乎了如指掌,那么你一定知道 Python 是用 C 語言實現(xiàn)的。
可是 Python 對象的“動態(tài)特征”是怎么用相對底層,連自動內存管理都沒有的C語言實現(xiàn)的呢?這時候就不能停留在表面了,勇敢的拆開 Python 的黑盒子,深入到語言的內部,去看它的歷史,讀它的源碼,才能真正理解它的設計思路。
這里推薦一本書:
「Python 源碼剖析」:Python源碼剖析 (豆瓣)
這本書把 Python 源碼中最核心的部分,給出了詳細的闡釋,不過閱讀此書需要對 C 語言內存模型和指針有著很好的理解。
另外,Python 本身是一門雜糅多種范式的動態(tài)語言,也就是說,相對于 C 的過程式、 Haskell 等的函數(shù)式、Java 基于類的面向對象而言,它都不夠純粹。換而言之,編程語言的“道學”,在 Python 中只能有限的體悟。學習某種編程范式時,從那些面向這種范式更加純粹的語言出發(fā),才能有更深刻的理解,也能了解到 Python 語言的根源。
這里推薦一門公開課
「編程范式」:斯坦福大學公開課:編程范式
講師高屋建瓴,從各種編程范式的代表語言出發(fā),給出了每種編程范式最核心的思想。
值得一提的是,這門課程對C語言有非常深入的講解,例如C語言的范型和內存管理。這些知識,對閱讀 Python 源碼也有大有幫助。
Python 的許多最佳實踐都隱藏在那些眾所周知的框架和類庫中,例如 Django、Tornado 等等。在它們的源代碼中淘金,也是個不錯的選擇。
? ?最后的話
每個人學編程的道路都是不一樣的,其實大都殊途同歸,沒有迷路的人只有不能堅持的人!
希望想學 Python 想學編程的同學,不要猶豫了,看完這篇文章,
Just Getting Started ?!!!
一:學會正確使用numpy scipy。 numpy scipy寫好的絕不自己寫,比如矩陣運算等操作,pylab的實現(xiàn)還算不錯。各種函數(shù)都有,盡量使用他們可以避免初學者大部分的速度不足問題。因為這些函數(shù)大部分都是預編譯好的。
根據(jù)我?guī)啄昵暗臏y試,python的矩陣運算速度并不慢,(因為你運行的是動態(tài)鏈接庫里面的函數(shù)而不是腳本)比mathematica快,和matlab持平。
大部分新手不擅長看文檔啥都自己造輪子是不好的。當然老手把效率寫的比開源庫高也不算啥新聞,畢竟有對特定程序的優(yōu)化
二:減少for的使用,多使用向量化函數(shù),np.vectorlize可以把函數(shù)變成對數(shù)組逐元素的操作,比for效率高幾個華萊士。
三:對內存友好,操作大矩陣的時候減少會引起整矩陣對此copy的操作
四:系統(tǒng)最慢的大部分時候是io,包括上面說的內存操作和頻繁的讀入讀出以及debug輸出。避免他們,在需要實時處理的時候引入類似于gpu的pipeline管線機制或者使用靈活的多線程編程可以起到奇效。
五:matplotlib的繪圖效率并不高明,在使用交互繪圖(plt.ion)的時候減少不必要的刷新率。
1. Pandas.apply() – 特征工程瑰寶
Pandas 庫已經(jīng)非常優(yōu)化了,但是大部分人都沒有發(fā)揮它的最大作用。想想它一般會用于數(shù)據(jù)科學項目中的哪些地方。一般首先能想到的就是特征工程,即用已有特征創(chuàng)造新特征。其中最高效的方法之一就是Pandas.apply(),即Pandas中的apply函數(shù)。
在Pandas.apply()中,可以傳遞用戶定義功能并將其應用到Pandas Series的所有數(shù)據(jù)點中。這個函數(shù)是Pandas庫最好的擴展功能之一,它能根據(jù)所需條件分隔數(shù)據(jù)。之后便能將其有效應用到數(shù)據(jù)處理任務中。
2. Pandas.DataFrame.loc – Python數(shù)據(jù)操作絕妙技巧
所有和數(shù)據(jù)處理打交道的數(shù)據(jù)科學家(差不多所有人了!)都應該學會這個方法。
很多時候,數(shù)據(jù)科學家需要根據(jù)一些條件更新數(shù)據(jù)集中某列的某些值。Pandas.DataFrame.loc就是此類問題最優(yōu)的解決方法。
3. Python函數(shù)向量化
另一種解決緩慢循環(huán)的方法就是將函數(shù)向量化。這意味著新建函數(shù)會應用于輸入列表,并返回結果數(shù)組。在Python中使用向量化能至少迭代兩次,從而加速計算。
事實上,這樣不僅能加速代碼運算,還能讓代碼更加簡潔清晰。
4. Python多重處理
多重處理能使系統(tǒng)同時支持一個以上的處理器。
此處將數(shù)據(jù)處理分成多個任務,讓它們各自獨立運行。處理龐大的數(shù)據(jù)集時,即使是apply函數(shù)也顯得有些遲緩。
關于優(yōu)化Python編程的4個妙招,青藤小編就和您分享到這里了。如果您對python編程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關于python編程的技巧及素材等內容,可以點擊本站的其他文章進行學習。
前言
Python 一直以來被大家所詬病的一點就是執(zhí)行速度慢,但不可否認的是 Python 依然是我們學習和工作中的一大利器。本文總結了15個tips有助于提升 Python 執(zhí)行速度、優(yōu)化性能。
關于 Python 如何精確地測量程序的執(zhí)行時間,這個問題看起來簡單其實很復雜,因為程序的執(zhí)行時間受到很多因素的影響,例如操作系統(tǒng)、Python 版本以及相關硬件(CPU 性能、內存讀寫速度)等。在同一臺電腦上運行相同版本的語言時,上述因素就是確定的了,但是程序的睡眠時間依然是變化的,且電腦上正在運行的其他程序也會對實驗有干擾,因此嚴格來說這就是實驗不可重復。
我了解到的關于計時比較有代表性的兩個庫就是 time 和 timeit 。
其中, time 庫中有 time() 、 perf_counter() 以及 process_time() 三個函數(shù)可用來計時(以秒為單位),加后綴 _ns 表示以納秒計時(自 Python3.7 始)。在此之前還有 clock() 函數(shù),但是在 Python3.3 之后被移除了。上述三者的區(qū)別如下:
與 time 庫相比, timeit 有兩個優(yōu)點:
timeit.timeit(stmt='pass', setup='pass', timer= , number=1000000, globals=None) 參數(shù)說明:
本文所有的計時均采用 timeit 方法,且采用默認的執(zhí)行次數(shù)一百萬次。
為什么要執(zhí)行一百萬次呢?因為我們的測試程序很短,如果不執(zhí)行這么多次的話,根本看不出差距。
Exp1:將字符串數(shù)組中的小寫字母轉為大寫字母。
測試數(shù)組為 oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。
方法一
方法二
方法一耗時 0.5267724000000005s ,方法二耗時 0.41462569999999843s ,性能提升 21.29%
Exp2:求兩個 list 的交集。
測試數(shù)組:a = [1,2,3,4,5],b = [2,4,6,8,10]。
方法一
方法二
方法一耗時 0.9507264000000006s ,方法二耗時 0.6148200999999993s ,性能提升 35.33%
關于 set() 的語法: | 、 、 - 分別表示求并集、交集、差集。
我們可以通過多種方式對序列進行排序,但其實自己編寫排序算法的方法有些得不償失。因為內置的 sort() 或 sorted() 方法已經(jīng)足夠優(yōu)秀了,且利用參數(shù) key 可以實現(xiàn)不同的功能,非常靈活。二者的區(qū)別是 sort() 方法僅被定義在 list 中,而 sorted() 是全局方法對所有的可迭代序列都有效。
Exp3:分別使用快排和 sort() 方法對同一列表排序。
測試數(shù)組:lists = [2,1,4,3,0]。
方法一
方法二
方法一耗時 2.4796975000000003s ,方法二耗時 0.05551999999999424s ,性能提升 97.76%
順帶一提, sorted() 方法耗時 0.1339823999987857s 。
可以看出, sort() 作為 list 專屬的排序方法還是很強的, sorted() 雖然比前者慢一點,但是勝在它“不挑食”,它對所有的可迭代序列都有效。
擴展 :如何定義 sort() 或 sorted() 方法的 key
1.通過 lambda 定義
2.通過 operator 定義
operator 的 itemgetter() 適用于普通數(shù)組排序, attrgetter() 適用于對象數(shù)組排序
3.通過 cmp_to_key() 定義,最為靈活
Exp4:統(tǒng)計字符串中每個字符出現(xiàn)的次數(shù)。
測試數(shù)組:sentence='life is short, i choose python'。
方法一
方法二
方法一耗時 2.8105250000000055s ,方法二耗時 1.6317423000000062s ,性能提升 41.94%
列表推導(list comprehension)短小精悍。在小代碼片段中,可能沒有太大的區(qū)別。但是在大型開發(fā)中,它可以節(jié)省一些時間。
Exp5:對列表中的奇數(shù)求平方,偶數(shù)不變。
測試數(shù)組:oldlist = range(10)。
方法一
方法二
方法一耗時 1.5342976000000021s ,方法二耗時 1.4181957999999923s ,性能提升 7.57%
大多數(shù)人都習慣使用 + 來連接字符串。但其實,這種方法非常低效。因為, + 操作在每一步中都會創(chuàng)建一個新字符串并復制舊字符串。更好的方法是用 join() 來連接字符串。關于字符串的其他操作,也盡量使用內置函數(shù),如 isalpha() 、 isdigit() 、 startswith() 、 endswith() 等。
Exp6:將字符串列表中的元素連接起來。
測試數(shù)組:oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。
方法一
方法二
方法一耗時 0.27489080000000854s ,方法二耗時 0.08166570000000206s ,性能提升 70.29%
join 還有一個非常舒服的點,就是它可以指定連接的分隔符,舉個例子
life//is//short//i//choose//python
Exp6:交換x,y的值。
測試數(shù)據(jù):x, y = 100, 200。
方法一
方法二
方法一耗時 0.027853900000010867s ,方法二耗時 0.02398730000000171s ,性能提升 13.88%
在不知道確切的循環(huán)次數(shù)時,常規(guī)方法是使用 while True 進行無限循環(huán),在代碼塊中判斷是否滿足循環(huán)終止條件。雖然這樣做沒有任何問題,但 while 1 的執(zhí)行速度比 while True 更快。因為它是一種數(shù)值轉換,可以更快地生成輸出。
Exp8:分別用 while 1 和 while True 循環(huán) 100 次。
方法一
方法二
方法一耗時 3.679268300000004s ,方法二耗時 3.607847499999991s ,性能提升 1.94%
將文件存儲在高速緩存中有助于快速恢復功能。Python 支持裝飾器緩存,該緩存在內存中維護特定類型的緩存,以實現(xiàn)最佳軟件驅動速度。我們使用 lru_cache 裝飾器來為斐波那契函數(shù)提供緩存功能,在使用 fibonacci 遞歸函數(shù)時,存在大量的重復計算,例如 fibonacci(1) 、 fibonacci(2) 就運行了很多次。而在使用了 lru_cache 后,所有的重復計算只會執(zhí)行一次,從而大大提高程序的執(zhí)行效率。
Exp9:求斐波那契數(shù)列。
測試數(shù)據(jù):fibonacci(7)。
方法一
方法二
方法一耗時 3.955014900000009s ,方法二耗時 0.05077979999998661s ,性能提升 98.72%
注意事項:
我被執(zhí)行了(執(zhí)行了兩次 demo(1, 2) ,卻只輸出一次)
functools.lru_cache(maxsize=128, typed=False) 的兩個可選參數(shù):
點運算符( . )用來訪問對象的屬性或方法,這會引起程序使用 __getattribute__() 和 __getattr__() 進行字典查找,從而帶來不必要的開銷。尤其注意,在循環(huán)當中,更要減少點運算符的使用,應該將它移到循環(huán)外處理。
這啟發(fā)我們應該盡量使用 from ... import ... 這種方式來導包,而不是在需要使用某方法時通過點運算符來獲取。其實不光是點運算符,其他很多不必要的運算我們都盡量移到循環(huán)外處理。
Exp10:將字符串數(shù)組中的小寫字母轉為大寫字母。
測試數(shù)組為 oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。
方法一
方法二
方法一耗時 0.7235491999999795s ,方法二耗時 0.5475435999999831s ,性能提升 24.33%
當我們知道具體要循環(huán)多少次時,使用 for 循環(huán)比使用 while 循環(huán)更好。
Exp12:使用 for 和 while 分別循環(huán) 100 次。
方法一
方法二
方法一耗時 3.894683299999997s ,方法二耗時 1.0198077999999953s ,性能提升 73.82%
Numba 可以將 Python 函數(shù)編譯碼為機器碼執(zhí)行,大大提高代碼執(zhí)行速度,甚至可以接近 C 或 FORTRAN 的速度。它能和 Numpy 配合使用,在 for 循環(huán)中或存在大量計算時能顯著地提高執(zhí)行效率。
Exp12:求從 1 加到 100 的和。
方法一
方法二
方法一耗時 3.7199997000000167s ,方法二耗時 0.23769430000001535s ,性能提升 93.61%
矢量化是 NumPy 中的一種強大功能,可以將操作表達為在整個數(shù)組上而不是在各個元素上發(fā)生。這種用數(shù)組表達式替換顯式循環(huán)的做法通常稱為矢量化。
在 Python 中循環(huán)數(shù)組或任何數(shù)據(jù)結構時,會涉及很多開銷。NumPy 中的向量化操作將內部循環(huán)委托給高度優(yōu)化的 C 和 Fortran 函數(shù),從而使 Python 代碼更加快速。
Exp13:兩個長度相同的序列逐元素相乘。
測試數(shù)組:a = [1,2,3,4,5], b = [2,4,6,8,10]
方法一
方法二
方法一耗時 0.6706845000000214s ,方法二耗時 0.3070132000000001s ,性能提升 54.22%
若要檢查列表中是否包含某成員,通常使用 in 關鍵字更快。
Exp14:檢查列表中是否包含某成員。
測試數(shù)組:lists = ['life', 'is', 'short', 'i', 'choose', 'python']
方法一
方法二
方法一耗時 0.16038449999999216s ,方法二耗時 0.04139250000000061s ,性能提升 74.19%
itertools 是用來操作迭代器的一個模塊,其函數(shù)主要可以分為三類:無限迭代器、有限迭代器、組合迭代器。
Exp15:返回列表的全排列。
測試數(shù)組:["Alice", "Bob", "Carol"]
方法一
方法二
方法一耗時 3.867292899999484s ,方法二耗時 0.3875405000007959s ,性能提升 89.98%
根據(jù)上面的測試數(shù)據(jù),我繪制了下面這張實驗結果圖,可以更加直觀的看出不同方法帶來的性能差異。
從圖中可以看出,大部分的技巧所帶來的性能增幅還是比較可觀的,但也有少部分技巧的增幅較小(例如編號5、7、8,其中,第 8 條的兩種方法幾乎沒有差異)。
總結下來,我覺得其實就是下面這兩條原則:
內置庫函數(shù)由專業(yè)的開發(fā)人員編寫并經(jīng)過了多次測試,很多庫函數(shù)的底層是用 C 語言開發(fā)的。因此,這些函數(shù)總體來說是非常高效的(比如 sort() 、 join() 等),自己編寫的方法很難超越它們,還不如省省功夫,不要重復造輪子了,何況你造的輪子可能更差。所以,如果函數(shù)庫中已經(jīng)存在該函數(shù),就直接拿來用。
有很多優(yōu)秀的第三方庫,它們的底層可能是用 C 和 Fortran 來實現(xiàn)的,像這樣的庫用起來絕對不會吃虧,比如前文提到的 Numpy 和 Numba,它們帶來的提升都是非常驚人的。類似這樣的庫還有很多,比如Cython、PyPy等,這里我只是拋磚引玉。
原文鏈接:
基于以下三個原因,我們選擇Python作為實現(xiàn)機器學習算法的編程語言:(1) python的語法清晰;(2) 易于操作純文本文件;(3) 使用廣泛,存在大量的開發(fā)文檔。
可執(zhí)行偽代碼
Python具有清晰的語法結構,大家也把它稱作可執(zhí)行偽代碼(executable pseudo-code)。默認安裝的Python開發(fā)環(huán)境已經(jīng)附帶了很多高級數(shù)據(jù)類型,如列表、元組、字典、集合、隊列等,無需進一步編程就可以使用這些數(shù)據(jù)類型的操作。使用這些數(shù)據(jù)類型使得實現(xiàn)抽象的數(shù)學概念非常簡單。此外,讀者還可以使用自己熟悉的編程風格,如面向對象編程、面向過程編程、或者函數(shù)式編程。
Python語言處理和操作文本文件非常簡單,非常易于處理非數(shù)值型數(shù)據(jù)。Python語言提供了豐富的正則表達式函數(shù)以及很多訪問Web頁面的函數(shù)庫,使得從HTML中提取數(shù)據(jù)變得非常簡單直觀。
Python比較流行
Python語言使用廣泛,代碼范例也很多,便于讀者快速學習和掌握。此外,在開發(fā)實際應用程序時,也可以利用豐富的模塊庫縮短開發(fā)周期。
在科學和金融領域,Python語言得到了廣泛應用。SciPy和NumPy等許多科學函數(shù)庫都實現(xiàn)了向量和矩陣操作,這些函數(shù)庫增加了代碼的可讀性,學過線性代數(shù)的人都可以看懂代碼的實際功能。另外,科學函數(shù)庫SciPy和NumPy使用底層語言(C和Fortran)編寫,提高了相關應用程序的計算性能。本書將大量使用Python的NumPy。
Python的科學工具可以與繪圖工具Matplotlib協(xié)同工作。Matplotlib可以繪制2D、3D圖形,也可以處理科學研究中經(jīng)常使用到的圖形,所以本書也將大量使用Matplotlib。
Python開發(fā)環(huán)境還提供了交互式shell環(huán)境,允許用戶開發(fā)程序時查看和檢測程序內容。
Python開發(fā)環(huán)境將來還會集成Pylab模塊,它將NumPy、SciPy和Matplotlib合并為一個開發(fā)環(huán)境。在本書寫作時,Pylab還沒有并入Python環(huán)境,但是不遠的將來我們肯定可以在Python開發(fā)環(huán)境找到它。
Python語言的特色
諸如MATLAB和Mathematica等高級程序語言也允許用戶執(zhí)行矩陣操作,MATLAB甚至還有許多內嵌的特征可以輕松地構造機器學習應用,而且MATLAB的運算速度也很快。然而MATLAB的不足之處是軟件費用太高,單個軟件授權就要花費數(shù)千美元。雖然也有適合MATLAB的第三方插件,但是沒有一個有影響力的大型開源項目。
Java和C等強類型程序設計語言也有矩陣數(shù)學庫,然而對于這些程序設計語言來說,最大的問題是即使完成簡單的操作也要編寫大量的代碼。程序員首先需要定義變量的類型,對于Java來說,每次封裝屬性時還需要實現(xiàn)getter和setter方法。另外還要記著實現(xiàn)子類,即使并不想使用子類,也必須實現(xiàn)子類方法。為了完成一個簡單的工作,我們必須花費大量時間編寫了很多無用冗長的代碼。Python語言則與Java和C完全不同,它清晰簡練,而且易于理解,即使不是編程人員也能夠理解程序的含義,而Java和C對于非編程人員則像天書一樣難于理解。
所有人在小學二年級已經(jīng)學會了寫作,然而大多數(shù)人必須從事其他更重要的工作。
——鮑比·奈特
也許某一天,我們可以在這句話中將“寫作”替代為“編寫代碼”,雖然有些人對于編寫代碼很感興趣,但是對于大多數(shù)人來說,編程僅是完成其他任務的工具而已。Python語言是高級編程語言,我們可以花費更多的時間處理數(shù)據(jù)的內在含義,而無須花費太多精力解決計算機如何得到數(shù)據(jù)結果。Python語言使得我們很容易表達自己的目的。
Python語言的缺點
Python語言唯一的不足是性能問題。Python程序運行的效率不如Java或者C代碼高,但是我們可以使用Python調用C編譯的代碼。這樣,我們就可以同時利用C和Python的優(yōu)點,逐步地開發(fā)機器學習應用程序。我們可以首先使用Python編寫實驗程序,如果進一步想要在產(chǎn)品中實現(xiàn)機器學習,轉換成C代碼也不困難。如果程序是按照模塊化原則組織的,我們可以先構造可運行的Python程序,然后再逐步使用C代碼替換核心代碼以改進程序的性能。C++ Boost庫就適合完成這個任務,其他類似于Cython和PyPy的工具也可以編寫強類型的Python代碼,改進一般Python程序的性能。
如果程序的算法或者思想有缺陷,則無論程序的性能如何,都無法得到正確的結果。如果解決問題的思想存在問題,那么單純通過提高程序的運行效率,擴展用戶規(guī)模都無法解決這個核心問題。從這個角度來看,Python快速實現(xiàn)系統(tǒng)的優(yōu)勢就更加明顯了,我們可以快速地檢驗算法或者思想是否正確,如果需要,再進一步優(yōu)化代碼。
當前文章:python向量化函數(shù) python求特征向量
鏈接地址:http://www.chinadenli.net/article8/doddiop.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供手機網(wǎng)站建設、軟件開發(fā)、App開發(fā)、營銷型網(wǎng)站建設、用戶體驗、網(wǎng)站內鏈
聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)