python向量化函數(shù) python求特征向量

Python——ndarray多維數(shù)組基本操作（1）

數(shù)組允許進行批量操作而無需使用for循環(huán)，因此更加簡便，這種特性也被稱為向量化。任何兩個等尺寸之間的算術操作都應用逐元素操作的方式進行。

成都創(chuàng)新互聯(lián)公司專業(yè)成都網(wǎng)站設計、成都網(wǎng)站建設，集網(wǎng)站策劃、網(wǎng)站設計、網(wǎng)站制作于一體，網(wǎng)站seo、網(wǎng)站優(yōu)化、網(wǎng)站營銷、軟文推廣等專業(yè)人才根據(jù)搜索規(guī)律編程設計，讓網(wǎng)站在運行后，在搜索中有好的表現(xiàn)，專業(yè)設計制作為您帶來效益的網(wǎng)站！讓網(wǎng)站建設為您創(chuàng)造效益。

同尺度數(shù)組之間的比較，會產(chǎn)生一個布爾型數(shù)組。

上述操作均是在同尺度數(shù)組之間進行的，對于不同尺度數(shù)組間的操作，會使用到廣播特性。

索引：獲取數(shù)組中特定位置元素的過程；

切片：獲取數(shù)組元素子集的過程。

new_a = a.astype(new_type)

astype()方法一定會創(chuàng)建新的數(shù)組（原始數(shù)據(jù)的一個拷貝），即使兩個類型一致。

ls = a.tolist()

轉置是一種特殊的數(shù)據(jù)重組形式，可以返回底層數(shù)據(jù)的視圖而不需要復制任何內容。

數(shù)組擁有 transpose 方法，也有特殊的 T 屬性。

對于更高緯度的數(shù)組， transpose 方法可以接受包含軸編號的元組，用于轉置軸。

ndarray的 swapaxes 方法，通過接受一對軸編號作為參數(shù)，并對軸進行調整用于重組數(shù)據(jù)。

swapaxes 方法返回的是數(shù)據(jù)的視圖，而沒有對數(shù)據(jù)進行復制。

Reference：

《Python for Data Analysis:Data Wrangling with Pandas,Numpy,and IPython》

如何系統(tǒng)地自學 Python

是否非常想學好 Python，一方面被瑣事糾纏，一直沒能動手，另一方面，擔心學習成本太高，心里默默敲著退堂鼓？

幸運的是，Python 是一門初學者友好的編程語言，想要完全掌握它，你不必花上太多的時間和精力。

Python 的設計哲學之一就是簡單易學，體現(xiàn)在兩個方面：

語法簡潔明了：相對 Ruby 和 Perl，它的語法特性不多不少，大多數(shù)都很簡單直接，不玩兒玄學。

切入點很多：Python 可以讓你可以做很多事情，科學計算和數(shù)據(jù)分析、爬蟲、Web 網(wǎng)站、游戲、命令行實用工具等等等等，總有一個是你感興趣并且愿意投入時間的。

廢話不多說，學會一門語言的捷徑只有一個： Getting Started

? 起步階段

任何一種編程語言都包含兩個部分：硬知識和軟知識，起步階段的主要任務是掌握硬知識。

硬知識

“硬知識”指的是編程語言的語法、算法和數(shù)據(jù)結構、編程范式等，例如：變量和類型、循環(huán)語句、分支、函數(shù)、類。這部分知識也是具有普適性的，看上去是掌握了一種語法，實際是建立了一種思維。例如：讓一個 Java 程序員去學習 Python，他可以很快的將 Java 中的學到的面向對象的知識 map 到 Python 中來，因此能夠快速掌握 Python 中面向對象的特性。

如果你是剛開始學習編程的新手，一本可靠的語法書是非常重要的。它看上去可能非常枯燥乏味，但對于建立穩(wěn)固的編程思維是必不可少。

下面列出了一些適合初學者入門的教學材料：

廖雪峰的 Python 教程 ? ?Python 中文教程的翹楚，專為剛剛步入程序世界的小白打造。 ?

笨方法學 Python ? ?這本書在講解 Python 的語法成分時，還附帶大量可實踐的例子，非常適合快速起步。 ?

The Hitchhiker’s Guide to Python! ? ?這本指南著重于 Python 的最佳實踐，不管你是 Python 專家還是新手，都能獲得極大的幫助。 ?

Python 的哲學：

用一種方法，最好是只有一種方法來做一件事。

學習也是一樣，雖然推薦了多種學習資料，但實際學習的時候，最好只選擇其中的一個，堅持看完。

必要的時候，可能需要閱讀講解數(shù)據(jù)結構和算法的書，這些知識對于理解和使用 Python 中的對象模型有著很大的幫助。

軟知識

“軟知識”則是特定語言環(huán)境下的語法技巧、類庫的使用、IDE的選擇等等。這一部分，即使完全不了解不會使用，也不會妨礙你去編程，只不過寫出的程序，看上去顯得“傻”了些。

對這些知識的學習，取決于你嘗試解決的問題的領域和深度。對初學者而言，起步階段極易走火，或者在選擇 Python 版本時徘徊不決，一會兒看 2.7 一會兒又轉到 3.0，或者徜徉在類庫的大海中無法自拔，Scrapy，Numpy，Django 什么都要試試，或者參與編輯器圣戰(zhàn)、大括號縮進探究、操作系統(tǒng)辯論賽等無意義活動，或者整天跪舔語法糖，老想著怎么一行代碼把所有的事情做完，或者去構想圣潔的性能安全通用性健壯性全部滿分的解決方案。

很多“大牛”都會告誡初學者，用這個用那個，少走彎路，這樣反而把初學者推向了真正的彎路。

還不如告訴初學者，學習本來就是個需要你去走彎路出 Bug，只能腳踏實地，沒有奇跡只有狗屎的過程。

選擇一個方向先走下去，哪怕臟丑差，走不動了再看看有沒有更好的解決途徑。

自己走了彎路，你才知道這么做的好處，才能理解為什么人們可以手寫狀態(tài)機去匹配卻偏要發(fā)明正則表達式，為什么面向過程可以解決卻偏要面向對象，為什么我可以操縱每一根指針卻偏要自動管理內存，為什么我可以嵌套回調卻偏要用 Promise...

更重要的是，你會明白，高層次的解決方法都是對低層次的封裝，并不是任何情況下都是最有效最合適的。

技術涌進就像波浪一樣，那些陳舊的封存已久的技術，消退了遲早還會涌回的。就像現(xiàn)在移動端應用、手游和 HTML5 的火熱，某些方面不正在重演過去 PC 的那些歷史么？

因此，不要擔心自己走錯路誤了終身，堅持并保持進步才是正道。

起步階段的核心任務是掌握硬知識，軟知識做適當了解，有了穩(wěn)固的根，粗壯的枝干，才能長出濃密的葉子，結出甜美的果實。

? 發(fā)展階段

完成了基礎知識的學習，必定會感到一陣空虛，懷疑這些語法知識是不是真的有用。

沒錯，你的懷疑是非常正確的。要讓 Python 發(fā)揮出它的價值，當然不能停留在語法層面。

發(fā)展階段的核心任務，就是“跳出 Python，擁抱世界”。

在你面前會有多個分支：科學計算和數(shù)據(jù)分析、爬蟲、Web 網(wǎng)站、游戲、命令行實用工具等等等等，這些都不是僅僅知道 Python 語法就能解決的問題。

拿爬蟲舉例，如果你對計算機網(wǎng)絡，HTTP 協(xié)議，HTML，文本編碼，JSON 一無所知，你能做好這部分的工作么？而你在起步階段的基礎知識也同樣重要，如果你連循環(huán)遞歸怎么寫都還要查文檔，連 BFS 都不知道怎么實現(xiàn)，這就像工匠做石凳每次起錘都要思考錘子怎么使用一樣，非常低效。

在這個階段，不可避免要接觸大量類庫，閱讀大量書籍的。

類庫方面

「Awesome Python 項目」：vinta/awesome-python · GitHub

這里列出了你在嘗試解決各種實際問題時，Python 社區(qū)已有的工具型類庫，如下圖所示：

請點擊輸入圖片描述

vinta/awesome-python

你可以按照實際需求，尋找你需要的類庫。

至于相關類庫如何使用，必須掌握的技能便是閱讀文檔。由于開源社區(qū)大多數(shù)文檔都是英文寫成的，所以，英語不好的同學，需要惡補下。

書籍方面

這里我只列出一些我覺得比較有一些幫助的書籍，詳細的請看豆瓣的書評：

科學和數(shù)據(jù)分析：

?「集體智慧編程」：集體智慧編程 (豆瓣)

?「數(shù)學之美」：數(shù)學之美 (豆瓣)

?「統(tǒng)計學習方法」：統(tǒng)計學習方法 (豆瓣)

?「Pattern Recognition And Machine Learning」：Pattern Recognition And Machine Learning (豆瓣)

?「數(shù)據(jù)科學實戰(zhàn)」：數(shù)據(jù)科學實戰(zhàn) (豆瓣)

?「數(shù)據(jù)檢索導論」：信息檢索導論 (豆瓣)

爬蟲：

?「HTTP 權威指南」：HTTP權威指南 (豆瓣)

Web 網(wǎng)站：

?「HTML CSS 設計與構建網(wǎng)站」：HTML CSS設計與構建網(wǎng)站 (豆瓣)

...

列到這里已經(jīng)不需要繼續(xù)了。

聰明的你一定會發(fā)現(xiàn)上面的大部分書籍，并不是講 Python 的書，而更多的是專業(yè)知識。

事實上，這里所謂“跳出 Python，擁抱世界”，其實是發(fā)現(xiàn) Python 和專業(yè)知識相結合，能夠解決很多實際問題。這個階段能走到什么程度，更多的取決于自己的專業(yè)知識。

? 深入階段

這個階段的你，對 Python 幾乎了如指掌，那么你一定知道 Python 是用 C 語言實現(xiàn)的。

可是 Python 對象的“動態(tài)特征”是怎么用相對底層，連自動內存管理都沒有的C語言實現(xiàn)的呢？這時候就不能停留在表面了，勇敢的拆開 Python 的黑盒子，深入到語言的內部，去看它的歷史，讀它的源碼，才能真正理解它的設計思路。

這里推薦一本書：

「Python 源碼剖析」：Python源碼剖析 (豆瓣)

這本書把 Python 源碼中最核心的部分，給出了詳細的闡釋，不過閱讀此書需要對 C 語言內存模型和指針有著很好的理解。

另外，Python 本身是一門雜糅多種范式的動態(tài)語言，也就是說，相對于 C 的過程式、 Haskell 等的函數(shù)式、Java 基于類的面向對象而言，它都不夠純粹。換而言之，編程語言的“道學”，在 Python 中只能有限的體悟。學習某種編程范式時，從那些面向這種范式更加純粹的語言出發(fā)，才能有更深刻的理解，也能了解到 Python 語言的根源。

這里推薦一門公開課

「編程范式」：斯坦福大學公開課：編程范式

講師高屋建瓴，從各種編程范式的代表語言出發(fā)，給出了每種編程范式最核心的思想。

值得一提的是，這門課程對C語言有非常深入的講解，例如C語言的范型和內存管理。這些知識，對閱讀 Python 源碼也有大有幫助。

Python 的許多最佳實踐都隱藏在那些眾所周知的框架和類庫中，例如 Django、Tornado 等等。在它們的源代碼中淘金，也是個不錯的選擇。

? ?最后的話

每個人學編程的道路都是不一樣的，其實大都殊途同歸，沒有迷路的人只有不能堅持的人！

希望想學 Python 想學編程的同學，不要猶豫了，看完這篇文章，

Just Getting Started ?！！！

對于Python 的科學計算有哪些提高運算速度的技

一：學會正確使用numpy scipy。 numpy scipy寫好的絕不自己寫，比如矩陣運算等操作，pylab的實現(xiàn)還算不錯。各種函數(shù)都有，盡量使用他們可以避免初學者大部分的速度不足問題。因為這些函數(shù)大部分都是預編譯好的。

根據(jù)我?guī)啄昵暗臏y試，python的矩陣運算速度并不慢，(因為你運行的是動態(tài)鏈接庫里面的函數(shù)而不是腳本）比mathematica快，和matlab持平。

大部分新手不擅長看文檔啥都自己造輪子是不好的。當然老手把效率寫的比開源庫高也不算啥新聞，畢竟有對特定程序的優(yōu)化

二：減少for的使用，多使用向量化函數(shù)，np.vectorlize可以把函數(shù)變成對數(shù)組逐元素的操作，比for效率高幾個華萊士。

三：對內存友好，操作大矩陣的時候減少會引起整矩陣對此copy的操作

四：系統(tǒng)最慢的大部分時候是io，包括上面說的內存操作和頻繁的讀入讀出以及debug輸出。避免他們，在需要實時處理的時候引入類似于gpu的pipeline管線機制或者使用靈活的多線程編程可以起到奇效。

五：matplotlib的繪圖效率并不高明，在使用交互繪圖（plt.ion）的時候減少不必要的刷新率。

優(yōu)化Python編程的4個妙招

1. Pandas.apply() – 特征工程瑰寶

Pandas 庫已經(jīng)非常優(yōu)化了，但是大部分人都沒有發(fā)揮它的最大作用。想想它一般會用于數(shù)據(jù)科學項目中的哪些地方。一般首先能想到的就是特征工程，即用已有特征創(chuàng)造新特征。其中最高效的方法之一就是Pandas.apply()，即Pandas中的apply函數(shù)。

在Pandas.apply()中，可以傳遞用戶定義功能并將其應用到Pandas Series的所有數(shù)據(jù)點中。這個函數(shù)是Pandas庫最好的擴展功能之一，它能根據(jù)所需條件分隔數(shù)據(jù)。之后便能將其有效應用到數(shù)據(jù)處理任務中。

2. Pandas.DataFrame.loc – Python數(shù)據(jù)操作絕妙技巧

所有和數(shù)據(jù)處理打交道的數(shù)據(jù)科學家(差不多所有人了!)都應該學會這個方法。

很多時候，數(shù)據(jù)科學家需要根據(jù)一些條件更新數(shù)據(jù)集中某列的某些值。Pandas.DataFrame.loc就是此類問題最優(yōu)的解決方法。

3. Python函數(shù)向量化

另一種解決緩慢循環(huán)的方法就是將函數(shù)向量化。這意味著新建函數(shù)會應用于輸入列表，并返回結果數(shù)組。在Python中使用向量化能至少迭代兩次，從而加速計算。

事實上，這樣不僅能加速代碼運算，還能讓代碼更加簡潔清晰。

4. Python多重處理

多重處理能使系統(tǒng)同時支持一個以上的處理器。

此處將數(shù)據(jù)處理分成多個任務，讓它們各自獨立運行。處理龐大的數(shù)據(jù)集時，即使是apply函數(shù)也顯得有些遲緩。

關于優(yōu)化Python編程的4個妙招，青藤小編就和您分享到這里了。如果您對python編程有濃厚的興趣，希望這篇文章可以為您提供幫助。如果您還想了解更多關于python編程的技巧及素材等內容，可以點擊本站的其他文章進行學習。

「干貨」讓Python性能起飛的15個技巧，你知道幾個呢？

前言

Python 一直以來被大家所詬病的一點就是執(zhí)行速度慢，但不可否認的是 Python 依然是我們學習和工作中的一大利器。本文總結了15個tips有助于提升 Python 執(zhí)行速度、優(yōu)化性能。

關于 Python 如何精確地測量程序的執(zhí)行時間，這個問題看起來簡單其實很復雜，因為程序的執(zhí)行時間受到很多因素的影響，例如操作系統(tǒng)、Python 版本以及相關硬件（CPU 性能、內存讀寫速度）等。在同一臺電腦上運行相同版本的語言時，上述因素就是確定的了，但是程序的睡眠時間依然是變化的，且電腦上正在運行的其他程序也會對實驗有干擾，因此嚴格來說這就是實驗不可重復。

我了解到的關于計時比較有代表性的兩個庫就是 time 和 timeit 。

其中， time 庫中有 time() 、 perf_counter() 以及 process_time() 三個函數(shù)可用來計時（以秒為單位），加后綴 _ns 表示以納秒計時（自 Python3.7 始）。在此之前還有 clock() 函數(shù)，但是在 Python3.3 之后被移除了。上述三者的區(qū)別如下：

與 time 庫相比， timeit 有兩個優(yōu)點：

timeit.timeit(stmt='pass', setup='pass', timer= , number=1000000, globals=None) 參數(shù)說明：

本文所有的計時均采用 timeit 方法，且采用默認的執(zhí)行次數(shù)一百萬次。

為什么要執(zhí)行一百萬次呢？因為我們的測試程序很短，如果不執(zhí)行這么多次的話，根本看不出差距。

Exp1：將字符串數(shù)組中的小寫字母轉為大寫字母。

測試數(shù)組為 oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗時 0.5267724000000005s ，方法二耗時 0.41462569999999843s ，性能提升 21.29%

Exp2：求兩個 list 的交集。

測試數(shù)組：a = [1,2,3,4,5]，b = [2,4,6,8,10]。

方法一

方法二

方法一耗時 0.9507264000000006s ，方法二耗時 0.6148200999999993s ，性能提升 35.33%

關于 set() 的語法： | 、、 - 分別表示求并集、交集、差集。

我們可以通過多種方式對序列進行排序，但其實自己編寫排序算法的方法有些得不償失。因為內置的 sort() 或 sorted() 方法已經(jīng)足夠優(yōu)秀了，且利用參數(shù) key 可以實現(xiàn)不同的功能，非常靈活。二者的區(qū)別是 sort() 方法僅被定義在 list 中，而 sorted() 是全局方法對所有的可迭代序列都有效。

Exp3：分別使用快排和 sort() 方法對同一列表排序。

測試數(shù)組：lists = [2,1,4,3,0]。

方法一

方法二

方法一耗時 2.4796975000000003s ，方法二耗時 0.05551999999999424s ，性能提升 97.76%

順帶一提， sorted() 方法耗時 0.1339823999987857s 。

可以看出， sort() 作為 list 專屬的排序方法還是很強的， sorted() 雖然比前者慢一點，但是勝在它“不挑食”，它對所有的可迭代序列都有效。

擴展：如何定義 sort() 或 sorted() 方法的 key

1.通過 lambda 定義

2.通過 operator 定義

operator 的 itemgetter() 適用于普通數(shù)組排序， attrgetter() 適用于對象數(shù)組排序

3.通過 cmp_to_key() 定義，最為靈活

Exp4：統(tǒng)計字符串中每個字符出現(xiàn)的次數(shù)。

測試數(shù)組：sentence='life is short, i choose python'。

方法一

方法二

方法一耗時 2.8105250000000055s ，方法二耗時 1.6317423000000062s ，性能提升 41.94%

列表推導（list comprehension）短小精悍。在小代碼片段中，可能沒有太大的區(qū)別。但是在大型開發(fā)中，它可以節(jié)省一些時間。

Exp5：對列表中的奇數(shù)求平方，偶數(shù)不變。

測試數(shù)組：oldlist = range(10)。

方法一

方法二

方法一耗時 1.5342976000000021s ，方法二耗時 1.4181957999999923s ，性能提升 7.57%

大多數(shù)人都習慣使用 + 來連接字符串。但其實，這種方法非常低效。因為， + 操作在每一步中都會創(chuàng)建一個新字符串并復制舊字符串。更好的方法是用 join() 來連接字符串。關于字符串的其他操作，也盡量使用內置函數(shù)，如 isalpha() 、 isdigit() 、 startswith() 、 endswith() 等。

Exp6：將字符串列表中的元素連接起來。

測試數(shù)組：oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗時 0.27489080000000854s ，方法二耗時 0.08166570000000206s ，性能提升 70.29%

join 還有一個非常舒服的點，就是它可以指定連接的分隔符，舉個例子

life//is//short//i//choose//python

Exp6：交換x，y的值。

測試數(shù)據(jù)：x, y = 100, 200。

方法一

方法二

方法一耗時 0.027853900000010867s ，方法二耗時 0.02398730000000171s ，性能提升 13.88%

在不知道確切的循環(huán)次數(shù)時，常規(guī)方法是使用 while True 進行無限循環(huán)，在代碼塊中判斷是否滿足循環(huán)終止條件。雖然這樣做沒有任何問題，但 while 1 的執(zhí)行速度比 while True 更快。因為它是一種數(shù)值轉換，可以更快地生成輸出。

Exp8：分別用 while 1 和 while True 循環(huán) 100 次。

方法一

方法二

方法一耗時 3.679268300000004s ，方法二耗時 3.607847499999991s ，性能提升 1.94%

將文件存儲在高速緩存中有助于快速恢復功能。Python 支持裝飾器緩存，該緩存在內存中維護特定類型的緩存，以實現(xiàn)最佳軟件驅動速度。我們使用 lru_cache 裝飾器來為斐波那契函數(shù)提供緩存功能，在使用 fibonacci 遞歸函數(shù)時，存在大量的重復計算，例如 fibonacci(1) 、 fibonacci(2) 就運行了很多次。而在使用了 lru_cache 后，所有的重復計算只會執(zhí)行一次，從而大大提高程序的執(zhí)行效率。

Exp9：求斐波那契數(shù)列。

測試數(shù)據(jù)：fibonacci(7)。

方法一

方法二

方法一耗時 3.955014900000009s ，方法二耗時 0.05077979999998661s ，性能提升 98.72%

注意事項：

我被執(zhí)行了（執(zhí)行了兩次 demo(1, 2) ，卻只輸出一次）

functools.lru_cache(maxsize=128, typed=False) 的兩個可選參數(shù)：

點運算符( . )用來訪問對象的屬性或方法，這會引起程序使用 __getattribute__() 和 __getattr__() 進行字典查找，從而帶來不必要的開銷。尤其注意，在循環(huán)當中，更要減少點運算符的使用，應該將它移到循環(huán)外處理。

這啟發(fā)我們應該盡量使用 from ... import ... 這種方式來導包，而不是在需要使用某方法時通過點運算符來獲取。其實不光是點運算符，其他很多不必要的運算我們都盡量移到循環(huán)外處理。

Exp10：將字符串數(shù)組中的小寫字母轉為大寫字母。

測試數(shù)組為 oldlist = ['life', 'is', 'short', 'i', 'choose', 'python']。

方法一

方法二

方法一耗時 0.7235491999999795s ，方法二耗時 0.5475435999999831s ，性能提升 24.33%

當我們知道具體要循環(huán)多少次時，使用 for 循環(huán)比使用 while 循環(huán)更好。

Exp12：使用 for 和 while 分別循環(huán) 100 次。

方法一

方法二

方法一耗時 3.894683299999997s ，方法二耗時 1.0198077999999953s ，性能提升 73.82%

Numba 可以將 Python 函數(shù)編譯碼為機器碼執(zhí)行，大大提高代碼執(zhí)行速度，甚至可以接近 C 或 FORTRAN 的速度。它能和 Numpy 配合使用，在 for 循環(huán)中或存在大量計算時能顯著地提高執(zhí)行效率。

Exp12：求從 1 加到 100 的和。

方法一

方法二

方法一耗時 3.7199997000000167s ，方法二耗時 0.23769430000001535s ，性能提升 93.61%

矢量化是 NumPy 中的一種強大功能，可以將操作表達為在整個數(shù)組上而不是在各個元素上發(fā)生。這種用數(shù)組表達式替換顯式循環(huán)的做法通常稱為矢量化。

在 Python 中循環(huán)數(shù)組或任何數(shù)據(jù)結構時，會涉及很多開銷。NumPy 中的向量化操作將內部循環(huán)委托給高度優(yōu)化的 C 和 Fortran 函數(shù)，從而使 Python 代碼更加快速。

Exp13：兩個長度相同的序列逐元素相乘。

測試數(shù)組：a = [1,2,3,4,5], b = [2,4,6,8,10]

方法一

方法二

方法一耗時 0.6706845000000214s ，方法二耗時 0.3070132000000001s ，性能提升 54.22%

若要檢查列表中是否包含某成員，通常使用 in 關鍵字更快。

Exp14：檢查列表中是否包含某成員。

測試數(shù)組：lists = ['life', 'is', 'short', 'i', 'choose', 'python']

方法一

方法二

方法一耗時 0.16038449999999216s ，方法二耗時 0.04139250000000061s ，性能提升 74.19%

itertools 是用來操作迭代器的一個模塊，其函數(shù)主要可以分為三類：無限迭代器、有限迭代器、組合迭代器。

Exp15：返回列表的全排列。

測試數(shù)組：["Alice", "Bob", "Carol"]

方法一

方法二

方法一耗時 3.867292899999484s ，方法二耗時 0.3875405000007959s ，性能提升 89.98%

根據(jù)上面的測試數(shù)據(jù)，我繪制了下面這張實驗結果圖，可以更加直觀的看出不同方法帶來的性能差異。

從圖中可以看出，大部分的技巧所帶來的性能增幅還是比較可觀的，但也有少部分技巧的增幅較小（例如編號5、7、8，其中，第 8 條的兩種方法幾乎沒有差異）。

總結下來，我覺得其實就是下面這兩條原則：

內置庫函數(shù)由專業(yè)的開發(fā)人員編寫并經(jīng)過了多次測試，很多庫函數(shù)的底層是用 C 語言開發(fā)的。因此，這些函數(shù)總體來說是非常高效的（比如 sort() 、 join() 等），自己編寫的方法很難超越它們，還不如省省功夫，不要重復造輪子了，何況你造的輪子可能更差。所以，如果函數(shù)庫中已經(jīng)存在該函數(shù)，就直接拿來用。

有很多優(yōu)秀的第三方庫，它們的底層可能是用 C 和 Fortran 來實現(xiàn)的，像這樣的庫用起來絕對不會吃虧，比如前文提到的 Numpy 和 Numba，它們帶來的提升都是非常驚人的。類似這樣的庫還有很多，比如Cython、PyPy等，這里我只是拋磚引玉。

原文鏈接：

python寫算法不好

基于以下三個原因，我們選擇Python作為實現(xiàn)機器學習算法的編程語言：(1) python的語法清晰；(2) 易于操作純文本文件；(3) 使用廣泛，存在大量的開發(fā)文檔。

可執(zhí)行偽代碼

Python具有清晰的語法結構，大家也把它稱作可執(zhí)行偽代碼(executable pseudo-code)。默認安裝的Python開發(fā)環(huán)境已經(jīng)附帶了很多高級數(shù)據(jù)類型，如列表、元組、字典、集合、隊列等，無需進一步編程就可以使用這些數(shù)據(jù)類型的操作。使用這些數(shù)據(jù)類型使得實現(xiàn)抽象的數(shù)學概念非常簡單。此外，讀者還可以使用自己熟悉的編程風格，如面向對象編程、面向過程編程、或者函數(shù)式編程。

Python語言處理和操作文本文件非常簡單，非常易于處理非數(shù)值型數(shù)據(jù)。Python語言提供了豐富的正則表達式函數(shù)以及很多訪問Web頁面的函數(shù)庫，使得從HTML中提取數(shù)據(jù)變得非常簡單直觀。

Python比較流行

Python語言使用廣泛，代碼范例也很多，便于讀者快速學習和掌握。此外，在開發(fā)實際應用程序時，也可以利用豐富的模塊庫縮短開發(fā)周期。

在科學和金融領域，Python語言得到了廣泛應用。SciPy和NumPy等許多科學函數(shù)庫都實現(xiàn)了向量和矩陣操作，這些函數(shù)庫增加了代碼的可讀性，學過線性代數(shù)的人都可以看懂代碼的實際功能。另外，科學函數(shù)庫SciPy和NumPy使用底層語言(C和Fortran)編寫，提高了相關應用程序的計算性能。本書將大量使用Python的NumPy。

Python的科學工具可以與繪圖工具Matplotlib協(xié)同工作。Matplotlib可以繪制2D、3D圖形，也可以處理科學研究中經(jīng)常使用到的圖形，所以本書也將大量使用Matplotlib。

Python開發(fā)環(huán)境還提供了交互式shell環(huán)境，允許用戶開發(fā)程序時查看和檢測程序內容。

Python開發(fā)環(huán)境將來還會集成Pylab模塊，它將NumPy、SciPy和Matplotlib合并為一個開發(fā)環(huán)境。在本書寫作時，Pylab還沒有并入Python環(huán)境，但是不遠的將來我們肯定可以在Python開發(fā)環(huán)境找到它。

Python語言的特色

諸如MATLAB和Mathematica等高級程序語言也允許用戶執(zhí)行矩陣操作，MATLAB甚至還有許多內嵌的特征可以輕松地構造機器學習應用，而且MATLAB的運算速度也很快。然而MATLAB的不足之處是軟件費用太高，單個軟件授權就要花費數(shù)千美元。雖然也有適合MATLAB的第三方插件，但是沒有一個有影響力的大型開源項目。

Java和C等強類型程序設計語言也有矩陣數(shù)學庫，然而對于這些程序設計語言來說，最大的問題是即使完成簡單的操作也要編寫大量的代碼。程序員首先需要定義變量的類型，對于Java來說，每次封裝屬性時還需要實現(xiàn)getter和setter方法。另外還要記著實現(xiàn)子類，即使并不想使用子類，也必須實現(xiàn)子類方法。為了完成一個簡單的工作，我們必須花費大量時間編寫了很多無用冗長的代碼。Python語言則與Java和C完全不同，它清晰簡練，而且易于理解，即使不是編程人員也能夠理解程序的含義，而Java和C對于非編程人員則像天書一樣難于理解。

所有人在小學二年級已經(jīng)學會了寫作，然而大多數(shù)人必須從事其他更重要的工作。

——鮑比·奈特

也許某一天，我們可以在這句話中將“寫作”替代為“編寫代碼”，雖然有些人對于編寫代碼很感興趣，但是對于大多數(shù)人來說，編程僅是完成其他任務的工具而已。Python語言是高級編程語言，我們可以花費更多的時間處理數(shù)據(jù)的內在含義，而無須花費太多精力解決計算機如何得到數(shù)據(jù)結果。Python語言使得我們很容易表達自己的目的。

Python語言的缺點

Python語言唯一的不足是性能問題。Python程序運行的效率不如Java或者C代碼高，但是我們可以使用Python調用C編譯的代碼。這樣，我們就可以同時利用C和Python的優(yōu)點，逐步地開發(fā)機器學習應用程序。我們可以首先使用Python編寫實驗程序，如果進一步想要在產(chǎn)品中實現(xiàn)機器學習，轉換成C代碼也不困難。如果程序是按照模塊化原則組織的，我們可以先構造可運行的Python程序，然后再逐步使用C代碼替換核心代碼以改進程序的性能。C++ Boost庫就適合完成這個任務，其他類似于Cython和PyPy的工具也可以編寫強類型的Python代碼，改進一般Python程序的性能。

如果程序的算法或者思想有缺陷，則無論程序的性能如何，都無法得到正確的結果。如果解決問題的思想存在問題，那么單純通過提高程序的運行效率，擴展用戶規(guī)模都無法解決這個核心問題。從這個角度來看，Python快速實現(xiàn)系統(tǒng)的優(yōu)勢就更加明顯了，我們可以快速地檢驗算法或者思想是否正確，如果需要，再進一步優(yōu)化代碼。

當前文章：python向量化函數(shù) python求特征向量
鏈接地址：http://www.chinadenli.net/article8/doddiop.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供手機網(wǎng)站建設、軟件開發(fā)、App開發(fā)、營銷型網(wǎng)站建設、用戶體驗、網(wǎng)站內鏈

聲明：本網(wǎng)站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經(jīng)允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內容