lcut函數(shù)python lcut

Python中的常用內(nèi)置函數(shù)有哪些呢？

abs() divmod() input() open() staticmethod()

公司主營(yíng)業(yè)務(wù)：網(wǎng)站設(shè)計(jì)制作、成都做網(wǎng)站、移動(dòng)網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳，提高企業(yè)的競(jìng)爭(zhēng)能力。創(chuàng)新互聯(lián)是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化，感謝他們對(duì)我們的高要求，感謝他們從不同領(lǐng)域給我們帶來(lái)的挑戰(zhàn)，讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶帶來(lái)驚喜。創(chuàng)新互聯(lián)推出廬陽(yáng)免費(fèi)做網(wǎng)站回饋大家。

all() enumerate() int() ord() str()

any() eval() isinstance() pow() sum()

basestring() execfile() issubclass() print() super()

bin() file() iter() property() tuple()

bool() filter() len() range() type()

bytearray() float() list() raw_input() unichr()

callable() format() locals() reduce() unicode()

chr() frozenset() long() reload() vars()

classmethod() getattr() map() repr() xrange()

cmp() globals() max() reverse() zip()

compile() hasattr() memoryview() round() __import__()

complex() hash() min() set()

delattr() help() next() setattr()

dict() hex() object() slice()

dir() id() oct() sorted()

標(biāo)題 L-cut是什么意思?

L形切入; 直角切入。所謂L Cut。并不代表視頻先入。而是聲音還沒(méi)有結(jié)束的時(shí)候，視頻切到了別的地方去。于是聲音上面的第一個(gè)視頻片段和聲音形成一個(gè)L的形狀。這個(gè)在剪輯紀(jì)錄片或者電影預(yù)告片的時(shí)候特別有用。我們常常讓說(shuō)話的人說(shuō)到一半的時(shí)候，把畫面剪接到與之對(duì)話相關(guān)的畫面上去。讓觀眾更好的理解說(shuō)話的內(nèi)容，也讓視頻看起來(lái)更加有趣。

JCut和LCut不是一定要嚴(yán)格遵照這樣的格式的，大家可以自己變通。Lz的理解是，當(dāng)你用這種聲畫不同步的方法進(jìn)行轉(zhuǎn)場(chǎng)，最重要的是，在聲音持續(xù)的過(guò)程中，畫面要帶到發(fā)聲的東西，讓觀眾理解這是什么在發(fā)聲，為什么在發(fā)聲，誰(shuí)在說(shuō)話。因?yàn)樗季S的連貫性，整個(gè)剪輯出來(lái)的片段就看起來(lái)更加連貫。

Python其實(shí)很簡(jiǎn)單第二十一章 DataFrame數(shù)據(jù)處理

將Excel中的的數(shù)據(jù)讀入數(shù)據(jù)框架DataFrame后，可以非常方便的進(jìn)行各種數(shù)據(jù)處理。

21.1 列間求和

求總分（總分=語(yǔ)文+數(shù)學(xué)+英語(yǔ)）

對(duì)于上一章所提到的學(xué)生成績(jī)表，僅用一個(gè)語(yǔ)句即可完成總分計(jì)算，并填充。

df['總分']=df['語(yǔ)文']+df['數(shù)學(xué)']+df['英語(yǔ)']

完整代碼如下：

from pandas import read_excel

file='d:/student.xlsx' #見第18章表18-1

df=read_excel(file,sheet_name=0,converters={'學(xué)號(hào)':str})

df['總分']=df['語(yǔ)文']+df['數(shù)學(xué)']+df['英語(yǔ)']

print(df.head()) #df.head()的作用是僅顯示5行記錄。

運(yùn)行結(jié)果如下：

序號(hào) 學(xué)號(hào) 姓名年級(jí) 班級(jí) 語(yǔ)文數(shù)學(xué) 英語(yǔ) 總分名次

0 1 070101 王博宇 NaN NaN 84 71 93 248 NaN

1 2 070102 陳冠濤 NaN NaN 89 89 89 267 NaN

2 3 070103 李文博 NaN NaN 89 72 76 237 NaN

3 4 070204 姜海燕 NaN NaN 89 89 89 267 NaN

4 5 070205 林若溪 NaN NaN 91 95 83 269 NaN

21.2替換

既可以將對(duì)滿足條件的行和列的數(shù)據(jù)替換，也可以對(duì)整個(gè)集合的數(shù)據(jù)按照條件進(jìn)行替換。

df['總分'].replace(310,'x',inplace=True)

將總分列的數(shù)值“310”替換為“x”。inplace=True表示改變?cè)瓟?shù)據(jù)。

df.replace(76,0,inplace=True)

將整個(gè)DataFrame中的數(shù)值“76”替換為“0”。

df.replace([98,76,99],0,inplace=True)

將整個(gè)DataFrame中的數(shù)值“98,76,99”一次替換為“0”。

21.2排序

既可以將某一列作為關(guān)鍵字段排序，也可以將幾個(gè)列分別作為主、次關(guān)鍵字段進(jìn)行排序。排序既可以按升序排序，也可以按降序排序。

函數(shù)sort_values()的語(yǔ)法格式如下：

df.sort_values(by=[“col1”,”col2”,......,”coln”],ascending=False)

其中，coln表示列名，也可以是列名的列表；ascending表示排序方式，值為True表示升序，可以省缺，值為False表示降序。

如：

df=df.sort_values(by=['總分'],ascending=False)

表示按照“總分”從高到低排序。

df=df.sort_values(by=['總分','語(yǔ)文'],ascending=False)

表示按照“總分”從高到低排序，若“總分”相同，再按照“語(yǔ)文”成績(jī)從高到低排序。

21.3 字段截取

函數(shù)slice()可以從某列中截取字符串。格式如下：

slice(start,stop)

其中，start表示開始位置；stop表示結(jié)束位置

例：

df['年級(jí)']=df['學(xué)號(hào)'].str.slice(0,2)

通過(guò)此語(yǔ)句可以截取學(xué)號(hào)字段的第1、2個(gè)字符，并賦值給年級(jí)字段。

21.4 記錄抽取

可以抽取滿足條件的記錄。

例：抽取總分300的記錄。

df[df.總分300]

抽取總分在300到310之間（包括300和310）的記錄。

df[df.總分.between(306,310)]

抽取學(xué)號(hào)中包含“0803”的記錄。這樣可以非常方便的抽取某個(gè)班的信息。

df[df.學(xué)號(hào).str.contains('0803',na=False)]

此處的na=False，含義是如遇到NaN這樣的數(shù)據(jù)，直接做不匹配處理。

21.5修改記錄

1、整列替換

我們?cè)谇懊嬉呀?jīng)給整列填充過(guò)數(shù)據(jù)，填充時(shí)原來(lái)的數(shù)據(jù)就被覆蓋了。

即如下語(yǔ)句：

df['總分']=df['語(yǔ)文']+df['數(shù)學(xué)']+df['英語(yǔ)']

2、個(gè)別修改

如將值‘99’替換為值‘100’，可用如下語(yǔ)句：

df.replace('99','100')

將指定列的值替，如將語(yǔ)文列和英語(yǔ)列的值‘99’替換為值‘100’，可用如下語(yǔ)句：

df.replace({'語(yǔ)文':99,'英語(yǔ)':99},100)

可用如下程序去驗(yàn)證：

from pandas import read_excel

file='d:/student.xlsx'

df=read_excel(file,sheet_name=0,converters={'學(xué)號(hào)':str})

print(df[(df.語(yǔ)文==99) |(df.英語(yǔ)==99)])

df=df.replace({'語(yǔ)文':99,'英語(yǔ)':99},100)

print(df[(df.語(yǔ)文==99) |(df.英語(yǔ)==99)])

運(yùn)行結(jié)果為：

序號(hào) 學(xué)號(hào) 姓名年級(jí) 班級(jí) 語(yǔ)文數(shù)學(xué) 英語(yǔ) 總分名次

28 29 090802 丁能通 09 NaN 119 120 99 338 NaN

29 30 090203 沈丹妮 09 NaN 109 108 99 316 NaN

Empty DataFrame

Columns: [序號(hào), 學(xué)號(hào), 姓名, 年級(jí), 班級(jí), 語(yǔ)文, 數(shù)學(xué), 英語(yǔ), 總分, 名次]

Index: []

可以看出，第一個(gè)print()語(yǔ)句輸出的結(jié)果中滿足條件“語(yǔ)文或英語(yǔ)為99分”的有兩條記錄，替換語(yǔ)句執(zhí)行以后，df中再?zèng)]有滿足條件“語(yǔ)文或英語(yǔ)為99分”的記錄了。

21.6記錄合并

函數(shù)concat()的格式如下：

concat([dataFrame1,dataFrame2,......]，ignore_index=True)

其中，dataFrame1等表示要合并的DataFrame數(shù)據(jù)集合；ignore_index=True表示合并之后的重新建立索引。其返回值也是DataFrame類型。

concat()函數(shù)和append()函數(shù)的功能非常相似。

例：

import pandas #導(dǎo)入pandas模塊

from pandas import read_excel #導(dǎo)入read_execel

file='d:/student.xlsx' #變量file表示文件路徑，注意'/'的用法數(shù)據(jù)見第18章表18-1

df=read_excel(file,sheet_name=0,converters={'學(xué)號(hào)':str})

# 將Excel文件導(dǎo)入到DataFrame變量中

df=df[:5] #截取df的前5個(gè)記錄

print(df) #輸出df

df1=df[:3] #截取df的前3個(gè)記錄存入df1中

df2=df[3:5] #截取df的最后2個(gè)記錄存入df2中

df3=pandas.concat([df2,df1]) #將df2與df1合并存入df3中

print(df3) #輸出df3

運(yùn)行結(jié)果如下：

序號(hào) 學(xué)號(hào) 姓名年級(jí) 班級(jí) 語(yǔ)文數(shù)學(xué) 英語(yǔ) 總分名次

0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN

1 2 070102 陳冠濤 NaN NaN 89 89 89 NaN NaN

2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN

3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN

4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN

序號(hào) 學(xué)號(hào) 姓名年級(jí) 班級(jí) 語(yǔ)文數(shù)學(xué) 英語(yǔ) 總分名次

3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN

4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN

0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN

1 2 070102 陳冠濤 NaN NaN 89 89 89 NaN NaN

2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN

由于合并時(shí)是將df1合并到df2中，可以看出，索引仍然保持原來(lái)的狀態(tài)。

21.7統(tǒng)計(jì)次數(shù)

可以用如下方法統(tǒng)計(jì)出某個(gè)值在某行或者某個(gè)范圍出現(xiàn)的次數(shù)。

from pandas import read_excel

file='d:/student.xlsx'

df=read_excel(file,sheet_name=0,converters={'學(xué)號(hào)':str})

df=df[:5]

print(df)

print(df['語(yǔ)文'].value_counts())

輸出結(jié)果如下：

序號(hào) 學(xué)號(hào) 姓名年級(jí) 班級(jí) 語(yǔ)文數(shù)學(xué) 英語(yǔ) 總分名次

0 1 070101 王博宇 NaN NaN 84 71 93 NaN NaN

1 2 070102 陳冠濤 NaN NaN 89 89 89 NaN NaN

2 3 070103 李文博 NaN NaN 89 72 76 NaN NaN

3 4 070204 姜海燕 NaN NaN 89 89 89 NaN NaN

4 5 070205 林若溪 NaN NaN 91 95 83 NaN NaN

89 3

84 1

91 1

Name: 語(yǔ)文, dtype: int64

可以看出，通過(guò)value_counts()函數(shù)可以統(tǒng)計(jì)出列中各值出現(xiàn)的次數(shù)。

value_counts()函數(shù)的參數(shù)還有：

ascending，當(dāng)ascending=True時(shí)升序排列，當(dāng)ascending=False時(shí)升序排列（此時(shí)該參數(shù)可省缺）；

normalize，當(dāng)normalize=True時(shí)，顯示的不再是各值出現(xiàn)的次數(shù)，而是占比。

將上例中的語(yǔ)句print(df['語(yǔ)文'].value_counts())改為：

print(df['語(yǔ)文'].value_counts(ascending=True,normalize=True))

則輸出結(jié)果變成了：

91 0.2

84 0.2

89 0.6

Name: 語(yǔ)文, dtype: float64

21.8按值查找

print(df['語(yǔ)文'].isin([84,91]))

它的作用是查找‘語(yǔ)文’列中值和isin所指的列表中元素一致的記錄，如果找到結(jié)果為True，否則為False。

輸出結(jié)果：

0 True

1 False

2 False

3 False

4 True

Name: 語(yǔ)文, dtype: bool

21.9數(shù)據(jù)分區(qū)

根據(jù)某個(gè)分區(qū)標(biāo)準(zhǔn)，將數(shù)據(jù)按照所屬區(qū)域進(jìn)行劃分，并用相應(yīng)的標(biāo)簽表示，可以用cut()方法來(lái)實(shí)現(xiàn)。

語(yǔ)法格式如下：

cut(series, bins, right=True, labels=NULL)

其中：

series表示需要分組的數(shù)據(jù)；

bins表示分組的依據(jù)，是一個(gè)列表，其元素為劃分分區(qū)的邊界值，如[0,72,96,120]，就是劃分3個(gè)分區(qū)，即0~72、72~96、96~120，默認(rèn)的是“左包右不包”；

right表示分組時(shí)右邊是否閉合；

labels表示分組的自定義標(biāo)簽，也可以不重新定義。

下面對(duì)上述學(xué)生成績(jī)表中的語(yǔ)文成績(jī)進(jìn)行分組，并增加一個(gè)新的列“語(yǔ)文等級(jí)”。

import pandas as pd

from pandas import read_excel #導(dǎo)入read_execel

file='d:/student.xlsx'

df=read_excel(file,sheet_name=0,converters={'學(xué)號(hào)':str})

df['年級(jí)']=df['學(xué)號(hào)'].str.slice(0,2)

df['班級(jí)']=df['學(xué)號(hào)'].str.slice(0,4)

df.總分=df.語(yǔ)文+df.數(shù)學(xué)+df.英語(yǔ)

bins=[0,72,96,max(df.語(yǔ)文)+1] #

lab=['不及格','及格','優(yōu)秀']

grade=pd.cut(df.語(yǔ)文,bins,right=False,labels=lab)

df['語(yǔ)文等級(jí)']=grade

print(df.head())

print("語(yǔ)文成績(jī)分等級(jí)統(tǒng)計(jì)結(jié)果:")

print(df['語(yǔ)文等級(jí)'].value_counts())

運(yùn)行結(jié)果如下：

序號(hào) 學(xué)號(hào) 姓名年級(jí) 班級(jí) 語(yǔ)文數(shù)學(xué) 英語(yǔ) 總分語(yǔ)文等級(jí)

0 1 070101 王博宇 07 0701 84 71 93 248 及格

1 2 070102 陳冠濤 07 0701 89 89 89 267 及格

2 3 070103 李文博 07 0701 89 72 76 237 及格

3 4 070204 姜海燕 07 0702 89 89 89 267 及格

4 5 070205 林若溪 07 0702 91 95 83 269 及格

語(yǔ)文成績(jī)分等級(jí)統(tǒng)計(jì)結(jié)果:

及格 17

優(yōu)秀 10

不及格 4

Name: 語(yǔ)文等級(jí), dtype: int64

如何用 Python 從海量文本抽取主題

代碼

我們?cè)贘upyter Notebook中新建一個(gè)Python 2筆記本，起名為topic-model。

為了處理表格數(shù)據(jù)，我們依然使用數(shù)據(jù)框工具Pandas。先調(diào)用它。

import pandas as pd

然后讀入我們的數(shù)據(jù)文件datascience.csv，注意它的編碼是中文GB18030，不是Pandas默認(rèn)設(shè)置的編碼，所以此處需要顯式指定編碼類型，以免出現(xiàn)亂碼錯(cuò)誤。

df = pd.read_csv("datascience.csv", encoding='gb18030')

我們來(lái)看看數(shù)據(jù)框的頭幾行，以確認(rèn)讀取是否正確。

df.head()

顯示結(jié)果如下：

沒(méi)問(wèn)題，頭幾行內(nèi)容所有列都正確讀入，文字顯式正常。我們看看數(shù)據(jù)框的長(zhǎng)度，以確認(rèn)數(shù)據(jù)是否讀取完整。

df.shape

執(zhí)行的結(jié)果為：

(1024, 3)

行列數(shù)都與我們爬取到的數(shù)量一致，通過(guò)。

下面我們需要做一件重要工作——分詞。這是因?yàn)槲覀冃枰崛∶科恼碌年P(guān)鍵詞。而中文本身并不使用空格在單詞間劃分。

我們首先調(diào)用jieba分詞包。

import jieba

我們此次需要處理的，不是單一文本數(shù)據(jù)，而是1000多條文本數(shù)據(jù)，因此我們需要把這項(xiàng)工作并行化。這就需要首先編寫一個(gè)函數(shù)，處理單一文本的分詞。

def chinese_word_cut(mytext):

return " ".join(jieba.cut(mytext))

有了這個(gè)函數(shù)之后，我們就可以不斷調(diào)用它來(lái)批量處理數(shù)據(jù)框里面的全部文本（正文）信息了。你當(dāng)然可以自己寫個(gè)循環(huán)來(lái)做這項(xiàng)工作。

下面這一段代碼執(zhí)行起來(lái)，可能需要一小段時(shí)間。請(qǐng)耐心等候。

df["content_cutted"] = df.content.apply(chinese_word_cut)

執(zhí)行過(guò)程中可能會(huì)出現(xiàn)如下提示。沒(méi)關(guān)系，忽略就好。

Building prefix dict from the default dictionary ...

Loading model from cache /var/folders/8s/k8yr4zy52q1dh107gjx280mw0000gn/T/jieba.cache

Loading model cost 0.406 seconds.

Prefix dict has been built succesfully.

執(zhí)行完畢之后，我們需要查看一下，文本是否已經(jīng)被正確分詞。

df.content_cutted.head()

python分析奧巴馬資金來(lái)源

奧巴馬的競(jìng)選資金是一點(diǎn)點(diǎn)從選民那里募集來(lái)的。如獲黨內(nèi)提名,可得政府拔款，但也沒(méi)多少。美國(guó)大選不僅禁外國(guó)人捐款,而且禁止公司機(jī)構(gòu)捐款,而只允許個(gè)人捐款。不僅如此,還為個(gè)人捐款限制了上限,防止富人捐過(guò)多的款而影響未來(lái)的公平執(zhí)政。

不僅富人自己不能多捐，如果某個(gè)老板呼吁自己的員工給某人捐錢或投票支持他，都是犯法的。因此，想要籌到幾千萬(wàn)競(jìng)爭(zhēng)資金，唯一的辦法是爭(zhēng)取更多選民支持，一點(diǎn)點(diǎn)募集。所以,中國(guó)、公司、大筆捐款，這三條都是犯法的。

我記得以前已經(jīng)有華人鬧過(guò)這種丑聞了。美國(guó)的選舉法就是要嚴(yán)防少數(shù)人企圖用幾個(gè)臭錢影響美國(guó)的政治。所以我們作為外國(guó)人就更別去自討沒(méi)趣了。

導(dǎo)入包

In [1]:

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame

方便大家操作，將月份和參選人以及所在政黨進(jìn)行定義

In [2]:

months = {'JAN' : 1, 'FEB' : 2, 'MAR' : 3, 'APR' : 4, 'MAY' : 5, 'JUN' : 6, 'JUL' : 7, 'AUG' : 8, 'SEP' : 9, 'OCT': 10, 'NOV': 11, 'DEC' : 12}of_interest = ['Obama, Barack', 'Romney, Mitt', 'Santorum, Rick', 'Paul, Ron', 'Gingrich, Newt']parties = { 'Bachmann, Michelle': 'Republican', 'Romney, Mitt': 'Republican', 'Obama, Barack': 'Democrat', "Roemer, Charles E. 'Buddy' III": 'Reform', 'Pawlenty, Timothy': 'Republican', 'Johnson, Gary Earl': 'Libertarian', 'Paul, Ron': 'Republican', 'Santorum, Rick': 'Republican', 'Cain, Herman': 'Republican', 'Gingrich, Newt': 'Republican', 'McCotter, Thaddeus G': 'Republican', 'Huntsman, Jon': 'Republican', 'Perry, Rick': 'Republican' }

讀取文件

In [3]:

table = pd.read_csv('data/usa_election.txt')table.head()

C:\jupyter\lib\site-packages\IPython\core\interactiveshell.py:2785: DtypeWarning: Columns (6) have mixed types. Specify dtype option on import or set low_memory=False. interactivity=interactivity, compiler=compiler, result=result)

Out[3]:

cmte_id cand_id cand_nm contbr_nm contbr_city contbr_st contbr_zip contbr_employer contbr_occupation contb_receipt_amt contb_receipt_dt receipt_desc memo_cd memo_text form_tp file_num

0 C00410118 P20002978 Bachmann, Michelle HARVEY, WILLIAM MOBILE AL 3.6601e 08 RETIRED RETIRED 250.0 20-JUN-11 NaN NaN NaN SA17A 736166

1 C00410118 P20002978 Bachmann, Michelle HARVEY, WILLIAM MOBILE AL 3.6601e 08 RETIRED RETIRED 50.0 23-JUN-11 NaN NaN NaN SA17A 736166

2 C00410118 P20002978 Bachmann, Michelle SMITH, LANIER LANETT AL 3.68633e 08 INFORMATION REQUESTED INFORMATION REQUESTED 250.0 05-JUL-11 NaN NaN NaN SA17A 749073

3 C00410118 P20002978 Bachmann, Michelle BLEVINS, DARONDA PIGGOTT AR 7.24548e 08 NONE RETIRED 250.0 01-AUG-11 NaN NaN NaN SA17A 749073

4 C00410118 P20002978 Bachmann, Michelle WARDENBURG, HAROLD HOT SPRINGS NATION AR 7.19016e 08 NONE RETIRED 300.0 20-JUN-11 NaN NaN NaN SA17A 736166

In [8]:

#使用map函數(shù) 字典，新建一列各個(gè)候選人所在黨派partytable['party'] = table['cand_nm'].map(parties)table.head()

Out[8]:

cmte_id cand_id cand_nm contbr_nm contbr_city contbr_st contbr_zip contbr_employer contbr_occupation contb_receipt_amt contb_receipt_dt receipt_desc memo_cd memo_text form_tp file_num party

0 C00410118 P20002978 Bachmann, Michelle HARVEY, WILLIAM MOBILE AL 3.6601e 08 RETIRED RETIRED 250.0 20-JUN-11 NaN NaN NaN SA17A 736166 Republican

1 C00410118 P20002978 Bachmann, Michelle HARVEY, WILLIAM MOBILE AL 3.6601e 08 RETIRED RETIRED 50.0 23-JUN-11 NaN NaN NaN SA17A 736166 Republican

2 C00410118 P20002978 Bachmann, Michelle SMITH, LANIER LANETT AL 3.68633e 08 INFORMATION REQUESTED INFORMATION REQUESTED 250.0 05-JUL-11 NaN NaN NaN SA17A 749073 Republican

3 C00410118 P20002978 Bachmann, Michelle BLEVINS, DARONDA PIGGOTT AR 7.24548e 08 NONE RETIRED 250.0 01-AUG-11 NaN NaN NaN SA17A 749073 Republican

4 C00410118 P20002978 Bachmann, Michelle WARDENBURG, HAROLD HOT SPRINGS NATION AR 7.19016e 08 NONE RETIRED 300.0 20-JUN-11 NaN NaN NaN SA17A 736166 Republican

In [10]:

#party這一列中有哪些元素table['party'].unique()

Out[10]:

array(['Republican', 'Democrat', 'Reform', 'Libertarian'], dtype=object)

In [ ]:

#使用value_counts()函數(shù)，統(tǒng)計(jì)party列中各個(gè)元素出現(xiàn)次數(shù)，value_counts()是Series中的，無(wú)參，返回一個(gè)帶有每個(gè)元素出現(xiàn)次數(shù)的Series

In [11]:

table['party'].value_counts()

Out[11]:

Democrat 292400Republican 237575Reform 5364Libertarian 702Name: party, dtype: int64

In [12]:

#使用groupby()函數(shù)，查看各個(gè)黨派收到的政治獻(xiàn)金總數(shù)contb_receipt_amttable.groupby(by='party')['contb_receipt_amt'].sum()

Out[12]:

partyDemocrat 8.105758e 07Libertarian 4.132769e 05Reform 3.390338e 05Republican 1.192255e 08Name: contb_receipt_amt, dtype: float64

In [13]:

#查看具體每天各個(gè)黨派收到的政治獻(xiàn)金總數(shù)contb_receipt_amt 。使用groupby([多個(gè)分組參數(shù)])table.groupby(by=['party','contb_receipt_dt'])['contb_receipt_amt'].sum()

Out[13]:

party contb_receipt_dtDemocrat 01-AUG-11 175281.00 01-DEC-11 651532.82 01-JAN-12 58098.80 01-JUL-11 165961.00 01-JUN-11 145459.00 01-MAY-11 82644.00 01-NOV-11 122529.87 01-OCT-11 148977.00 01-SEP-11 403297.62 02-AUG-11 164510.11 02-DEC-11 216056.96 02-JAN-12 89743.60 02-JUL-11 17105.00 02-JUN-11 422453.00 02-MAY-11 396675.00 02-NOV-11 147183.81 02-OCT-11 62605.62 02-SEP-11 137948.41 03-AUG-11 147053.02 03-DEC-11 81304.02 03-JAN-12 87406.97 03-JUL-11 5982.00 03-JUN-11 320176.20 03-MAY-11 261819.11 03-NOV-11 119304.56 03-OCT-11 363061.02 03-SEP-11 45598.00 04-APR-11 640235.12 04-AUG-11 598784.23 04-DEC-11 72795.10 ... Republican 29-AUG-11 941769.23 29-DEC-11 428501.42 29-JAN-11 750.00 29-JAN-12 75220.02 29-JUL-11 233423.35 29-JUN-11 1340704.29 29-MAR-11 38875.00 29-MAY-11 8363.20 29-NOV-11 407322.64 29-OCT-11 81924.01 29-SEP-11 1612794.52 30-APR-11 43004.80 30-AUG-11 915548.58 30-DEC-11 492470.45 30-JAN-12 255204.80 30-JUL-11 12249.04 30-JUN-11 2744932.63 30-MAR-11 50240.00 30-MAY-11 17803.60 30-NOV-11 809014.83 30-OCT-11 43913.16 30-SEP-11 4886331.76 31-AUG-11 1017735.02 31-DEC-11 1094376.72 31-JAN-11 6000.00 31-JAN-12 869890.41 31-JUL-11 12781.02 31-MAR-11 62475.00 31-MAY-11 301339.80 31-OCT-11 734601.83Name: contb_receipt_amt, Length: 1183, dtype: float64

In [14]:

def trasform_date(d): day,month,year = d.split('-') month = months[month] return "20" year '-' str(month) '-' day

In [17]:

#將表中日期格式轉(zhuǎn)換為'yyyy-mm-dd'。日期格式,通過(guò)函數(shù)加map方式進(jìn)行轉(zhuǎn)換table['contb_receipt_dt'] = table['contb_receipt_dt'].apply(trasform_date)

In [18]:

table.head()

Out[18]:

cmte_id cand_id cand_nm contbr_nm contbr_city contbr_st contbr_zip contbr_employer contbr_occupation contb_receipt_amt contb_receipt_dt receipt_desc memo_cd memo_text form_tp file_num party

0 C00410118 P20002978 Bachmann, Michelle HARVEY, WILLIAM MOBILE AL 3.6601e 08 RETIRED RETIRED 250.0 2011-6-20 NaN NaN NaN SA17A 736166 Republican

1 C00410118 P20002978 Bachmann, Michelle HARVEY, WILLIAM MOBILE AL 3.6601e 08 RETIRED RETIRED 50.0 2011-6-23 NaN NaN NaN SA17A 736166 Republican

2 C00410118 P20002978 Bachmann, Michelle SMITH, LANIER LANETT AL 3.68633e 08 INFORMATION REQUESTED INFORMATION REQUESTED 250.0 2011-7-05 NaN NaN NaN SA17A 749073 Republican

3 C00410118 P20002978 Bachmann, Michelle BLEVINS, DARONDA PIGGOTT AR 7.24548e 08 NONE RETIRED 250.0 2011-8-01 NaN NaN NaN SA17A 749073 Republican

4 C00410118 P20002978 Bachmann, Michelle WARDENBURG, HAROLD HOT SPRINGS NATION AR 7.19016e 08 NONE RETIRED 300.0 2011-6-20 NaN NaN NaN SA17A 736166 Republican

In [19]:

#查看老兵(捐獻(xiàn)者職業(yè))DISABLED VETERAN主要支持誰(shuí) ：查看老兵們捐贈(zèng)給誰(shuí)的錢最多table['contbr_occupation'] == 'DISABLED VETERAN'

Out[19]:

0 False1 False2 False3 False4 False5 False6 False7 False8 False9 False10 False11 False12 False13 False14 False15 False16 False17 False18 False19 False20 False21 False22 False23 False24 False25 False26 False27 False28 False29 False ... 536011 False536012 False536013 False536014 False536015 False536016 False536017 False536018 False536019 False536020 False536021 False536022 False536023 False536024 False536025 False536026 False536027 False536028 False536029 False536030 False536031 False536032 False536033 False536034 False536035 False536036 False536037 False536038 False536039 False536040 FalseName: contbr_occupation, Length: 536041, dtype: bool

In [21]:

old_bing_df = table.loc[table['contbr_occupation'] == 'DISABLED VETERAN']

In [22]:

old_bing_df.groupby(by='cand_nm')['contb_receipt_amt'].sum()

Out[22]:

cand_nmCain, Herman 300.00Obama, Barack 4205.00Paul, Ron 2425.49Santorum, Rick 250.00Name: contb_receipt_amt, dtype: float64

In [23]:

table['contb_receipt_amt'].max()

Out[23]:

1944042.43

In [24]:

#找出候選人的捐贈(zèng)者中，捐贈(zèng)金額最大的人的職業(yè)以及捐獻(xiàn)額 .通過(guò)query("查詢條件來(lái)查找捐獻(xiàn)人職業(yè)")table.query('contb_receipt_amt == 1944042.43')

Out[24]:

cmte_id cand_id cand_nm contbr_nm contbr_city contbr_st contbr_zip contbr_employer contbr_occupation contb_receipt_amt contb_receipt_dt receipt_desc memo_cd memo_text form_tp file_num party

176127 C00431445 P80003338 Obama, Barack OBAMA VICTORY FUND 2012 - UNITEMIZED CHICAGO IL 60680 NaN NaN 1944042.43 2011-12-31 NaN X * SA18 763233 Democrat

來(lái)源：

python用字符串拼接一條語(yǔ)句，然后怎么執(zhí)行

python支持eval函數(shù)，可以把一個(gè)字符串當(dāng)作python語(yǔ)句執(zhí)行，具體你可以看看eval函數(shù)的使用方法

文章題目：lcut函數(shù)python lcut
文章地址：http://www.chinadenli.net/article48/dooiphp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供商城網(wǎng)站、ChatGPT、軟件開發(fā)、響應(yīng)式網(wǎng)站、面包屑導(dǎo)航、外貿(mào)建站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

lcut函數(shù)python lcut

Python中的常用內(nèi)置函數(shù)有哪些呢？

標(biāo)題 L-cut是什么意思?

Python其實(shí)很簡(jiǎn)單 第二十一章 DataFrame數(shù)據(jù)處理

如何用 Python 從海量文本抽取主題

python分析奧巴馬資金來(lái)源

python用字符串拼接一條語(yǔ)句，然后怎么執(zhí)行

Python其實(shí)很簡(jiǎn)單第二十一章 DataFrame數(shù)據(jù)處理