小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

 CCI16 2017-03-25

在日常工作中,數(shù)據(jù)處理類的任務(wù)主要包括以下幾類:

與外界進(jìn)行交互:讀寫各種數(shù)據(jù)文件及數(shù)據(jù)庫。

準(zhǔn)備工作:對數(shù)據(jù)進(jìn)行清理、修整、整合、規(guī)范化、重塑、切片切塊、變形等處理以便于進(jìn)行分析。

轉(zhuǎn)換:對數(shù)據(jù)集進(jìn)行數(shù)學(xué)統(tǒng)計(jì)運(yùn)算產(chǎn)生新的數(shù)據(jù)集。(比如根據(jù)分組變量對一個(gè)大表進(jìn)行聚合)

建模和計(jì)算:將數(shù)據(jù)與統(tǒng)計(jì)模型、機(jī)器學(xué)習(xí)算法或其他計(jì)算工具聯(lián)系起來。

展示:創(chuàng)建交互式或靜態(tài)的圖片或文字摘要。

利用pandas對http://1.數(shù)據(jù)時(shí)區(qū)進(jìn)行計(jì)數(shù):

DataFrame是pandas中最重要的數(shù)據(jù)結(jié)構(gòu),用于將數(shù)據(jù)表示為一個(gè)表格:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

frame['tz']返回的Series對象有一個(gè)value_counts()方法,該方法統(tǒng)計(jì)Series中詞條出現(xiàn)的頻率,并按頻率降序排列:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

記錄中缺失值可以用fillna函數(shù)替換,未知值可以用布爾型數(shù)組索引替換:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

然后可以利用繪圖庫(matplotlib)的plot方法為這十條數(shù)據(jù)生成一張水平條形圖。(注意ipython一定要以pylab模式打開,否則以下代碼無效)

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

條形圖如下,統(tǒng)計(jì).http://數(shù)據(jù)中最常出現(xiàn)的時(shí)區(qū):

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

還可以對這種類型的數(shù)據(jù)進(jìn)行許多處理,以a字段為例,我們可以將a字段的第一節(jié)分離出來,得到一份用戶行為摘要:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

現(xiàn)在可以按照Windows和非Windows用戶對時(shí)區(qū)統(tǒng)計(jì)信息進(jìn)行分解:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

接下來就可以按照時(shí)區(qū)和操作系統(tǒng)對數(shù)據(jù)進(jìn)行分組,計(jì)數(shù),重塑:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

下面選取最常出現(xiàn)的時(shí)區(qū):

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

然后我們使用stacked=True生成一張堆積條形圖:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

為了看清較小分組中Windows用戶的比例,可以將各行規(guī)范化為“總計(jì)為1”,重新繪圖:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

MovieLens 1M數(shù)據(jù)集

該數(shù)據(jù)集是一組電影評(píng)分?jǐn)?shù)據(jù),分為三個(gè)表:評(píng)分、用戶信息和電影信息,可以通過pandas.read_table將每個(gè)表讀到一個(gè)DataFrame對象中:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

利用merge函數(shù)將所有數(shù)據(jù)合并到一個(gè)表中,并根據(jù)性別計(jì)算電影的平均得分:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

過濾掉評(píng)分?jǐn)?shù)據(jù)不足250條的電影,并了解女性觀眾最喜歡的電影(對F列降序):

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

找出男性和女性觀眾分歧最大的電影:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

找出分歧最大的電影(不考慮性別),可以計(jì)算得分的方差或標(biāo)準(zhǔn)差:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

1880-2010全美嬰兒姓名

該數(shù)據(jù)集按年度分割成了多個(gè)文件,利用pandas.concat將所有數(shù)據(jù)組裝到一個(gè)DataFrame里,并加上一個(gè)year字段:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

將names數(shù)據(jù)在sex和year級(jí)別上進(jìn)行聚合:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

插入一個(gè)prop列,用于存放指定名字的嬰兒數(shù)相對于總出生數(shù)的比例:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

驗(yàn)證所有分組的prop總和是否為1:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

為了便于進(jìn)一步分析,取出該數(shù)據(jù)的一個(gè)子集:每對sex/year組合的前1000個(gè)名字:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

接下來的數(shù)據(jù)分析工作就針對這個(gè)top1000數(shù)據(jù)集了。

幾個(gè)男孩和女孩名字隨時(shí)間變化的使用數(shù)量:

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

初探:使用Python進(jìn)行數(shù)據(jù)分析,內(nèi)容優(yōu)質(zhì)

接下來還可以分析命名趨勢,命名多樣性的變化等,這里由于對pandas方法還不是很熟悉,就不一一試驗(yàn)了。

大多是《利用python進(jìn)行數(shù)據(jù)分析》的筆記

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請遵守用戶 評(píng)論公約

    類似文章 更多