20個(gè)Pandas代碼 | 助力數(shù)據(jù)從業(yè)人員新征程！

風(fēng)聲之家 2019-05-26

展開全文

摘要

Pandas 是基于NumPy 的一種工具，該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。不少利用Python做數(shù)據(jù)分析的朋友應(yīng)該對Pandas不陌生，這里總結(jié)了20個(gè)常用的Pandas代碼幫助我們更快速的理解數(shù)據(jù)。

本文將這20個(gè)Pandas代碼分成三類：

基本數(shù)據(jù)信息
基本數(shù)據(jù)處理
操作Data frames

基本數(shù)據(jù)信息

1、基本讀寫數(shù)據(jù)集（CSV、Execl）

# csv# 讀pd.DataFrame.from_csv(“csv_file”) pd.read_csv(“csv_file”)
# 寫df.to_csv("data.csv", sep=",", index=False) # 逗號分隔，沒有下標(biāo)
# execlpd.read_excel("excel_file")df.to_execl("data.xlsx",sheet_name='a')

2、基本數(shù)據(jù)集特征

df.info()

3、基本數(shù)據(jù)統(tǒng)計(jì)

df.describe()

4、將data frames輸出到一張表里（tabulate模塊）

from tabulate import tabulateprint(tabulate(print_table, headers=headers))
# print_table 為包含列表的列表# headers     為表頭所包含的字段

5、列出所有的字段

df.columns

6、得到前后n行

df.head(n) #前n行
df.tail(n) #后n行

7、通過特征、位置定位數(shù)據(jù)

df.loc[feature_name]
#選擇“size”列的第一行df.loc([0], ['size'])
df.iloc[n]  # 位置

基本數(shù)據(jù)處理

8、去除缺失值

df.dropna(axis=0, how='any')

9、替換缺失值

df.replace(to_replace=None, value=None)# 將“to_replace”中的值替換為“value”

10、檢查缺失值

pd.isnull(object)# 檢測缺失值(數(shù)值數(shù)組中的NaN，對象數(shù)組中的None/NaN)

11、刪除一個(gè)字段

df.drop('feature_variable_name', axis=1)# 軸對于行是0，對于列是1

12、將對象類型轉(zhuǎn)換為數(shù)值

pd.to_numeric(df["feature_name"], errors='coerce')# 將對象類型轉(zhuǎn)換為numeric以便能夠執(zhí)行計(jì)算(如果它們是字符串)

13、將Dataframe轉(zhuǎn)換為numpy數(shù)組

df.as_matrix()

操作Data frames

14、將函數(shù)應(yīng)用于dataframe

# 這個(gè)將把數(shù)據(jù)的“height”列中的所有值乘以21、df["height"].apply(lambda height: 2 * height)
2、def multiply(x):    return x * 2df["height"].apply(multiply)

15、從命名一列

# 這里，將把數(shù)據(jù)的第三列重命名為“size”df.rename(columns = {df.columns[2]:'size'}, inplace=True)

16、獲取某列的唯一項(xiàng)

# 這里將得到列“name”的唯一條目df["name"].unique()

17、多級訪問

# 在這里，將從數(shù)據(jù)中獲取列的選擇，“name”和“size”new_df = df[["name", "size"]]

18、數(shù)據(jù)的一些統(tǒng)計(jì)量df.sum()

df.min()df.max()df.idxmin()df.idxmax() #返回最大值索引df.mean()df.median()df.corr()  # 不同列之間的相關(guān)系數(shù)df["size"].median

19、數(shù)據(jù)排序

df.sort_values(ascending = False)

20、布爾索引

df[df["size"] == 5] #布爾型索引

部分參考

https:///23-great-pandas-codes-for-data-scientists-cca5ed9d8a38

原文地址

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：風(fēng)聲之家 > 《python》

舉報(bào)/認(rèn)領(lǐng)