Python 數據分析——Pandas 數值運算函數

禁忌石 2023-08-06 發(fā)布于浙江

展開全文

Series和DataFrame對象都支持NumPy的數組接口，因此可以直接使用NumPy提供的ufunc函數對它們進行運算。此外它們還提供各種運算方法，例如max()、min()、mean()、std()等。這些函數都有如下三個常用參數：

·axis：指定運算對應的軸。

·level：指定運算對應的索引級別。

·skipna：運算是否自動跳過NaN。

下面分別計算每列的平均值、每行的平均值以及行索引的第1級別Contour中每個等高線對應的平均值：

除了支持加減乘除等運算符之外，Pandas還提供了add()、sub()、mul()、div()、mod()等與二元運算符對應的函數。這些函數可以通過axis、level和fill_value等參數控制其運算行為。在下面的例子中，對不同的等高線的Ca的值乘上不同的系數，fill_value參數為1表示對于不存在的值或NaN使用默認值1。因此結果中，所有Depression對應的值為原來的0.9倍，Slope對應的值為原來的1.2倍，而Top對應的值保持不變。

s = pd.Series(dict(Depression=0.9, Slope=1.2))df_soil.Ca.mul(s, level=1, fill_value=1)Depth  Contour   0-10   Depression    9.6Slope          15Top            1310-30  Depression    6.8Slope          11Top            10dtype: float64

Pandas還提供了rolling_*()函數來對序列中相鄰的N個元素進行移動窗口運算。例如可以使用rolling_median()實現中值濾波，使用rolling_mean()計算移動平均。圖1顯示了使用這兩個函數對帶脈沖噪聲的正弦波進行處理的結果。它們的第二個參數為窗口包含的元素個數，而center參數為True表示移動窗口以當前元素為中心。

圖1　中值濾波和移動平均

由于rolling_median()采用了更高效的算法，因此當窗口很大時它的運算速度比SciPy章節(jié)中介紹過的signal.order_filter()更快。

t = np.linspace(0, 10, 400)x = np.sin(0.5*2*np.pi*t)x[np.random.randint(0, len(t), 40)] += np.random.normal(0, 0.3, 40)s = pd.Series(x, index=t)s_mean = pd.rolling_mean(s, 5, center=True)s_median = pd.rolling_median(s, 5, center=True)

expanding_*()函數對序列進行擴展窗口運算，例如expanding_max()返回到每個元素為止的歷史最大值。圖2顯示了expanding_max()、expanding_mean()和expanding_min()的運算結果。

請讀者思考如何使用NumPy提供的ufunc函數計算圖2中的三條曲線。?

np.random.seed(42)x = np.cumsum(np.random.randn(400))x_max = pd.expanding_max(x)x_min = pd.expanding_min(x)x_mean = pd.expanding_mean(x)

圖2　用expanding_*計算歷史最大值、平均值、最小值

字符串處理

Series對象提供了大量的字符串處理方法，由于數量眾多，因此Pandas使用了一個類似名稱空間的對象str來包裝這些字符串相關的方法。例如下面的程序調用str.upper()將序列中的所有字母都轉換為大寫：

s_abc = pd.Series(['a', 'b', 'c'])print s_abc.str.upper()0    A1    B2    Cdtype: object

Python中包含兩種字符串：字節(jié)字符串和Unicode字符串。通過str.decode()可以將字節(jié)字符串按照指定的編碼解碼為Unicode字符串。例如在UTF-8編碼中，一個漢字占用三個字符，因此下面的s_utf8中的字符串長度分別為6、9、12。當調用str.decode()將其轉換為Unicode字符串的序列之后，其各個元素的長度為實際的文字個數。str.encode()可以把Unicode字符串按照指定的編碼轉換為字節(jié)字符串，在常用的漢字編碼GB2312中，一個漢字占用兩個字節(jié)，因此s_gb2312的元素長度分別為4、6、8。

無論Series對象包含哪種字符串對象，其dtype屬性都是object，因此無法根據它判斷字符串類型。在處理文本數據時，需要格外注意字符串的類型。

可以對str使用整數或切片下標，相當于對Series對象中的每個元素進行下標運算，例如：?

print s_unicode.str[:2]0 北京1 北京2 北京dtype: object

字符串序列與字符串一樣，支持加法和乘法運算，例如：

print s_unicode + u'-' + s_abc * 20    北京-aa1     北京市-bb2  北京地區(qū)-ccdtype: object

也可以使用str.cat()連接兩個字符串序列的對應元素：

print s_unicode.str.cat(s_abc, sep='-')0 北京-a1 北京市-b2 北京地區(qū)-cdtype: object

調用astype()方法可以對Series對象中的所有元素進行類型轉換，例如下面將整數序列轉換為字符串序列：

print s_unicode.str.len().astype(unicode)0    21    32    4dtype: object

str中的有些方法可以對元素類型為列表的Series對象進行處理，例如下面調用str.split()將s中的每個字符串使用字符'|'分隔，所得到的結果s_list的元素類型為列表。然后調用它的str.join()方法以逗號連接每個列表中的元素：

對字符串序列進行處理時，經常會得到元素類型為列表的序列。Pandas沒有提供處理這種序列的方法，不過可以通過str[]獲取其中的元素：?

s_list.str[1]0 bc1 xyzdtype: object

或者先將其轉換為嵌套列表，然后再轉換為DataFrame對象：

print pd.DataFrame(s_list.tolist(), columns=['A', 'B', 'C'])A    B   C0  a   bc  de1  x  xyz  yz

Pandas還提供了一些正則表達式相關的方法。例如使用其中的str.extract()可以從字符串序列中抽取出需要的部分，得到DataFrame對象。下面的例子中，df_extract1對應的正則表達式包含三個未命名的組，因此其結果包含三個自動命名的列。而df_extract2對應的正則表達式包含兩個命名組，因此其列名為組名。?

df_extract1 = s.str.extract(r'(\w+)\|(\w+)\|(\w+)')df_extract2 = s.str.extract(r'(?P＜A＞\w+)\|(?P＜B＞\w+)|')df_extract1   df_extract2-------------  -----------0    1   2     A    B  0  a   bc  de  0  a   bc  1  x  xyz  yz  1  x  xyz

在處理數據時，經常會遇到這種以特定分隔符分隔關鍵字的數據，例如下面的數據可以用于表示有向圖，其第一列為邊的起點、第二列為以'|'分隔的多個終點。下面使用read_csv()讀入該數據，得到一個兩列的DataFrame對象：

import iotext = '''A, B|C|DB, E|FC, AD, B|C'''df = pd.read_csv(io.BytesIO(text), skipinitialspace=True, header=None)print df0      10  A  B|C|D1  B    E|F2  C      A

可以使用下面的程序將上述數據轉換為每行對應一條邊的數據。?nodes是一個元素類型為列表的Series對象。?調用NumPy數組的repeat()方法將第一列數據重復相應的次數。由于repeat()只能接受32位整數，而str.len()返回的是64位整數，因此還需要進行類型轉換。?將嵌套列表平坦化，轉換為一維數組。

還可以把原始數據的第二列看作第一列數據的標簽，為了后續(xù)的數據分析，通常使用str.get_dummies()將這種數據轉換為布爾DataFrame對象，每一列與一個標簽對應，元素值為1表示對應的行包含對應的標簽：

當字符串操作很難用向量化的字符串方法表示時，可以使用map()函數，將針對每個元素運算的函數運用到整個序列之上：?

df[1].map(lambda s:max(s.split('|')))0 D1 F2 A3 CName: 1, dtype: object

當用字符串序列表示分類信息時，其中會有大量相同的字符串，將其轉換為分類(Category)序列可以節(jié)省內存、提高運算效率。例如在下面的df_soil對象中，Contour、Depth和Gp列都是表示分類的數據，因此有許多重復的字符串。

df_soil = pd.read_csv('Soils.csv', usecols=[2, 3, 4, 6])print df_soil.dtypesContour     objectDepth       objectGp          objectpH         float64dtype: object

下面循環(huán)調用astype('category')將這三列轉換為分類列：

for col in ['Contour', 'Depth', 'Gp']:df_soil[col] = df_soil[col].astype('category')print df_soil.dtypesContour    categoryDepth      categoryGp         categorypH          float64dtype: object

與名稱空間對象str類似，元素類型為category的Series對象提供了名稱空間對象cat，其中保存了與分類序列相關的各種屬性和方法。例如cat.categories是保存所有分類的Index對象：

Gp = df_soil.Gpprint Gp.cat.categoriesIndex([u'D0', u'D1', u'D3', u'D6', u'S0', u'S1', u'S3', u'S6', u'T0', u'T1',u'T3', u'T6'],dtype='object')

而cat.codes則是保存下標的整數序列，元素類型為int8，因此一個元素用一個字節(jié)表示。

分類數據有無序和有序兩種，無序分類中的不同分類無法比較大小，例如性別；有序分類則可以比較大小，例如年齡段。上面創(chuàng)建的三個分類列為無序分類，可以通過cat.as_ordered()和cat.as_unordered()在這兩種分類之間相互轉換。下面的程序通過cat.as_ordred()將深度分類列轉換為有序分類，注意最后一行分類名之間使用“＜”連接，表示是有序分類。

depth = df_soil.Depthdepth.cat.as_ordered().head()             ------------------------------------------------------0     0-10                           1     0-10                                            2     0-10                                            3     0-10                                            4    10-30                                            dtype: category   Categories (4, object): [0-10 ＜ 10-30 ＜ 30-60 ＜ 60-90]

如果需要自定義分類中的順序，可以使用cat.reorder_categories()指定分類的順序：?

contour = df_soil.Contourcategories = ['Top', 'Slope', 'Depression']contour.cat.reorder_categories(categories, ordered=True).head()---------------------------------------------------------------0    Top                                                       1    Top                                                       2    Top                                                       3    Top                                                       4    Top                                                       dtype: category                                                Categories (3, object): [Top ＜ Slope ＜ Depression]