| Series和DataFrame對象都支持NumPy的數組接口,因此可以直接使用NumPy提供的ufunc函數對它們進行運算。此外它們還提供各種運算方法,例如max()、min()、mean()、std()等。這些函數都有如下三個常用參數: ·axis:指定運算對應的軸。 ·level:指定運算對應的索引級別。 ·skipna:運算是否自動跳過NaN。  下面分別計算每列的平均值、每行的平均值以及行索引的第1級別Contour中每個等高線對應的平均值:  除了支持加減乘除等運算符之外,Pandas還提供了add()、sub()、mul()、div()、mod()等與二元運算符對應的函數。這些函數可以通過axis、level和fill_value等參數控制其運算行為。在下面的例子中,對不同的等高線的Ca的值乘上不同的系數,fill_value參數為1表示對于不存在的值或NaN使用默認值1。因此結果中,所有Depression對應的值為原來的0.9倍,Slope對應的值為原來的1.2倍,而Top對應的值保持不變。 s = pd.Series(dict(Depression=0.9, Slope=1.2))df_soil.Ca.mul(s, level=1, fill_value=1)Depth  Contour   0-10   Depression    9.6Slope          15Top            1310-30  Depression    6.8Slope          11Top            10dtype: float64Pandas還提供了rolling_*()函數來對序列中相鄰的N個元素進行移動窗口運算。例如可以使用rolling_median()實現中值濾波,使用rolling_mean()計算移動平均。圖1顯示了使用這兩個函數對帶脈沖噪聲的正弦波進行處理的結果。它們的第二個參數為窗口包含的元素個數,而center參數為True表示移動窗口以當前元素為中心。  圖1 中值濾波和移動平均 由于rolling_median()采用了更高效的算法,因此當窗口很大時它的運算速度比SciPy章節(jié)中介紹過的signal.order_filter()更快。 expanding_*()函數對序列進行擴展窗口運算,例如expanding_max()返回到每個元素為止的歷史最大值。圖2顯示了expanding_max()、expanding_mean()和expanding_min()的運算結果。 請讀者思考如何使用NumPy提供的ufunc函數計算圖2中的三條曲線。? np.random.seed(42)x = np.cumsum(np.random.randn(400))x_max = pd.expanding_max(x)x_min = pd.expanding_min(x)x_mean = pd.expanding_mean(x) 圖2 用expanding_*計算歷史最大值、平均值、最小值 字符串處理 Series對象提供了大量的字符串處理方法,由于數量眾多,因此Pandas使用了一個類似名稱空間的對象str來包裝這些字符串相關的方法。例如下面的程序調用str.upper()將序列中的所有字母都轉換為大寫: Python中包含兩種字符串:字節(jié)字符串和Unicode字符串。通過str.decode()可以將字節(jié)字符串按照指定的編碼解碼為Unicode字符串。例如在UTF-8編碼中,一個漢字占用三個字符,因此下面的s_utf8中的字符串長度分別為6、9、12。當調用str.decode()將其轉換為Unicode字符串的序列之后,其各個元素的長度為實際的文字個數。str.encode()可以把Unicode字符串按照指定的編碼轉換為字節(jié)字符串,在常用的漢字編碼GB2312中,一個漢字占用兩個字節(jié),因此s_gb2312的元素長度分別為4、6、8。  無論Series對象包含哪種字符串對象,其dtype屬性都是object,因此無法根據它判斷字符串類型。在處理文本數據時,需要格外注意字符串的類型。 可以對str使用整數或切片下標,相當于對Series對象中的每個元素進行下標運算,例如:? print s_unicode.str[:2]0    北京1    北京2    北京dtype: object字符串序列與字符串一樣,支持加法和乘法運算,例如: 也可以使用str.cat()連接兩個字符串序列的對應元素: print s_unicode.str.cat(s_abc, sep='-')0      北京-a1     北京市-b2    北京地區(qū)-cdtype: object調用astype()方法可以對Series對象中的所有元素進行類型轉換,例如下面將整數序列轉換為字符串序列: str中的有些方法可以對元素類型為列表的Series對象進行處理,例如下面調用str.split()將s中的每個字符串使用字符'|'分隔,所得到的結果s_list的元素類型為列表。然后調用它的str.join()方法以逗號連接每個列表中的元素:  對字符串序列進行處理時,經常會得到元素類型為列表的序列。Pandas沒有提供處理這種序列的方法,不過可以通過str[]獲取其中的元素:? s_list.str[1]0     bc1    xyzdtype: object或者先將其轉換為嵌套列表,然后再轉換為DataFrame對象: Pandas還提供了一些正則表達式相關的方法。例如使用其中的str.extract()可以從字符串序列中抽取出需要的部分,得到DataFrame對象。下面的例子中,df_extract1對應的正則表達式包含三個未命名的組,因此其結果包含三個自動命名的列。而df_extract2對應的正則表達式包含兩個命名組,因此其列名為組名。? df_extract1 = s.str.extract(r'(\w+)\|(\w+)\|(\w+)')df_extract2 = s.str.extract(r'(?P<A>\w+)\|(?P<B>\w+)|')df_extract1   df_extract2-------------  -----------0    1   2     A    B  0  a   bc  de  0  a   bc  1  x  xyz  yz  1  x  xyz  在處理數據時,經常會遇到這種以特定分隔符分隔關鍵字的數據,例如下面的數據可以用于表示有向圖,其第一列為邊的起點、第二列為以'|'分隔的多個終點。下面使用read_csv()讀入該數據,得到一個兩列的DataFrame對象: 可以使用下面的程序將上述數據轉換為每行對應一條邊的數據。?nodes是一個元素類型為列表的Series對象。?調用NumPy數組的repeat()方法將第一列數據重復相應的次數。由于repeat()只能接受32位整數,而str.len()返回的是64位整數,因此還需要進行類型轉換。?將嵌套列表平坦化,轉換為一維數組。   還可以把原始數據的第二列看作第一列數據的標簽,為了后續(xù)的數據分析,通常使用str.get_dummies()將這種數據轉換為布爾DataFrame對象,每一列與一個標簽對應,元素值為1表示對應的行包含對應的標簽:  當字符串操作很難用向量化的字符串方法表示時,可以使用map()函數,將針對每個元素運算的函數運用到整個序列之上:? df[1].map(lambda s:max(s.split('|')))0    D1    F2    A3    CName: 1, dtype: object當用字符串序列表示分類信息時,其中會有大量相同的字符串,將其轉換為分類(Category)序列可以節(jié)省內存、提高運算效率。例如在下面的df_soil對象中,Contour、Depth和Gp列都是表示分類的數據,因此有許多重復的字符串。 下面循環(huán)調用astype('category')將這三列轉換為分類列: for col in ['Contour', 'Depth', 'Gp']:df_soil[col] = df_soil[col].astype('category')print df_soil.dtypesContour    categoryDepth      categoryGp         categorypH          float64dtype: object與名稱空間對象str類似,元素類型為category的Series對象提供了名稱空間對象cat,其中保存了與分類序列相關的各種屬性和方法。例如cat.categories是保存所有分類的Index對象: 而cat.codes則是保存下標的整數序列,元素類型為int8,因此一個元素用一個字節(jié)表示。  分類數據有無序和有序兩種,無序分類中的不同分類無法比較大小,例如性別;有序分類則可以比較大小,例如年齡段。上面創(chuàng)建的三個分類列為無序分類,可以通過cat.as_ordered()和cat.as_unordered()在這兩種分類之間相互轉換。下面的程序通過cat.as_ordred()將深度分類列轉換為有序分類,注意最后一行分類名之間使用“<”連接,表示是有序分類。 depth = df_soil.Depthdepth.cat.as_ordered().head()             ------------------------------------------------------0     0-10                           1     0-10                                            2     0-10                                            3     0-10                                            4    10-30                                            dtype: category   Categories (4, object): [0-10 < 10-30 < 30-60 < 60-90]如果需要自定義分類中的順序,可以使用cat.reorder_categories()指定分類的順序:?  | 
|  |