翻譯|使用教程|編輯:鮑佳佳|2021-03-04 10:40:31.320|閱讀 134 次
概述:當您開始使用Python進行數據分析和數據科學時,Pandas是您將學習的第一個庫之一。其可幫助您處理數據集,轉換和清理數據以及獲取統計信息。在本教程中,我們將回答人們在使用熊貓時遇到的10個最常見的問題。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
PyCharm是一種Python IDE,其帶有一整套可以幫助用戶在使用Python語言開發時提高其效率的工具。此外,該IDE提供了一些高級功能,以用于Django框架下的專業Web開發。PyCharm現已加入在線訂購,點擊此處了解價格詳情。
Pandas教程:Python數據框架的10個常見問題
當您開始使用Python進行數據分析和數據科學時,Pandas是您將學習的第一個庫之一。其可幫助您處理數據集,轉換和清理數據以及獲取統計信息。
在本教程中,我們將回答人們在使用熊貓時遇到的10個最常見的問題。
數據集
在本教程的第一部分中,我們將使用包含城市人口樣本數據以及有關土地面積和人口密度的一些信息的數據集。
Pandas Loc和iloc
pandas.loc[] 有助于通過標簽或布爾數組切片訪問一組行和列。
讓我們選擇墨西哥城的人口。
下面我們僅打印墨西哥城的人口。
使用,.iloc[]您可以使用數字整數索引選擇列。
請記住以下幾點:
重命名列
接下來,我們將重命名這些列,以使它們將來更易于訪問。
有幾種方法可以做到這一點:
在pandas DataFrame中選擇多個列
讓我們將DataFrame分為兩個包含以下內容的DataFrame:
我們可以通過幾種方式做到這一點:
熊貓按列合并兩個表
接下來,我們將垂直連接我們創建的兩個表。這些表具有相同的City列,因此我們將使用該pd.merge函數來連接兩個表。
該left_on和right_on參數指示列名在第一和第二個表合并上。
使用pandas更改pandas中的列類型
與數據幀的工作進一步,我們需要轉變Population,Area以及Density從字符串列轉換為數字。
為此,我們將:
分組并變成一個DataFrame
現在,讓我們對DataFrame進行分組,Country并計算此數據樣本中每個國家/地區的人口。
困難之pd.groupby處在于它返回一個groupby對象,而不是DataFrame。在下面的示例中,我們將展示如何從groupby對象創建DataFrame。
我們將對進行分組Country,同時計算Population和Area列的總和。我們將刪除密度列,因為我們不再需要它。
如何在Pandas中的DataFrame中的行上進行迭代
盡管遍歷行可能不是最快的解決方案,但有時仍然可以派上用場。您可以使用循環.iterrows()功能來做到這一點。
考慮嘗試對applyPandas DataFrame的函數或向量化表示執行相同的操作。在大型數據集上,這將提高計算速度。
在下面,我們將Population列除以1000,并以千為單位獲得人口數。下面有3個替代代碼示例。
如何根據列值從DataFrame中選擇行
讓我們選擇人口超過1000萬人,面積不到2000平方公里的國家。
您可以通過在中輸入邏輯約束來做到這一點[]。
如何更改DataFrame列的順序
您可以簡單地通過以不同順序切片現有的DataFrame來做到這一點。
用Pandas清理數據
要開始使用數據,您需要清理數據。
首先的基本步驟是:
讓我們下載帶有網球比賽結果的數據集。
我們將降大任于重復使用pd.drop_duplicates,以inplace = True將更改應用到數據幀。
現在,讓我們找出DataFrame中是否存在NaN值。
df.isna().any() 當該列包含NaN值時為True。
在此minutes列中,我們具有91%的NaN值,因此將其刪除,因為它不包含任何有用的信息。
在winner_age,loser_age,loser_rank,和winner_rank列沒有太多的NaN值,所以我們會用中位數代替NaN值。
有了df.describe我們,我們可以獲得有關數字列數據的統計信息。
這就是我們的Pandas教程。你學會了嗎?立即下載體驗吧!您有任何疑問或意見歡迎評論!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自: