亚洲欧美中文字幕在线网站,亚洲系列中文字幕,欧美精品中文字幕亚洲专区

分享在數據分析過程中最常使用的Python函數和方法

來源：千鋒教育

發布人：xqq

時間： 2023-11-05 18:12:11

我們知道Pandas是Python中最廣泛使用的數據分析和操作庫。它提供了許多功能和方法，可以快速解決數據分析中數據處理問題。

為了更好的掌握Python函數的使用方法，我以客戶流失數據集為例，分享在數據分析過程中最常使用的函數和方法。

數據如下所示：

importnumpyasnp

importpandasaspd

df=pd.read_csv("Churn_Modelling.csv")

print(df.shape)

df.columns

結果輸出：

(10000,14)

Index(['RowNumber','CustomerId','Surname','CreditScore','Geography','Gender','Age','Tenure','Balance','NumOfProducts','HasCrCard','IsActiveMember','EstimatedSalary','Exited'],dtype='object')

1.刪除列

df.drop(['RowNumber','CustomerId','Surname','CreditScore'],axis=1,inplace=True)

print(df[:2])

print(df.shape)

結果輸出：

說明：「axis」參數設置為1以放置列，0設置為行。「inplace=True」參數設置為True以保存更改。我們減了4列，因此列數從14個減少到10列。

GeographyGenderAgeTenureBalanceNumOfProductsHasCrCard\

0FranceFemale4220.011

IsActiveMemberEstimatedSalaryExited

01101348.881

(10000,10)

2.選擇特定列

我們從csv文件中讀取部分列數據。可以使用usecols參數。

df_spec=pd.read_csv("Churn_Modelling.csv",usecols=['Gender','Age','Tenure','Balance'])

df_spec.head()

3.nrows

可以使用nrows參數，創建了一個包含csv文件前5000行的數據幀。還可以使用skiprows參數從文件末尾選擇行。Skiprows=5000表示我們將在讀取csv文件時跳過前5000行。

df_partial=pd.read_csv("Churn_Modelling.csv",nrows=5000)

print(df_partial.shape)

4.樣品

創建數據框后，我們可能需要一個小樣本來測試數據。我們可以使用n或frac參數來確定樣本大小。

df=pd.read_csv("Churn_Modelling.csv",usecols=['Gender','Age','Tenure','Balance'])

df_sample=df.sample(n=1000)

df_sample2=df.sample(frac=0.1)

5.檢查缺失值

isna函數確定數據幀中缺失的值。通過將isna與sum函數一起使用，我們可以看到每列中缺失值的數量。

df.isna().sum()

6.使用loc和iloc添加缺失值

使用loc和iloc添加缺失值，兩者區別如下：

·loc：選擇帶標簽

·iloc：選擇索引

我們首先創建20個隨機索引進行選擇：

missing_index=np.random.randint(10000,size=20)

我們將使用loc將某些值更改為np.nan(缺失值)。

df.loc[missing_index,['Balance','Geography']]=np.nan

"Balance"和"Geography"列中缺少20個值。讓我們用iloc做另一個示例。

df.iloc[missing_index,-1]=np.nan

7.填充缺失值

fillna函數用于填充缺失的值。它提供了許多選項。我們可以使用特定值、聚合函數(例如均值)或上一個或下一個值。

avg=df['Balance'].mean()

df['Balance'].fillna(value=avg,inplace=True)

fillna函數的方法參數可用于根據列中的上一個或下一個值(例如方法="ffill")填充缺失值。它可以對順序數據(例如時間序列)非常有用。

8.刪除缺失值

處理缺失值的另一個方法是刪除它們。以下代碼將刪除具有任何缺失值的行。

df.dropna(axis=0,how='any',inplace=True)

9.根據條件選擇行

在某些情況下，我們需要適合某些條件的觀測值(即行)。

france_churn=df[(df.Geography=='France')&(df.Exited==1)]

france_churn.Geography.value_counts()

10.用查詢描述條件

查詢函數提供了一種更靈活的傳遞條件的方法。我們可以用字符串來描述它們。

df2=df.query('80000

11.用isin描述條件

條件可能有多個值。在這種情況下，最好使用isin方法，而不是單獨編寫值。

df[df['Tenure'].isin([4,6,9,10])][:3]

12.Groupby函數

PandasGroupby函數是一個多功能且易于使用的功能，可幫助獲取數據概述。它使瀏覽數據集和揭示變量之間的基本關系更加容易。

我們將做幾個組比函數的示例。讓我們從簡單的開始。以下代碼將基于Geography、Gender組合對行進行分組，然后給出每個組的平均流。

df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).mean()

13.Groupby與聚合函數結合

agg函數允許在組上應用多個聚合函數，函數的列表作為參數傳遞。

df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).agg(['mean','count'])

以上內容為大家介紹了數據分析過程中最常使用的Python函數和方法，希望對大家有所幫助，如果想要了解更多Python相關知識，請關注 IT培訓機構:千鋒教育。http://www.mobiletrain.org/

聲明：本站稿件版權均屬千鋒教育所有，未經許可不得擅自轉載。

linux命令大全換頁？

Python 3.0 的修改

猜你喜歡LIKE

行業資訊 更多>>

成都嵌入式哪個培訓機構靠譜

成都如何選擇合適的嵌入式培訓機...

成都嵌入式培訓哪家機構比較好

成都學習嵌入式開發如何選擇培訓...

技術干貨

python中的filter函數功能是什么?

python delattr函數如何使用?

熱

python delattr函數如何使用?

python strftime和strptime的不同分析

熱

python strftime和strptime的不同分析

熱

python time.strptime的格式化

熱

python time.strptime的格式化

熱

技術問答 在線提問>>

張同學在線提問

linux系統如何遠程桌面連接

Linux系統上的遠程桌面連接可以通過多種方式...詳情

劉同學在線提問

unity狀態機具體怎么調出來

確保你的游戲對象上有一個Animator組件。如果...詳情

師資團隊 更多>>

陸神

原去哪兒網高級架構師

北京大學計算機系畢業

HTML5學科教研總監

千鋒威哥

OCP認證專家

15年以上開發經驗

Java學科首席技術官

宋宋

原阿里后端架構師

北京郵電大學碩士

Python學科首席技術官

盧老師

北京大學博士后

北京科技大學博士

人工智能學科總監

索爾

原阿里后端架構師

浙工大計算機系畢業

Java學科高級講師

jackfrued

曾任職華為成都研究所

計算機應用技術博士

Python學科教學主管

快速通道 更多>>

課程介紹
點擊獲取大綱
就業前景
查看就業薪資
學習費用
了解課程價格
優惠活動
領取優惠券
學習資源
領3000G教程
師資團隊
了解師資團隊
實戰項目
獲取項目源碼
開班地區
查看來校路線

網友熱搜更多>>

IT行業年齡有限制嗎女生學IT Java薪資待遇零基礎Web培訓 Python就業如何學UI設計大數據學習路線 java培訓學費軟件測試培訓轉行學Linux 網絡安全基礎知識網絡營銷培訓 unity培訓 30歲還能學it嗎大數據技術學什么 python培訓費

分享在數據分析過程中最常使用的Python函數和方法

10年以上業內強師集結，手把手帶你蛻變精英

請您保持通訊暢通，專屬學習老師24小時內將與您1V1溝通

今日已有369人領取成功

猜你喜歡LIKE

python delattr函數如何使用?

python time.strptime的格式化

pythonGIL在Python多線程的應用

最新文章NEW

python中pdb模塊怎么用?

Python如何截圖保存?

python?中缺少module怎么辦?

相關推薦HOT

python中的filter函數功能是什么?

pythontime模塊是什么

python是什么編程語言

python異常處理的兩種技巧

熱門推薦

行業資訊 更多>>

成都嵌入式哪個培訓機構靠譜

成都如何選擇合適的嵌入式培訓機...

成都嵌入式培訓哪家機構比較好

成都學習嵌入式開發如何選擇培訓...

技術干貨

技術問答 在線提問>>

張同學在線提問

linux系統如何遠程桌面連接

劉同學在線提問

unity狀態機具體怎么調出來

師資團隊更多>>

陸神

千鋒威哥

宋宋

盧老師

索爾

jackfrued

快速通道 更多>>

課程介紹

就業前景

學習費用

優惠活動

學習資源

師資團隊

實戰項目

開班地區

最新開班信息 更多>>

網友熱搜 更多>>

關于千鋒

新聞資訊

熱點話題

千鋒學習站 | 隨時隨地免費學

掃一掃進入千鋒手機站

行業資訊更多>>

技術問答在線提問>>

快速通道更多>>

最新開班信息更多>>

網友熱搜更多>>