Python Pandas DataFrame describe方法用法及代碼示例

Pandas DataFrame.describe(~) 方法返回 DataFrame ，其中包含源 DataFrame 列的一些說明性統計信息(例如 mean 和 min )。這最常用於對給定數據集進行數字總結。

參數

1.percentiles | numbers 的array-like | optional

作為說明性統計的一部分包含的百分位數。默認情況下，percentiles=[0.25, 0.50, 0.75] 。

2. include | "all" 或 array-like 或 dtypes 或 None | optional

源 DataFrame 中要考慮的列：

值	說明
`"all"`	源 DataFrame 的所有列都將包含在內。
`list-like` 共 `dtypes`	僅包含列表中指定的數據類型的列。
`None`	僅考慮數字類型的列。

默認情況下，include=None 。

3. exclude | list-like 或 dtypes 或 None | optional

與 include 類似，但 exclude 指定要忽略的列數據類型。默認情況下，exclude=None 。

返回值

DataFrame 保存源 DataFrame 中列值的說明性統計信息。

例子

基本用法

考慮以下 DataFrame ：

df = pd.DataFrame({"name":["alex","bob","cathy"],"age":[20,30,40],"grade":[60,60,70]})
df



   name   age  grade
0  alex   20    60
1  bob    30    60
2  cathy  40    70

我們可以使用describe(~)方法獲得一些說明性統計數據：

df.describe()



       age   grade
count  3.0   3.000000
mean   30.0  63.333333
std    10.0  5.773503
min    20.0  60.000000
25%    25.0  60.000000
50%    30.0  60.000000
75%    35.0  65.000000
max    40.0  70.000000

這裏，50%的百分位代表中位數.

指定百分位數

我們可以通過傳入 percentiles 來指定要包含的百分位數，而不是第 25 個和第 75 個百分位數：

df.describe(percentiles=[0.3, 0.6, 0.9])



       age   grade
count  3.0   3.000000
mean   30.0  63.333333
std    10.0  5.773503
min    20.0  60.000000
30%    26.0  60.000000
50%    30.0  60.000000
60%    32.0  62.000000
90%    38.0  68.000000
max    40.0  70.000000

請注意 50% 百分位數仍然存在 - 這是因為它代表中位數。

指定包括

考慮以下 DataFrame ：

names = pd.Series(["alex","bob","cathy"], dtype="string")
gender = pd.Series(["male","male","female"], dtype="category")
age = pd.Series([20,30,20], dtype="int")
df = pd.DataFrame({"names":names,"gender":gender,"age":age})
df



   names  gender  age
0  alex   male    20
1  bob    male    30
2  cathy  female  20

僅計算類型為 category 和 int 的列的說明性統計信息：

df.describe(include=["category",int])



       gender     age
count    3     3.000000
unique   2        NaN
top     male      NaN
freq    2         NaN
mean    NaN    23.333333
std     NaN    5.773503
min     NaN    20.000000
25%     NaN    20.000000
50%     NaN    20.000000
75%     NaN    25.000000
max     NaN    30.000000

相關用法

注：本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 Pandas DataFrame | describe method。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。