當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python Pandas DataFrame describe方法用法及代碼示例

Pandas DataFrame.describe(~) 方法返回 DataFrame ,其中包含源 DataFrame 列的一些說明性統計信息(例如 meanmin )。這最常用於對給定數據集進行數字總結。

參數

1.percentiles | numbersarray-like | optional

作為說明性統計的一部分包含的百分位數。默認情況下,percentiles=[0.25, 0.50, 0.75]

2. include | "all"array-likedtypesNone | optional

源 DataFrame 中要考慮的列:

說明

"all"

源 DataFrame 的所有列都將包含在內。

list-likedtypes

僅包含列表中指定的數據類型的列。

None

僅考慮數字類型的列。

默認情況下,include=None

3. exclude | list-likedtypesNone | optional

include 類似,但 exclude 指定要忽略的列數據類型。默認情況下,exclude=None

返回值

DataFrame 保存源 DataFrame 中列值的說明性統計信息。

例子

基本用法

考慮以下 DataFrame :

df = pd.DataFrame({"name":["alex","bob","cathy"],"age":[20,30,40],"grade":[60,60,70]})
df



   name   age  grade
0  alex   20    60
1  bob    30    60
2  cathy  40    70

我們可以使用describe(~)方法獲得一些說明性統計數據:

df.describe()



       age   grade
count  3.0   3.000000
mean   30.0  63.333333
std    10.0  5.773503
min    20.0  60.000000
25%    25.0  60.000000
50%    30.0  60.000000
75%    35.0  65.000000
max    40.0  70.000000

這裏,50%的百分位代表中位數.

指定百分位數

我們可以通過傳入 percentiles 來指定要包含的百分位數,而不是第 25 個和第 75 個百分位數:

df.describe(percentiles=[0.3, 0.6, 0.9])



       age   grade
count  3.0   3.000000
mean   30.0  63.333333
std    10.0  5.773503
min    20.0  60.000000
30%    26.0  60.000000
50%    30.0  60.000000
60%    32.0  62.000000
90%    38.0  68.000000
max    40.0  70.000000

請注意 50% 百分位數仍然存在 - 這是因為它代表中位數。

指定包括

考慮以下 DataFrame :

names = pd.Series(["alex","bob","cathy"], dtype="string")
gender = pd.Series(["male","male","female"], dtype="category")
age = pd.Series([20,30,20], dtype="int")
df = pd.DataFrame({"names":names,"gender":gender,"age":age})
df



   names  gender  age
0  alex   male    20
1  bob    male    30
2  cathy  female  20

僅計算類型為 categoryint 的列的說明性統計信息:

df.describe(include=["category",int])



       gender     age
count    3     3.000000
unique   2        NaN
top     male      NaN
freq    2         NaN
mean    NaN    23.333333
std     NaN    5.773503
min     NaN    20.000000
25%     NaN    20.000000
50%     NaN    20.000000
75%     NaN    25.000000
max     NaN    30.000000

相關用法


注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 Pandas DataFrame | describe method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。