Pandas DataFrame.describe(~)
方法返回 DataFrame ,其中包含源 DataFrame 列的一些說明性統計信息(例如 mean
和 min
)。這最常用於對給定數據集進行數字總結。
參數
1.percentiles
| numbers
的array-like
| optional
作為說明性統計的一部分包含的百分位數。默認情況下,percentiles=[0.25, 0.50, 0.75]
。
2. include
| "all"
或 array-like
或 dtypes
或 None
| optional
源 DataFrame 中要考慮的列:
值 |
說明 |
---|---|
|
源 DataFrame 的所有列都將包含在內。 |
|
僅包含列表中指定的數據類型的列。 |
|
僅考慮數字類型的列。 |
默認情況下,include=None
。
3. exclude
| list-like
或 dtypes
或 None
| optional
與 include
類似,但 exclude
指定要忽略的列數據類型。默認情況下,exclude=None
。
返回值
DataFrame 保存源 DataFrame 中列值的說明性統計信息。
例子
基本用法
考慮以下 DataFrame :
df = pd.DataFrame({"name":["alex","bob","cathy"],"age":[20,30,40],"grade":[60,60,70]})
df
name age grade
0 alex 20 60
1 bob 30 60
2 cathy 40 70
我們可以使用describe(~)
方法獲得一些說明性統計數據:
df.describe()
age grade
count 3.0 3.000000
mean 30.0 63.333333
std 10.0 5.773503
min 20.0 60.000000
25% 25.0 60.000000
50% 30.0 60.000000
75% 35.0 65.000000
max 40.0 70.000000
這裏,50%的百分位代表中位數.
指定百分位數
我們可以通過傳入 percentiles
來指定要包含的百分位數,而不是第 25 個和第 75 個百分位數:
df.describe(percentiles=[0.3, 0.6, 0.9])
age grade
count 3.0 3.000000
mean 30.0 63.333333
std 10.0 5.773503
min 20.0 60.000000
30% 26.0 60.000000
50% 30.0 60.000000
60% 32.0 62.000000
90% 38.0 68.000000
max 40.0 70.000000
請注意 50%
百分位數仍然存在 - 這是因為它代表中位數。
指定包括
考慮以下 DataFrame :
names = pd.Series(["alex","bob","cathy"], dtype="string")
gender = pd.Series(["male","male","female"], dtype="category")
age = pd.Series([20,30,20], dtype="int")
df = pd.DataFrame({"names":names,"gender":gender,"age":age})
df
names gender age
0 alex male 20
1 bob male 30
2 cathy female 20
僅計算類型為 category
和 int
的列的說明性統計信息:
df.describe(include=["category",int])
gender age
count 3 3.000000
unique 2 NaN
top male NaN
freq 2 NaN
mean NaN 23.333333
std NaN 5.773503
min NaN 20.000000
25% NaN 20.000000
50% NaN 20.000000
75% NaN 25.000000
max NaN 30.000000
相關用法
- Python PySpark DataFrame describe方法用法及代碼示例
- Python PySpark DataFrame dtypes屬性用法及代碼示例
- Python PySpark DataFrame drop方法用法及代碼示例
- Python Pandas DataFrame dtypes屬性用法及代碼示例
- Python PySpark DataFrame dropDuplicates方法用法及代碼示例
- Python Pandas DataFrame duplicated方法用法及代碼示例
- Python Pandas DataFrame drop_duplicates方法用法及代碼示例
- Python Pandas DataFrame diff方法用法及代碼示例
- Python Pandas DataFrame dot方法用法及代碼示例
- Python Pandas DataFrame div方法用法及代碼示例
- Python Pandas DataFrame drop方法用法及代碼示例
- Python Pandas DataFrame droplevel方法用法及代碼示例
- Python PySpark DataFrame dropna方法用法及代碼示例
- Python Pandas DataFrame dropna方法用法及代碼示例
- Python PySpark DataFrame distinct方法用法及代碼示例
- Python Pandas DataFrame empty屬性用法及代碼示例
- Python Pandas DataFrame pop方法用法及代碼示例
- Python Pandas DataFrame nsmallest方法用法及代碼示例
- Python Pandas DataFrame sample方法用法及代碼示例
- Python Pandas DataFrame items方法用法及代碼示例
- Python Pandas DataFrame max方法用法及代碼示例
- Python Pandas DataFrame swaplevel方法用法及代碼示例
- Python Pandas DataFrame agg方法用法及代碼示例
- Python Pandas DataFrame copy方法用法及代碼示例
- Python Pandas DataFrame pow方法用法及代碼示例
注:本文由純淨天空篩選整理自Isshin Inada大神的英文原創作品 Pandas DataFrame | describe method。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。