Pandas DataFrame.describe(~)
方法返回 DataFrame ,其中包含源 DataFrame 列的一些说明性统计信息(例如 mean
和 min
)。这最常用于对给定数据集进行数字总结。
参数
1.percentiles
| numbers
的array-like
| optional
作为说明性统计的一部分包含的百分位数。默认情况下,percentiles=[0.25, 0.50, 0.75]
。
2. include
| "all"
或 array-like
或 dtypes
或 None
| optional
源 DataFrame 中要考虑的列:
值 |
说明 |
---|---|
|
源 DataFrame 的所有列都将包含在内。 |
|
仅包含列表中指定的数据类型的列。 |
|
仅考虑数字类型的列。 |
默认情况下,include=None
。
3. exclude
| list-like
或 dtypes
或 None
| optional
与 include
类似,但 exclude
指定要忽略的列数据类型。默认情况下,exclude=None
。
返回值
DataFrame 保存源 DataFrame 中列值的说明性统计信息。
例子
基本用法
考虑以下 DataFrame :
df = pd.DataFrame({"name":["alex","bob","cathy"],"age":[20,30,40],"grade":[60,60,70]})
df
name age grade
0 alex 20 60
1 bob 30 60
2 cathy 40 70
我们可以使用describe(~)
方法获得一些说明性统计数据:
df.describe()
age grade
count 3.0 3.000000
mean 30.0 63.333333
std 10.0 5.773503
min 20.0 60.000000
25% 25.0 60.000000
50% 30.0 60.000000
75% 35.0 65.000000
max 40.0 70.000000
这里,50%的百分位代表中位数.
指定百分位数
我们可以通过传入 percentiles
来指定要包含的百分位数,而不是第 25 个和第 75 个百分位数:
df.describe(percentiles=[0.3, 0.6, 0.9])
age grade
count 3.0 3.000000
mean 30.0 63.333333
std 10.0 5.773503
min 20.0 60.000000
30% 26.0 60.000000
50% 30.0 60.000000
60% 32.0 62.000000
90% 38.0 68.000000
max 40.0 70.000000
请注意 50%
百分位数仍然存在 - 这是因为它代表中位数。
指定包括
考虑以下 DataFrame :
names = pd.Series(["alex","bob","cathy"], dtype="string")
gender = pd.Series(["male","male","female"], dtype="category")
age = pd.Series([20,30,20], dtype="int")
df = pd.DataFrame({"names":names,"gender":gender,"age":age})
df
names gender age
0 alex male 20
1 bob male 30
2 cathy female 20
仅计算类型为 category
和 int
的列的说明性统计信息:
df.describe(include=["category",int])
gender age
count 3 3.000000
unique 2 NaN
top male NaN
freq 2 NaN
mean NaN 23.333333
std NaN 5.773503
min NaN 20.000000
25% NaN 20.000000
50% NaN 20.000000
75% NaN 25.000000
max NaN 30.000000
相关用法
- Python PySpark DataFrame describe方法用法及代码示例
- Python PySpark DataFrame dtypes属性用法及代码示例
- Python PySpark DataFrame drop方法用法及代码示例
- Python Pandas DataFrame dtypes属性用法及代码示例
- Python PySpark DataFrame dropDuplicates方法用法及代码示例
- Python Pandas DataFrame duplicated方法用法及代码示例
- Python Pandas DataFrame drop_duplicates方法用法及代码示例
- Python Pandas DataFrame diff方法用法及代码示例
- Python Pandas DataFrame dot方法用法及代码示例
- Python Pandas DataFrame div方法用法及代码示例
- Python Pandas DataFrame drop方法用法及代码示例
- Python Pandas DataFrame droplevel方法用法及代码示例
- Python PySpark DataFrame dropna方法用法及代码示例
- Python Pandas DataFrame dropna方法用法及代码示例
- Python PySpark DataFrame distinct方法用法及代码示例
- Python Pandas DataFrame empty属性用法及代码示例
- Python Pandas DataFrame pop方法用法及代码示例
- Python Pandas DataFrame nsmallest方法用法及代码示例
- Python Pandas DataFrame sample方法用法及代码示例
- Python Pandas DataFrame items方法用法及代码示例
- Python Pandas DataFrame max方法用法及代码示例
- Python Pandas DataFrame swaplevel方法用法及代码示例
- Python Pandas DataFrame agg方法用法及代码示例
- Python Pandas DataFrame copy方法用法及代码示例
- Python Pandas DataFrame pow方法用法及代码示例
注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 Pandas DataFrame | describe method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。