Python Pandas DataFrame describe方法用法及代码示例

Pandas DataFrame.describe(~) 方法返回 DataFrame ，其中包含源 DataFrame 列的一些说明性统计信息(例如 mean 和 min )。这最常用于对给定数据集进行数字总结。

参数

1.percentiles | numbers 的array-like | optional

作为说明性统计的一部分包含的百分位数。默认情况下，percentiles=[0.25, 0.50, 0.75] 。

2. include | "all" 或 array-like 或 dtypes 或 None | optional

源 DataFrame 中要考虑的列：

值	说明
`"all"`	源 DataFrame 的所有列都将包含在内。
`list-like` 共 `dtypes`	仅包含列表中指定的数据类型的列。
`None`	仅考虑数字类型的列。

默认情况下，include=None 。

3. exclude | list-like 或 dtypes 或 None | optional

与 include 类似，但 exclude 指定要忽略的列数据类型。默认情况下，exclude=None 。

返回值

DataFrame 保存源 DataFrame 中列值的说明性统计信息。

例子

基本用法

考虑以下 DataFrame ：

df = pd.DataFrame({"name":["alex","bob","cathy"],"age":[20,30,40],"grade":[60,60,70]})
df



   name   age  grade
0  alex   20    60
1  bob    30    60
2  cathy  40    70

我们可以使用describe(~)方法获得一些说明性统计数据：

df.describe()



       age   grade
count  3.0   3.000000
mean   30.0  63.333333
std    10.0  5.773503
min    20.0  60.000000
25%    25.0  60.000000
50%    30.0  60.000000
75%    35.0  65.000000
max    40.0  70.000000

这里，50%的百分位代表中位数.

指定百分位数

我们可以通过传入 percentiles 来指定要包含的百分位数，而不是第 25 个和第 75 个百分位数：

df.describe(percentiles=[0.3, 0.6, 0.9])



       age   grade
count  3.0   3.000000
mean   30.0  63.333333
std    10.0  5.773503
min    20.0  60.000000
30%    26.0  60.000000
50%    30.0  60.000000
60%    32.0  62.000000
90%    38.0  68.000000
max    40.0  70.000000

请注意 50% 百分位数仍然存在 - 这是因为它代表中位数。

指定包括

考虑以下 DataFrame ：

names = pd.Series(["alex","bob","cathy"], dtype="string")
gender = pd.Series(["male","male","female"], dtype="category")
age = pd.Series([20,30,20], dtype="int")
df = pd.DataFrame({"names":names,"gender":gender,"age":age})
df



   names  gender  age
0  alex   male    20
1  bob    male    30
2  cathy  female  20

仅计算类型为 category 和 int 的列的说明性统计信息：

df.describe(include=["category",int])



       gender     age
count    3     3.000000
unique   2        NaN
top     male      NaN
freq    2         NaN
mean    NaN    23.333333
std     NaN    5.773503
min     NaN    20.000000
25%     NaN    20.000000
50%     NaN    20.000000
75%     NaN    25.000000
max     NaN    30.000000

相关用法

注：本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 Pandas DataFrame | describe method。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。