当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python Pandas DataFrame describe方法用法及代码示例


Pandas DataFrame.describe(~) 方法返回 DataFrame ,其中包含源 DataFrame 列的一些说明性统计信息(例如 meanmin )。这最常用于对给定数据集进行数字总结。

参数

1.percentiles | numbersarray-like | optional

作为说明性统计的一部分包含的百分位数。默认情况下,percentiles=[0.25, 0.50, 0.75]

2. include | "all"array-likedtypesNone | optional

源 DataFrame 中要考虑的列:

说明

"all"

源 DataFrame 的所有列都将包含在内。

list-likedtypes

仅包含列表中指定的数据类型的列。

None

仅考虑数字类型的列。

默认情况下,include=None

3. exclude | list-likedtypesNone | optional

include 类似,但 exclude 指定要忽略的列数据类型。默认情况下,exclude=None

返回值

DataFrame 保存源 DataFrame 中列值的说明性统计信息。

例子

基本用法

考虑以下 DataFrame :

df = pd.DataFrame({"name":["alex","bob","cathy"],"age":[20,30,40],"grade":[60,60,70]})
df



   name   age  grade
0  alex   20    60
1  bob    30    60
2  cathy  40    70

我们可以使用describe(~)方法获得一些说明性统计数据:

df.describe()



       age   grade
count  3.0   3.000000
mean   30.0  63.333333
std    10.0  5.773503
min    20.0  60.000000
25%    25.0  60.000000
50%    30.0  60.000000
75%    35.0  65.000000
max    40.0  70.000000

这里,50%的百分位代表中位数.

指定百分位数

我们可以通过传入 percentiles 来指定要包含的百分位数,而不是第 25 个和第 75 个百分位数:

df.describe(percentiles=[0.3, 0.6, 0.9])



       age   grade
count  3.0   3.000000
mean   30.0  63.333333
std    10.0  5.773503
min    20.0  60.000000
30%    26.0  60.000000
50%    30.0  60.000000
60%    32.0  62.000000
90%    38.0  68.000000
max    40.0  70.000000

请注意 50% 百分位数仍然存在 - 这是因为它代表中位数。

指定包括

考虑以下 DataFrame :

names = pd.Series(["alex","bob","cathy"], dtype="string")
gender = pd.Series(["male","male","female"], dtype="category")
age = pd.Series([20,30,20], dtype="int")
df = pd.DataFrame({"names":names,"gender":gender,"age":age})
df



   names  gender  age
0  alex   male    20
1  bob    male    30
2  cathy  female  20

仅计算类型为 categoryint 的列的说明性统计信息:

df.describe(include=["category",int])



       gender     age
count    3     3.000000
unique   2        NaN
top     male      NaN
freq    2         NaN
mean    NaN    23.333333
std     NaN    5.773503
min     NaN    20.000000
25%     NaN    20.000000
50%     NaN    20.000000
75%     NaN    25.000000
max     NaN    30.000000

相关用法


注:本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 Pandas DataFrame | describe method。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。