Python Pandas DataFrame median方法用法及代码示例

Pandas DataFrame.median(~) 方法计算 DataFrame 的每行或每列的中位数。

1.axis | int 或 string | optional

是否按行或按列计算中位数：

轴	说明
`"index"` 或 `0`	计算每列的中位数。
`"columns"` 或 `1`	计算每行的中位数。

默认情况下，axis=0 。

2. skipna | boolean | optional

是否跳过 NaN 。如果 skipna=False ，那么即使有一个 NaN 也会返回 NaN 作为其行/列的中位数。默认情况下，skipna=True 。

3. level | string 或 int | optional

要考虑的级别的名称或整数索引。仅当您的 DataFrame 是多索引时，这才有意义。

4. numeric_only | None 或 boolean | optional

允许的值如下：

值	说明
`True`	仅考虑数字行/列(例如 `float` 、 `int` 、 `boolean` )。
`False`	尝试使用所有类型(例如字符串和日期)进行计算，并在无法计算中位数时抛出错误。
`None`	尝试计算所有类型，并忽略所有无法计算中位数的行/列不会引发错误.

请注意，只有当我们可以在类型之间执行求和时，才能计算中位数。

默认情况下，numeric_only=None 。

如果指定了level参数，则将返回DataFrame。否则，将返回Series。

考虑以下 DataFrame ：

df = pd.DataFrame({"A":[2,3], "B":[4,5], "C":["6",7]})
df



   A  B   C
0  2  4  "6"
1  3  5   7

计算每列的中位数：

df.median()   # axis=0



A    2.5
B    4.5
C    6.5
dtype: float64

请注意 "6" 如何自动转换为 float 以计算中位数。

要计算每行的中位数，请设置 axis=1 ：

df.median(axis=1)



0    4.0
1    5.0
dtype: float64

考虑以下 DataFrame ：

df = pd.DataFrame({"A":[3,4,6], "B":[7,9,pd.np.nan]})
df



   A  B
0  3  7.0
1  4  9.0
2  6  NaN

默认情况下， skipna=True ，这意味着在计算中位数时会跳过所有缺失值：

df.median()   # skipna=True



A    4.5
B    8.0
dtype: float64

考虑缺失值：

df.median(skipna=False)



A    4.0
B    NaN
dtype: float64

请注意，如果行/列包含一个或多个缺失值，则该行/列的中位数将为 NaN 。

考虑以下 DataFrame ：

df = pd.DataFrame({"A":[3,4], "B":[5,True], "C":[6,"7@8"]})
df



   A  B     C
0  3  5     6
1  4  True  7@8

此处， B 和 C 列都包含混合类型，但主要区别在于可以计算 B 的中位数，但不能计算 C 的中位数。当样本大小为偶数时(即此处的情况)，中位数是通过取中间两个数字的平均值来计算的，这意味着类型之间的求和运算必须明确定义。

回想一下， True 布尔值的内部表示是 1 ，因此操作 5+True 实际上计算为 6 ：

5 + True



6

另一方面，6+"7@8" 抛出错误：

6 + "7@8"



TypeError: unsupported operand type(s) for +: 'int' and 'str'

默认情况下， numeric_only=None ，这意味着混合类型的行/列也会被考虑：

df.median(numeric_only=None)



A    3.5
B    3.0
dtype: float64

在这里，请注意如何计算列的中位数B，但不适合C。通过传入None，无法计算中位数的行/列(由于求和无效)将被忽略不会引发错误.

通过设置 numeric_only=False ，将再次考虑混合类型的行/列，但当无法计算中位数时会抛出错误：

df.median(numeric_only=False)



TypeError: could not convert string to float: '7@8'

在这里，我们最终得到一个错误，因为 C 列包含未定义求和的混合类型。

通过设置 numeric_only=True ，仅考虑数字行/列：

df.median(numeric_only=True)



A 4.5
dtype: float64

请注意B 和C 列如何被忽略，因为它们包含混合类型。

相关用法

注：本文由纯净天空筛选整理自Isshin Inada大神的英文原创作品 Pandas DataFrame | median method。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。