当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame.take用法及代码示例


本文简要介绍 pyspark.pandas.DataFrame.take 的用法。

用法:

DataFrame.take(indices: List[int], axis: Union[int, str] = 0, **kwargs: Any) → pyspark.pandas.frame.DataFrame

返回给定的元素位置的沿轴的索引。

这意味着我们没有根据对象的 index 属性中的实际值进行索引。我们根据元素在对象中的实际位置进行索引。

参数

indices类数组

一个整数数组,指示要采取的位置。

axis{0 或 ‘index’,1 或 ‘columns’,无},默认 0

选择元素的轴。 0 表示我们正在选择行,1 表示我们正在选择列。

**kwargs

为了与 numpy.take() 兼容。对输出没有影响。

返回

taken与调用者相同的类型

包含从对象中获取的元素的类似数组。

例子

>>> df = ps.DataFrame([('falcon', 'bird', 389.0),
...                    ('parrot', 'bird', 24.0),
...                    ('lion', 'mammal', 80.5),
...                    ('monkey', 'mammal', np.nan)],
...                   columns=['name', 'class', 'max_speed'],
...                   index=[0, 2, 3, 1])
>>> df
     name   class  max_speed
0  falcon    bird      389.0
2  parrot    bird       24.0
3    lion  mammal       80.5
1  monkey  mammal        NaN

沿轴 0(默认)在位置 0 和 3 处获取元素。

请注意,实际选择的索引(0 和 1)如何与我们选择的索引 0 和 3 不对应。这是因为我们选择的是第 0 行和第 3 行,而不是索引等于 0 和 3 的行。

>>> df.take([0, 3]).sort_index()
     name   class  max_speed
0  falcon    bird      389.0
1  monkey  mammal        NaN

沿轴 1 获取索引 1 和 2 处的元素(列选择)。

>>> df.take([1, 2], axis=1)
    class  max_speed
0    bird      389.0
2    bird       24.0
3  mammal       80.5
1  mammal        NaN

我们可以使用负整数作为正索引的元素,从对象的末尾开始,就像 Python 列表一样。

>>> df.take([-1, -2]).sort_index()
     name   class  max_speed
1  monkey  mammal        NaN
3    lion  mammal       80.5

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.take。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。