Python pyspark Series.iloc用法及代码示例

本文简要介绍 pyspark.pandas.Series.iloc 的用法。

用法: property Series.iloc

纯粹基于 integer-location 的索引，用于按位置进行选择。

.iloc[] 主要基于整数位置(从轴的0 到length-1)，但也可以与条件布尔系列一起使用。

允许的输入是：

用于列选择的整数，例如5 。
用于具有不同索引值的行选择的整数列表或数组，例如[3, 4, 0]
用于列选择的整数列表或数组，例如[4, 3, 0] 。
用于列选择的布尔数组。
带有整数的切片对象，用于行和列选择，例如1:7 。

Pandas 允许的不允许输入是：

用于具有重复索引的行选择的整数列表或数组，例如[4, 4, 0] 。
用于行选择的布尔数组。
带有一个参数的 callable 函数(调用系列、DataFrame 或面板)，并返回索引的有效输出(上述之一)。当您没有对调用对象的引用，但希望根据某个值进行选择时，这在方法链中非常有用。

.iloc会提高IndexError如果请求的索引器超出范围，除了片允许越界索引的索引器(这符合 python/numpy片语义)。

例子：

>>> mydict = [{'a': 1, 'b': 2, 'c': 3, 'd': 4},
...           {'a': 100, 'b': 200, 'c': 300, 'd': 400},
...           {'a': 1000, 'b': 2000, 'c': 3000, 'd': 4000 }]
>>> df = ps.DataFrame(mydict, columns=['a', 'b', 'c', 'd'])
>>> df
      a     b     c     d
0     1     2     3     4
1   100   200   300   400
2  1000  2000  3000  4000

仅索引行

用于行选择的标量整数。

>>> df.iloc[1]
a    100
b    200
c    300
d    400
Name: 1, dtype: int64

>>> df.iloc[[0]]
   a  b  c  d
0  1  2  3  4

使用 slice 对象。

>>> df.iloc[:3]
      a     b     c     d
0     1     2     3     4
1   100   200   300   400
2  1000  2000  3000  4000

索引两个轴

您可以混合索引和列的索引器类型。使用: 选择整个轴。

使用标量整数。

>>> df.iloc[:1, 1]
0    2
Name: b, dtype: int64

带有整数列表。

>>> df.iloc[:2, [1, 3]]
     b    d
0    2    4
1  200  400

使用 slice 对象。

>>> df.iloc[:2, 0:3]
     a    b    c
0    1    2    3
1  100  200  300

使用长度与列匹配的布尔数组。

>>> df.iloc[:, [True, False, True, False]]
      a     c
0     1     3
1   100   300
2  1000  3000

设定值

为与标签列表匹配的所有项目设置值。

>>> df.iloc[[1, 2], [1]] = 50
>>> df
      a   b     c     d
0     1   2     3     4
1   100  50   300   400
2  1000  50  3000  4000

整行的设置值

>>> df.iloc[0] = 10
>>> df
      a   b     c     d
0    10  10    10    10
1   100  50   300   400
2  1000  50  3000  4000

为整列设置值

>>> df.iloc[:, 2] = 30
>>> df
      a   b   c     d
0    10  10  30    10
1   100  50  30   400
2  1000  50  30  4000

为整个列列表设置值

>>> df.iloc[:, [2, 3]] = 100
>>> df
      a   b    c    d
0    10  10  100  100
1   100  50  100  100
2  1000  50  100  100

用 Series 设置值

>>> df.iloc[:, 3] = df.iloc[:, 3] * 2
>>> df
      a   b    c    d
0    10  10  100  200
1   100  50  100  200
2  1000  50  100  200

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.Series.iloc。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。