当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark Series.iloc用法及代码示例


本文简要介绍 pyspark.pandas.Series.iloc 的用法。

用法:

property Series.iloc

纯粹基于 integer-location 的索引,用于按位置进行选择。

.iloc[] 主要基于整数位置(从轴的0length-1),但也可以与条件布尔系列一起使用。

允许的输入是:

  • 用于列选择的整数,例如5

  • 用于具有不同索引值的行选择的整数列表或数组,例如[3, 4, 0]

  • 用于列选择的整数列表或数组,例如[4, 3, 0]

  • 用于列选择的布尔数组。

  • 带有整数的切片对象,用于行和列选择,例如1:7

Pandas 允许的不允许输入是:

  • 用于具有重复索引的行选择的整数列表或数组,例如[4, 4, 0]

  • 用于行选择的布尔数组。

  • 带有一个参数的 callable 函数(调用系列、DataFrame 或面板),并返回索引的有效输出(上述之一)。当您没有对调用对象的引用,但希望根据某个值进行选择时,这在方法链中非常有用。

.iloc会提高IndexError如果请求的索引器超出范围,除了允许越界索引的索引器(这符合 python/numpy语义)。

例子

>>> mydict = [{'a': 1, 'b': 2, 'c': 3, 'd': 4},
...           {'a': 100, 'b': 200, 'c': 300, 'd': 400},
...           {'a': 1000, 'b': 2000, 'c': 3000, 'd': 4000 }]
>>> df = ps.DataFrame(mydict, columns=['a', 'b', 'c', 'd'])
>>> df
      a     b     c     d
0     1     2     3     4
1   100   200   300   400
2  1000  2000  3000  4000

仅索引行

用于行选择的标量整数。

>>> df.iloc[1]
a    100
b    200
c    300
d    400
Name: 1, dtype: int64
>>> df.iloc[[0]]
   a  b  c  d
0  1  2  3  4

使用 slice 对象。

>>> df.iloc[:3]
      a     b     c     d
0     1     2     3     4
1   100   200   300   400
2  1000  2000  3000  4000

索引两个轴

您可以混合索引和列的索引器类型。使用: 选择整个轴。

使用标量整数。

>>> df.iloc[:1, 1]
0    2
Name: b, dtype: int64

带有整数列表。

>>> df.iloc[:2, [1, 3]]
     b    d
0    2    4
1  200  400

使用 slice 对象。

>>> df.iloc[:2, 0:3]
     a    b    c
0    1    2    3
1  100  200  300

使用长度与列匹配的布尔数组。

>>> df.iloc[:, [True, False, True, False]]
      a     c
0     1     3
1   100   300
2  1000  3000

设定值

为与标签列表匹配的所有项目设置值。

>>> df.iloc[[1, 2], [1]] = 50
>>> df
      a   b     c     d
0     1   2     3     4
1   100  50   300   400
2  1000  50  3000  4000

整行的设置值

>>> df.iloc[0] = 10
>>> df
      a   b     c     d
0    10  10    10    10
1   100  50   300   400
2  1000  50  3000  4000

为整列设置值

>>> df.iloc[:, 2] = 30
>>> df
      a   b   c     d
0    10  10  30    10
1   100  50  30   400
2  1000  50  30  4000

为整个列列表设置值

>>> df.iloc[:, [2, 3]] = 100
>>> df
      a   b    c    d
0    10  10  100  100
1   100  50  100  100
2  1000  50  100  100

用 Series 设置值

>>> df.iloc[:, 3] = df.iloc[:, 3] * 2
>>> df
      a   b    c    d
0    10  10  100  200
1   100  50  100  200
2  1000  50  100  200

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.Series.iloc。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。