当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame.iterrows用法及代码示例


本文简要介绍 pyspark.pandas.DataFrame.iterrows 的用法。

用法:

DataFrame.iterrows() → Iterator[Tuple[Union[Any, Tuple[Any, …]], pandas.core.series.Series]]

迭代 DataFrame 行作为(索引,系列)对。

生成(Yield)

index标签或标签元组

行的索引。 MultiIndex 的元组。

datapandas.Series

该行的数据作为一个系列。

it生成器

迭代框架行的生成器。

注意

  1. 因为iterrows为每一行返回一个系列,它确实不是跨行保留数据类型(数据帧跨列保留数据类型)。例如,

    >>> df = ps.DataFrame([[1, 1.5]], columns=['int', 'float'])
    >>> row = next(df.iterrows())[1]
    >>> row
    int      1.0
    float    1.5
    Name: 0, dtype: float64
    >>> print(row['int'].dtype)
    float64
    >>> print(df['int'].dtype)
    int64

    要在迭代行时保留 dtypes,最好使用 itertuples() 返回值的命名元组,并且通常比 iterrows 快。

  2. 你永远不应该修改你正在迭代的东西。这不能保证在所有情况下都有效。根据数据类型,迭代器返回一个副本而不是一个视图,写入它不会有任何效果。

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.iterrows。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。