當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python pyspark DataFrame.iterrows用法及代碼示例

本文簡要介紹 pyspark.pandas.DataFrame.iterrows 的用法。

用法:

DataFrame.iterrows() → Iterator[Tuple[Union[Any, Tuple[Any, …]], pandas.core.series.Series]]

迭代 DataFrame 行作為(索引,係列)對。

生成(Yield)

index標簽或標簽元組

行的索引。 MultiIndex 的元組。

datapandas.Series

該行的數據作為一個係列。

it生成器

迭代框架行的生成器。

注意

  1. 因為iterrows為每一行返回一個係列,它確實不是跨行保留數據類型(數據幀跨列保留數據類型)。例如,

    >>> df = ps.DataFrame([[1, 1.5]], columns=['int', 'float'])
    >>> row = next(df.iterrows())[1]
    >>> row
    int      1.0
    float    1.5
    Name: 0, dtype: float64
    >>> print(row['int'].dtype)
    float64
    >>> print(df['int'].dtype)
    int64

    要在迭代行時保留 dtypes,最好使用 itertuples() 返回值的命名元組,並且通常比 iterrows 快。

  2. 你永遠不應該修改你正在迭代的東西。這不能保證在所有情況下都有效。根據數據類型,迭代器返回一個副本而不是一個視圖,寫入它不會有任何效果。

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.iterrows。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。