當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文

Python pyspark DataFrame.iterrows用法及代碼示例

本文簡要介紹 pyspark.pandas.DataFrame.iterrows 的用法。

用法: DataFrame.iterrows() → Iterator[Tuple[Union[Any, Tuple[Any, …]], pandas.core.series.Series]]

迭代 DataFrame 行作為(索引，係列)對。

生成(Yield)：

index：標簽或標簽元組: 行的索引。 MultiIndex 的元組。
data：pandas.Series: 該行的數據作為一個係列。
it：生成器: 迭代框架行的生成器。

注意：

因為iterrows為每一行返回一個係列，它確實不是跨行保留數據類型(數據幀跨列保留數據類型)。例如，
```
>>> df = ps.DataFrame([[1, 1.5]], columns=['int', 'float'])
>>> row = next(df.iterrows())[1]
>>> row
int      1.0
float    1.5
Name: 0, dtype: float64
>>> print(row['int'].dtype)
float64
>>> print(df['int'].dtype)
int64
```
要在迭代行時保留 dtypes，最好使用 itertuples() 返回值的命名元組，並且通常比 iterrows 快。
你永遠不應該修改你正在迭代的東西。這不能保證在所有情況下都有效。根據數據類型，迭代器返回一個副本而不是一個視圖，寫入它不會有任何效果。

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.iterrows。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。