Python pyspark Series.unique用法及代碼示例

本文簡要介紹 pyspark.pandas.Series.unique 的用法。

用法: Series.unique() → pyspark.pandas.series.Series

返回 Series 對象的唯一值。

唯一性按出現的順序返回。基於哈希表的唯一性，因此不排序。

注意

此方法返回新創建的係列，而 pandas 將唯一值作為 NumPy 數組返回。

>>> psser = ps.Series([2, 1, 3, 3], name='A')
>>> psser.unique().sort_values()  

...  1
...  2
...  3
Name: A, dtype: int64

>>> ps.Series([pd.Timestamp('2016-01-01') for _ in range(3)]).unique()
0   2016-01-01
dtype: datetime64[ns]

>>> psser.name = ('x', 'a')
>>> psser.unique().sort_values()  

...  1
...  2
...  3
Name: (x, a), dtype: int64

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.Series.unique。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。