Python pyspark Series.unique用法及代码示例

本文简要介绍 pyspark.pandas.Series.unique 的用法。

用法: Series.unique() → pyspark.pandas.series.Series

返回 Series 对象的唯一值。

唯一性按出现的顺序返回。基于哈希表的唯一性，因此不排序。

注意

此方法返回新创建的系列，而 pandas 将唯一值作为 NumPy 数组返回。

>>> psser = ps.Series([2, 1, 3, 3], name='A')
>>> psser.unique().sort_values()  

...  1
...  2
...  3
Name: A, dtype: int64

>>> ps.Series([pd.Timestamp('2016-01-01') for _ in range(3)]).unique()
0   2016-01-01
dtype: datetime64[ns]

>>> psser.name = ('x', 'a')
>>> psser.unique().sort_values()  

...  1
...  2
...  3
Name: (x, a), dtype: int64

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.Series.unique。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。