Python pyspark Index用法及代码示例

本文简要介绍 pyspark.pandas.Index 的用法。

用法: class pyspark.pandas.Index

pandas-on-Spark 逻辑上对应pandas索引的索引。这可能会在内部保存 Spark Column。

data：类似数组(一维)
dtype：dtype，默认无: 如果 dtype 为 None，我们会找到最适合数据的 dtype。如果提供了实际的 dtype，如果它是安全的，我们会强制使用该 dtype。否则，将引发错误。
copy：bool: 制作输入 ndarray 的副本。
name：对象: 要存储在索引中的名称。
tupleize_cols：布尔(默认值：真): 当为 True 时，如果可能，尝试创建 MultiIndex。

>>> ps.DataFrame({'a': ['a', 'b', 'c']}, index=[1, 2, 3]).index
Int64Index([1, 2, 3], dtype='int64')

>>> ps.DataFrame({'a': [1, 2, 3]}, index=list('abc')).index
Index(['a', 'b', 'c'], dtype='object')

>>> ps.Index([1, 2, 3])
Int64Index([1, 2, 3], dtype='int64')

>>> ps.Index(list('abc'))
Index(['a', 'b', 'c'], dtype='object')

从一个系列：

>>> s = ps.Series([1, 2, 3], index=[10, 20, 30])
>>> ps.Index(s)
Int64Index([1, 2, 3], dtype='int64')

从索引：

>>> idx = ps.Index([1, 2, 3])
>>> ps.Index(idx)
Int64Index([1, 2, 3], dtype='int64')

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.Index。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。