Python pyspark MultiIndex用法及代碼示例

本文簡要介紹 pyspark.pandas.MultiIndex 的用法。

用法: class pyspark.pandas.MultiIndex

pandas-on-Spark MultiIndex 邏輯上對應 pandas MultiIndex。這可能會在內部保留 Spark Column。

參數：

levels：數組序列: 每個級別的唯一標簽。
codes：數組序列: 每個級別的整數，指定每個位置的標簽。
sortorder：可選int: 排序級別(必須按該級別按字典順序排序)。
names：可選的對象序列: 每個索引級別的名稱。 (名稱被接受為兼容)。
copy：布爾值，默認為 False: 複製meta-data。
verify_integrity：布爾值，默認為真: 檢查級別/代碼是否一致且有效。

例子：

>>> ps.DataFrame({'a': ['a', 'b', 'c']}, index=[[1, 2, 3], [4, 5, 6]]).index  
MultiIndex([(1, 4),
            (2, 5),
            (3, 6)],
           )

>>> ps.DataFrame({'a': [1, 2, 3]}, index=[list('abc'), list('def')]).index  
MultiIndex([('a', 'd'),
            ('b', 'e'),
            ('c', 'f')],
           )

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.MultiIndex。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。