pyspark.pandas.DataFrame.reset_index
的用法。用法:
DataFrame.reset_index(level: Union[int, Any, Tuple[Any, …], Sequence[Union[int, Any, Tuple[Any, …]]], None] = None, drop: bool = False, inplace: bool = False, col_level: int = 0, col_fill: str = '') → Optional[pyspark.pandas.frame.DataFrame]
重置索引,或它的一个级别。
对于带有multi-level索引的DataFrame,返回新的DataFrame,并在索引名称下的列中包含标签信息,默认为‘level_0’, ‘level_1’等,如果有则为None。对于标准索引,将使用索引名称(如果已设置),否则将使用默认的 ‘index’ 或 ‘level_0’(如果已采用 ‘index’)。
- level:int, str, tuple, or list, 默认无
仅从索引中删除给定的级别。默认情况下删除所有级别。
- drop:布尔值,默认为 False
不要尝试将索引插入 DataFrame 列。这会将索引重置为默认整数索引。
- inplace:布尔值,默认为 False
就地修改DataFrame(不创建新对象)。
- col_level:int或str,默认0
如果列有多个级别,则确定标签插入到哪个级别。默认情况下,它被插入到第一级。
- col_fill:对象,默认 ''
如果列具有多个级别,则确定其他级别的命名方式。如果 None 则重复索引名称。
- DataFrame
DataFrame 使用新索引。
参数:
返回:
例子:
>>> df = ps.DataFrame([('bird', 389.0), ... ('bird', 24.0), ... ('mammal', 80.5), ... ('mammal', np.nan)], ... index=['falcon', 'parrot', 'lion', 'monkey'], ... columns=('class', 'max_speed')) >>> df class max_speed falcon bird 389.0 parrot bird 24.0 lion mammal 80.5 monkey mammal NaN
当我们重置索引时,旧索引作为列添加。与 pandas 不同,pandas-on-Spark 不会自动添加顺序索引。下面的 0, 1, 2, 3 只有在我们显示 DataFrame 时才会出现。
>>> df.reset_index() index class max_speed 0 falcon bird 389.0 1 parrot bird 24.0 2 lion mammal 80.5 3 monkey mammal NaN
我们可以使用
drop
参数来避免将旧索引添加为列:>>> df.reset_index(drop=True) class max_speed 0 bird 389.0 1 bird 24.0 2 mammal 80.5 3 mammal NaN
您还可以将
reset_index
与MultiIndex
一起使用。>>> index = pd.MultiIndex.from_tuples([('bird', 'falcon'), ... ('bird', 'parrot'), ... ('mammal', 'lion'), ... ('mammal', 'monkey')], ... names=['class', 'name']) >>> columns = pd.MultiIndex.from_tuples([('speed', 'max'), ... ('species', 'type')]) >>> df = ps.DataFrame([(389.0, 'fly'), ... ( 24.0, 'fly'), ... ( 80.5, 'run'), ... (np.nan, 'jump')], ... index=index, ... columns=columns) >>> df speed species max type class name bird falcon 389.0 fly parrot 24.0 fly mammal lion 80.5 run monkey NaN jump
如果索引有多个级别,我们可以重置其中的一个子集:
>>> df.reset_index(level='class') class speed species max type name falcon bird 389.0 fly parrot bird 24.0 fly lion mammal 80.5 run monkey mammal NaN jump
如果我们不删除索引,默认情况下,它被放置在顶层。我们可以把它放在另一个层次:
>>> df.reset_index(level='class', col_level=1) speed species class max type name falcon bird 389.0 fly parrot bird 24.0 fly lion mammal 80.5 run monkey mammal NaN jump
当索引插入到另一个级别下时,我们可以使用参数
col_fill
指定在哪一个下:>>> df.reset_index(level='class', col_level=1, ... col_fill='species') species speed species class max type name falcon bird 389.0 fly parrot bird 24.0 fly lion mammal 80.5 run monkey mammal NaN jump
如果我们为
col_fill
指定不存在的级别,则会创建它:>>> df.reset_index(level='class', col_level=1, ... col_fill='genus') genus speed species class max type name falcon bird 389.0 fly parrot bird 24.0 fly lion mammal 80.5 run monkey mammal NaN jump
相关用法
- Python pyspark DataFrame.reindex_like用法及代码示例
- Python pyspark DataFrame.rename用法及代码示例
- Python pyspark DataFrame.replace用法及代码示例
- Python pyspark DataFrame.registerTempTable用法及代码示例
- Python pyspark DataFrame.repartition用法及代码示例
- Python pyspark DataFrame.rename_axis用法及代码示例
- Python pyspark DataFrame.reindex用法及代码示例
- Python pyspark DataFrame.repartitionByRange用法及代码示例
- Python pyspark DataFrame.rmod用法及代码示例
- Python pyspark DataFrame.rsub用法及代码示例
- Python pyspark DataFrame.round用法及代码示例
- Python pyspark DataFrame.rollup用法及代码示例
- Python pyspark DataFrame.rank用法及代码示例
- Python pyspark DataFrame.rmul用法及代码示例
- Python pyspark DataFrame.rfloordiv用法及代码示例
- Python pyspark DataFrame.radd用法及代码示例
- Python pyspark DataFrame.rpow用法及代码示例
- Python pyspark DataFrame.rtruediv用法及代码示例
- Python pyspark DataFrame.rdiv用法及代码示例
- Python pyspark DataFrame.randomSplit用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.reset_index。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。