当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame.sort_values用法及代码示例


本文简要介绍 pyspark.pandas.DataFrame.sort_values 的用法。

用法:

DataFrame.sort_values(by: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]]], ascending: Union[bool, List[bool]] = True, inplace: bool = False, na_position: str = 'last') → Optional[pyspark.pandas.frame.DataFrame]

按任一轴上的值排序。

参数

bystr 或 str 列表
ascendingbool 或 bool 列表,默认为 True

升序与降序排序。指定多个排序顺序的列表。如果这是一个布尔列表,则必须匹配 by 的长度。

inplace布尔值,默认为 False

如果为真,就地执行操作

na_position{‘first’, ‘last’},默认 ‘last’

first 将NaNs 放在开头,last 将NaNs 放在结尾

返回

sorted_objDataFrame

例子

>>> df = ps.DataFrame({
...     'col1': ['A', 'B', None, 'D', 'C'],
...     'col2': [2, 9, 8, 7, 4],
...     'col3': [0, 9, 4, 2, 3],
...   },
...   columns=['col1', 'col2', 'col3'])
>>> df
   col1  col2  col3
0     A     2     0
1     B     9     9
2  None     8     4
3     D     7     2
4     C     4     3

按 col1 排序

>>> df.sort_values(by=['col1'])
   col1  col2  col3
0     A     2     0
1     B     9     9
4     C     4     3
3     D     7     2
2  None     8     4

降序排序

>>> df.sort_values(by='col1', ascending=False)
   col1  col2  col3
3     D     7     2
4     C     4     3
1     B     9     9
0     A     2     0
2  None     8     4

按多列排序

>>> df = ps.DataFrame({
...     'col1': ['A', 'A', 'B', None, 'D', 'C'],
...     'col2': [2, 1, 9, 8, 7, 4],
...     'col3': [0, 1, 9, 4, 2, 3],
...   },
...   columns=['col1', 'col2', 'col3'])
>>> df.sort_values(by=['col1', 'col2'])
   col1  col2  col3
1     A     1     1
0     A     2     0
2     B     9     9
5     C     4     3
4     D     7     2
3  None     8     4

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.sort_values。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。