本文简要介绍
pyspark.pandas.concat 的用法。用法:
pyspark.pandas.concat(objs: List[Union[pyspark.pandas.frame.DataFrame, pyspark.pandas.series.Series]], axis: Union[int, str] = 0, join: str = 'outer', ignore_index: bool = False, sort: bool = False) → Union[pyspark.pandas.series.Series, pyspark.pandas.frame.DataFrame]沿特定轴连接 pandas-on-Spark 对象,并沿其他轴连接可选的设置逻辑。
- objs:系列或DataFrame 的序列
任何 None 对象都将被静默删除,除非它们都是 None 在这种情况下将引发 ValueError
- axis:{0/'index', 1/'columns'},默认 0
要连接的轴。
- join:{‘inner’, ‘outer’},默认 ‘outer’
如何处理其他轴(或轴)上的索引。
- ignore_index:布尔值,默认为 False
如果为 True,则不要沿连接轴使用索引值。结果轴将标记为 0, ..., n - 1。如果您要连接对象,而连接轴没有有意义的索引信息,这将非常有用。请注意,连接中仍然尊重其他轴上的索引值。
- sort:布尔值,默认为 False
如果尚未对齐,则对非串联轴进行排序。
- 对象,对象类型
当沿索引 (axis=0) 连接所有
Series时,将返回Series。当objs至少包含一个DataFrame时,返回一个DataFrame。沿列连接时 (axis=1),返回DataFrame。
参数:
返回:
例子:
>>> from pyspark.pandas.config import set_option, reset_option >>> set_option("compute.ops_on_diff_frames", True)合并两个
Series。>>> s1 = ps.Series(['a', 'b']) >>> s2 = ps.Series(['c', 'd']) >>> ps.concat([s1, s2]) 0 a 1 b 0 c 1 d dtype: object通过将
ignore_index选项设置为True来清除现有索引并在结果中将其重置。>>> ps.concat([s1, s2], ignore_index=True) 0 a 1 b 2 c 3 d dtype: object将两个具有相同列的
DataFrame对象组合在一起。>>> df1 = ps.DataFrame([['a', 1], ['b', 2]], ... columns=['letter', 'number']) >>> df1 letter number 0 a 1 1 b 2 >>> df2 = ps.DataFrame([['c', 3], ['d', 4]], ... columns=['letter', 'number']) >>> df2 letter number 0 c 3 1 d 4>>> ps.concat([df1, df2]) letter number 0 a 1 1 b 2 0 c 3 1 d 4将
DataFrame和Series对象与不同的列组合在一起。>>> ps.concat([df2, s1]) letter number 0 0 c 3.0 None 1 d 4.0 None 0 None NaN a 1 None NaN b将
DataFrame对象与重叠列组合并返回所有内容。交叉点外的列将填充None值。>>> df3 = ps.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']], ... columns=['letter', 'number', 'animal']) >>> df3 letter number animal 0 c 3 cat 1 d 4 dog>>> ps.concat([df1, df3]) letter number animal 0 a 1 None 1 b 2 None 0 c 3 cat 1 d 4 dog对列进行排序。
>>> ps.concat([df1, df3], sort=True) animal letter number 0 None a 1 1 None b 2 0 cat c 3 1 dog d 4将
DataFrame对象与重叠列组合在一起,并仅返回那些通过将inner传递给join关键字参数来共享的对象。>>> ps.concat([df1, df3], join="inner") letter number 0 a 1 1 b 2 0 c 3 1 d 4>>> df4 = ps.DataFrame([['bird', 'polly'], ['monkey', 'george']], ... columns=['animal', 'name'])与柱轴结合。
>>> ps.concat([df1, df4], axis=1) letter number animal name 0 a 1 bird polly 1 b 2 monkey george>>> reset_option("compute.ops_on_diff_frames")
相关用法
- Python pyspark concat_ws用法及代码示例
- Python pyspark concat用法及代码示例
- Python pyspark conv用法及代码示例
- Python pyspark covar_samp用法及代码示例
- Python pyspark corr用法及代码示例
- Python pyspark covar_pop用法及代码示例
- Python pyspark coalesce用法及代码示例
- Python pyspark collect_list用法及代码示例
- Python pyspark count_distinct用法及代码示例
- Python pyspark collect_set用法及代码示例
- Python pyspark create_map用法及代码示例
- Python pyspark crc32用法及代码示例
- Python pyspark date_add用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataStreamReader.schema用法及代码示例
- Python pyspark MultiIndex.size用法及代码示例
- Python pyspark arrays_overlap用法及代码示例
- Python pyspark Series.asof用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark Index.is_monotonic_decreasing用法及代码示例
- Python pyspark IsotonicRegression用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark element_at用法及代码示例
- Python pyspark explode用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.concat。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。
