本文简要介绍
pyspark.pandas.concat
的用法。用法:
pyspark.pandas.concat(objs: List[Union[pyspark.pandas.frame.DataFrame, pyspark.pandas.series.Series]], axis: Union[int, str] = 0, join: str = 'outer', ignore_index: bool = False, sort: bool = False) → Union[pyspark.pandas.series.Series, pyspark.pandas.frame.DataFrame]
沿特定轴连接 pandas-on-Spark 对象,并沿其他轴连接可选的设置逻辑。
- objs:系列或DataFrame 的序列
任何 None 对象都将被静默删除,除非它们都是 None 在这种情况下将引发 ValueError
- axis:{0/'index', 1/'columns'},默认 0
要连接的轴。
- join:{‘inner’, ‘outer’},默认 ‘outer’
如何处理其他轴(或轴)上的索引。
- ignore_index:布尔值,默认为 False
如果为 True,则不要沿连接轴使用索引值。结果轴将标记为 0, ..., n - 1。如果您要连接对象,而连接轴没有有意义的索引信息,这将非常有用。请注意,连接中仍然尊重其他轴上的索引值。
- sort:布尔值,默认为 False
如果尚未对齐,则对非串联轴进行排序。
- 对象,对象类型
当沿索引 (axis=0) 连接所有
Series
时,将返回Series
。当objs
至少包含一个DataFrame
时,返回一个DataFrame
。沿列连接时 (axis=1),返回DataFrame
。
参数:
返回:
例子:
>>> from pyspark.pandas.config import set_option, reset_option >>> set_option("compute.ops_on_diff_frames", True)
合并两个
Series
。>>> s1 = ps.Series(['a', 'b']) >>> s2 = ps.Series(['c', 'd']) >>> ps.concat([s1, s2]) 0 a 1 b 0 c 1 d dtype: object
通过将
ignore_index
选项设置为True
来清除现有索引并在结果中将其重置。>>> ps.concat([s1, s2], ignore_index=True) 0 a 1 b 2 c 3 d dtype: object
将两个具有相同列的
DataFrame
对象组合在一起。>>> df1 = ps.DataFrame([['a', 1], ['b', 2]], ... columns=['letter', 'number']) >>> df1 letter number 0 a 1 1 b 2 >>> df2 = ps.DataFrame([['c', 3], ['d', 4]], ... columns=['letter', 'number']) >>> df2 letter number 0 c 3 1 d 4
>>> ps.concat([df1, df2]) letter number 0 a 1 1 b 2 0 c 3 1 d 4
将
DataFrame
和Series
对象与不同的列组合在一起。>>> ps.concat([df2, s1]) letter number 0 0 c 3.0 None 1 d 4.0 None 0 None NaN a 1 None NaN b
将
DataFrame
对象与重叠列组合并返回所有内容。交叉点外的列将填充None
值。>>> df3 = ps.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']], ... columns=['letter', 'number', 'animal']) >>> df3 letter number animal 0 c 3 cat 1 d 4 dog
>>> ps.concat([df1, df3]) letter number animal 0 a 1 None 1 b 2 None 0 c 3 cat 1 d 4 dog
对列进行排序。
>>> ps.concat([df1, df3], sort=True) animal letter number 0 None a 1 1 None b 2 0 cat c 3 1 dog d 4
将
DataFrame
对象与重叠列组合在一起,并仅返回那些通过将inner
传递给join
关键字参数来共享的对象。>>> ps.concat([df1, df3], join="inner") letter number 0 a 1 1 b 2 0 c 3 1 d 4
>>> df4 = ps.DataFrame([['bird', 'polly'], ['monkey', 'george']], ... columns=['animal', 'name'])
与柱轴结合。
>>> ps.concat([df1, df4], axis=1) letter number animal name 0 a 1 bird polly 1 b 2 monkey george
>>> reset_option("compute.ops_on_diff_frames")
相关用法
- Python pyspark concat_ws用法及代码示例
- Python pyspark concat用法及代码示例
- Python pyspark conv用法及代码示例
- Python pyspark covar_samp用法及代码示例
- Python pyspark corr用法及代码示例
- Python pyspark covar_pop用法及代码示例
- Python pyspark coalesce用法及代码示例
- Python pyspark collect_list用法及代码示例
- Python pyspark count_distinct用法及代码示例
- Python pyspark collect_set用法及代码示例
- Python pyspark create_map用法及代码示例
- Python pyspark crc32用法及代码示例
- Python pyspark date_add用法及代码示例
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataStreamReader.schema用法及代码示例
- Python pyspark MultiIndex.size用法及代码示例
- Python pyspark arrays_overlap用法及代码示例
- Python pyspark Series.asof用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark Index.is_monotonic_decreasing用法及代码示例
- Python pyspark IsotonicRegression用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark element_at用法及代码示例
- Python pyspark explode用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.concat。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。