当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python pyspark DataFrame用法及代码示例


本文简要介绍 pyspark.pandas.DataFrame 的用法。

用法:

class pyspark.pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

pandas-on-Spark DataFrame 逻辑上对应 pandas DataFrame。这在内部保存了 Spark DataFrame。

变量

_internal - 用于管理元数据的内部不可变帧。

参数

datanumpy ndarray(结构化或同类)、dict、pandas DataFrame、Spark DataFrame 或 pandas-on-Spark 系列

字典可以包含系列、数组、常量或类似列表的对象。如果数据是字典,则 Python 3.6 及更高版本将保留参数顺序。请注意,如果 data 是 pandas DataFrame、Spark DataFrame 和 pandas-on-Spark Series,则不应使用其他参数。

index索引或类似数组

用于结果帧的索引。如果输入数据没有索引信息部分且未提供索引,则默认为RangeIndex

columns索引或类似数组

用于生成框架的列标签。如果未提供列标签,则默认为 RangeIndex (0, 1, 2, …, n)

dtypedtype,默认无

要强制的数据类型。只允许使用一个 dtype。如果没有,推断

copy布尔值,默认为 False

从输入复制数据。仅影响 DataFrame /2d ndarray 输入

例子

从字典构造DataFrame。

>>> d = {'col1': [1, 2], 'col2': [3, 4]}
>>> df = ps.DataFrame(data=d, columns=['col1', 'col2'])
>>> df
   col1  col2
0     1     3
1     2     4

从 pandas DataFrame 构建 DataFrame

>>> df = ps.DataFrame(pd.DataFrame(data=d, columns=['col1', 'col2']))
>>> df
   col1  col2
0     1     3
1     2     4

请注意,推断的 dtype 是 int64。

>>> df.dtypes
col1    int64
col2    int64
dtype: object

要强制执行单个 dtype:

>>> df = ps.DataFrame(data=d, dtype=np.int8)
>>> df.dtypes
col1    int8
col2    int8
dtype: object

从 numpy ndarray 构造DataFrame:

>>> df2 = ps.DataFrame(np.random.randint(low=0, high=10, size=(5, 5)),
...                    columns=['a', 'b', 'c', 'd', 'e'])
>>> df2  
   a  b  c  d  e
0  3  1  4  9  8
1  4  8  4  8  4
2  7  6  5  6  7
3  8  7  9  1  0
4  2  5  4  3  9

相关用法


注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。