Python pyspark DataFrame用法及代码示例

本文简要介绍 pyspark.pandas.DataFrame 的用法。

用法: class pyspark.pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

pandas-on-Spark DataFrame 逻辑上对应 pandas DataFrame。这在内部保存了 Spark DataFrame。

变量：

_internal - 用于管理元数据的内部不可变帧。

参数：

data：numpy ndarray(结构化或同类)、dict、pandas DataFrame、Spark DataFrame 或 pandas-on-Spark 系列: 字典可以包含系列、数组、常量或类似列表的对象。如果数据是字典，则 Python 3.6 及更高版本将保留参数顺序。请注意，如果 data 是 pandas DataFrame、Spark DataFrame 和 pandas-on-Spark Series，则不应使用其他参数。
index：索引或类似数组: 用于结果帧的索引。如果输入数据没有索引信息部分且未提供索引，则默认为RangeIndex
columns：索引或类似数组: 用于生成框架的列标签。如果未提供列标签，则默认为 RangeIndex (0, 1, 2, …, n)
dtype：dtype，默认无: 要强制的数据类型。只允许使用一个 dtype。如果没有，推断
copy：布尔值，默认为 False: 从输入复制数据。仅影响 DataFrame /2d ndarray 输入

例子：

从字典构造DataFrame。

>>> d = {'col1': [1, 2], 'col2': [3, 4]}
>>> df = ps.DataFrame(data=d, columns=['col1', 'col2'])
>>> df
   col1  col2
0     1     3
1     2     4

从 pandas DataFrame 构建 DataFrame

>>> df = ps.DataFrame(pd.DataFrame(data=d, columns=['col1', 'col2']))
>>> df
   col1  col2
0     1     3
1     2     4

请注意，推断的 dtype 是 int64。

>>> df.dtypes
col1    int64
col2    int64
dtype: object

要强制执行单个 dtype：

>>> df = ps.DataFrame(data=d, dtype=np.int8)
>>> df.dtypes
col1    int8
col2    int8
dtype: object

从 numpy ndarray 构造DataFrame：

>>> df2 = ps.DataFrame(np.random.randint(low=0, high=10, size=(5, 5)),
...                    columns=['a', 'b', 'c', 'd', 'e'])
>>> df2  
   a  b  c  d  e
0  3  1  4  9  8
1  4  8  4  8  4
2  7  6  5  6  7
3  8  7  9  1  0
4  2  5  4  3  9

相关用法

注：本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。