本文简要介绍
pyspark.pandas.DataFrame
的用法。用法:
class pyspark.pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
pandas-on-Spark DataFrame 逻辑上对应 pandas DataFrame。这在内部保存了 Spark DataFrame。
_internal - 用于管理元数据的内部不可变帧。
- data:numpy ndarray(结构化或同类)、dict、pandas DataFrame、Spark DataFrame 或 pandas-on-Spark 系列
字典可以包含系列、数组、常量或类似列表的对象。如果数据是字典,则 Python 3.6 及更高版本将保留参数顺序。请注意,如果
data
是 pandas DataFrame、Spark DataFrame 和 pandas-on-Spark Series,则不应使用其他参数。- index:索引或类似数组
用于结果帧的索引。如果输入数据没有索引信息部分且未提供索引,则默认为RangeIndex
- columns:索引或类似数组
用于生成框架的列标签。如果未提供列标签,则默认为 RangeIndex (0, 1, 2, …, n)
- dtype:dtype,默认无
要强制的数据类型。只允许使用一个 dtype。如果没有,推断
- copy:布尔值,默认为 False
从输入复制数据。仅影响 DataFrame /2d ndarray 输入
变量:
参数:
例子:
从字典构造DataFrame。
>>> d = {'col1': [1, 2], 'col2': [3, 4]} >>> df = ps.DataFrame(data=d, columns=['col1', 'col2']) >>> df col1 col2 0 1 3 1 2 4
从 pandas DataFrame 构建 DataFrame
>>> df = ps.DataFrame(pd.DataFrame(data=d, columns=['col1', 'col2'])) >>> df col1 col2 0 1 3 1 2 4
请注意,推断的 dtype 是 int64。
>>> df.dtypes col1 int64 col2 int64 dtype: object
要强制执行单个 dtype:
>>> df = ps.DataFrame(data=d, dtype=np.int8) >>> df.dtypes col1 int8 col2 int8 dtype: object
从 numpy ndarray 构造DataFrame:
>>> df2 = ps.DataFrame(np.random.randint(low=0, high=10, size=(5, 5)), ... columns=['a', 'b', 'c', 'd', 'e']) >>> df2 a b c d e 0 3 1 4 9 8 1 4 8 4 8 4 2 7 6 5 6 7 3 8 7 9 1 0 4 2 5 4 3 9
相关用法
- Python pyspark DataFrame.to_latex用法及代码示例
- Python pyspark DataFrame.align用法及代码示例
- Python pyspark DataFrame.plot.bar用法及代码示例
- Python pyspark DataFrame.to_delta用法及代码示例
- Python pyspark DataFrame.quantile用法及代码示例
- Python pyspark DataFrameWriter.partitionBy用法及代码示例
- Python pyspark DataFrame.cumsum用法及代码示例
- Python pyspark DataFrame.iloc用法及代码示例
- Python pyspark DataFrame.dropDuplicates用法及代码示例
- Python pyspark DataFrame.printSchema用法及代码示例
- Python pyspark DataFrame.to_table用法及代码示例
- Python pyspark DataFrame.rmod用法及代码示例
- Python pyspark DataFrame.div用法及代码示例
- Python pyspark DataFrame.drop_duplicates用法及代码示例
- Python pyspark DataFrame.to_pandas用法及代码示例
- Python pyspark DataFrame.sum用法及代码示例
- Python pyspark DataFrame.transform用法及代码示例
- Python pyspark DataFrame.get用法及代码示例
- Python pyspark DataFrame.rsub用法及代码示例
- Python pyspark DataFrame.pandas_on_spark.apply_batch用法及代码示例
- Python pyspark DataFrameWriter.bucketBy用法及代码示例
- Python pyspark DataFrame.groupBy用法及代码示例
- Python pyspark DataFrame.head用法及代码示例
- Python pyspark DataFrame.copy用法及代码示例
- Python pyspark DataFrame.values用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。