用法:
dask.dataframe.from_pandas(data, npartitions=None, chunksize=None, sort=True, name=None)
从 Pandas DataFrame 构造 Dask DataFrame
这会将in-memory Pandas 数据帧分成几个部分,并从 Dask.dataframe 可以并行操作的那些部分构造一个 dask.dataframe。默认情况下,输入数据帧将按索引排序以生成cleanly-divided 分区(具有已知分区)。要保留输入顺序,请确保输入索引为monotonically-increasing。
sort=False
选项也将避免重新排序,但不会导致已知的除法。请注意,尽管具有并行性,但 Dask.dataframe 可能并不总是比 Pandas 快。我们建议您在切换到 Dask.dataframe 之前尽可能长时间地使用 Pandas。
- data:pandas.DataFrame 或 pandas.Series
用于构建 Dask DataFrame/Series 的 DataFrame/Series
- npartitions:整数,可选
要创建的索引的分区数。请注意,根据数据帧的大小和索引,输出的分区可能少于请求的分区。
- chunksize:整数,可选
要使用的每个索引分区的行数。
- sort: bool:
首先按索引对输入进行排序以获得干净划分的分区(具有已知的划分)。如果为 False,则不会对输入进行排序,并且所有分区都将设置为 None。默认为真。
- name: string, optional:
DataFrame 的可选键名。默认散列输入
- dask.DataFrame 或 dask.Series
沿索引分区的 dask DataFrame/Series
- TypeError
如果传入
pandas.DataFrame
或pandas.Series
以外的其他内容。
参数:
返回:
抛出:
例子:
>>> from dask.dataframe import from_pandas >>> df = pd.DataFrame(dict(a=list('aabbcc'), b=list(range(6))), ... index=pd.date_range(start='20100101', periods=6)) >>> ddf = from_pandas(df, npartitions=3) >>> ddf.divisions (Timestamp('2010-01-01 00:00:00', freq='D'), Timestamp('2010-01-03 00:00:00', freq='D'), Timestamp('2010-01-05 00:00:00', freq='D'), Timestamp('2010-01-06 00:00:00', freq='D')) >>> ddf = from_pandas(df.a, npartitions=3) # Works with Series too! >>> ddf.divisions (Timestamp('2010-01-01 00:00:00', freq='D'), Timestamp('2010-01-03 00:00:00', freq='D'), Timestamp('2010-01-05 00:00:00', freq='D'), Timestamp('2010-01-06 00:00:00', freq='D'))
相关用法
- Python dask.dataframe.from_dask_array用法及代码示例
- Python dask.dataframe.Series.apply用法及代码示例
- Python dask.dataframe.to_records用法及代码示例
- Python dask.dataframe.DataFrame.applymap用法及代码示例
- Python dask.dataframe.Series.clip用法及代码示例
- Python dask.dataframe.Series.prod用法及代码示例
- Python dask.dataframe.Series.fillna用法及代码示例
- Python dask.dataframe.DataFrame.sub用法及代码示例
- Python dask.dataframe.compute用法及代码示例
- Python dask.dataframe.DataFrame.mod用法及代码示例
- Python dask.dataframe.Series.to_frame用法及代码示例
- Python dask.dataframe.read_table用法及代码示例
- Python dask.dataframe.read_hdf用法及代码示例
- Python dask.dataframe.Series.sum用法及代码示例
- Python dask.dataframe.Series.dropna用法及代码示例
- Python dask.dataframe.DataFrame.cummin用法及代码示例
- Python dask.dataframe.Series.gt用法及代码示例
- Python dask.dataframe.Series.ge用法及代码示例
- Python dask.dataframe.Series.repartition用法及代码示例
- Python dask.dataframe.Series.mod用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.from_pandas。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。