当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python dask.bag.Bag.to_dataframe用法及代码示例


用法:

Bag.to_dataframe(meta=None, columns=None, optimize_graph=True)

从 Dask Bag 创建 Dask Dataframe。

Bag 应该包含元组、字典记录或标量。

索引不会特别有意义。如有必要,之后使用reindex

参数

metapd.DataFrame,dict,可迭代,可选

与输出的 dtypes 和列名匹配的空 pd.DataFrame。此元数据对于 dask 数据帧中的许多算法起作用是必需的。为了便于使用,还提供了一些替代输入。代替 DataFrame ,可以提供 {name: dtype}dict(name, dtype) 的迭代器。如果未提供或未提供列表,则将计算来自第一个分区的单个元素,从而触发对 compute 的潜在昂贵调用。这可能会导致意外结果,因此建议提供meta。有关详细信息,请参阅 dask.dataframe.utils.make_meta

columns顺序,可选

要使用的列名。如果传递的数据没有与之关联的名称,则此参数提供列的名称。否则,此参数指示结果中列的顺序(数据中未找到的任何名称都将变为all-NA 列)。请注意,如果提供了meta,则将从那里获取列名,并且此参数无效。

optimize_graph布尔型,可选

如果为 True [默认],则在转换为 dask.dataframe.DataFrame 之前对图形进行优化。

例子

>>> import dask.bag as db
>>> b = db.from_sequence([{'name': 'Alice',   'balance': 100},
...                       {'name': 'Bob',     'balance': 200},
...                       {'name': 'Charlie', 'balance': 300}],
...                      npartitions=2)
>>> df = b.to_dataframe()
>>> df.compute()
      name  balance
0    Alice      100
1      Bob      200
0  Charlie      300

相关用法


注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.bag.Bag.to_dataframe。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。