用法:
Bag.to_dataframe(meta=None, columns=None, optimize_graph=True)
从 Dask Bag 创建 Dask Dataframe。
Bag 应该包含元组、字典记录或标量。
索引不会特别有意义。如有必要,之后使用
reindex
。- meta:pd.DataFrame,dict,可迭代,可选
与输出的 dtypes 和列名匹配的空
pd.DataFrame
。此元数据对于 dask 数据帧中的许多算法起作用是必需的。为了便于使用,还提供了一些替代输入。代替DataFrame
,可以提供{name: dtype}
的dict
或(name, dtype)
的迭代器。如果未提供或未提供列表,则将计算来自第一个分区的单个元素,从而触发对compute
的潜在昂贵调用。这可能会导致意外结果,因此建议提供meta
。有关详细信息,请参阅dask.dataframe.utils.make_meta
。- columns:顺序,可选
要使用的列名。如果传递的数据没有与之关联的名称,则此参数提供列的名称。否则,此参数指示结果中列的顺序(数据中未找到的任何名称都将变为all-NA 列)。请注意,如果提供了
meta
,则将从那里获取列名,并且此参数无效。- optimize_graph:布尔型,可选
如果为 True [默认],则在转换为
dask.dataframe.DataFrame
之前对图形进行优化。
参数:
例子:
>>> import dask.bag as db >>> b = db.from_sequence([{'name': 'Alice', 'balance': 100}, ... {'name': 'Bob', 'balance': 200}, ... {'name': 'Charlie', 'balance': 300}], ... npartitions=2) >>> df = b.to_dataframe()
>>> df.compute() name balance 0 Alice 100 1 Bob 200 0 Charlie 300
相关用法
- Python dask.bag.Bag.to_textfiles用法及代码示例
- Python dask.bag.Bag.to_avro用法及代码示例
- Python dask.bag.Bag.topk用法及代码示例
- Python dask.bag.Bag.frequencies用法及代码示例
- Python dask.bag.Bag.repartition用法及代码示例
- Python dask.bag.Bag.join用法及代码示例
- Python dask.bag.Bag.accumulate用法及代码示例
- Python dask.bag.Bag.fold用法及代码示例
- Python dask.bag.Bag.map_partitions用法及代码示例
- Python dask.bag.Bag.groupby用法及代码示例
- Python dask.bag.Bag.reduction用法及代码示例
- Python dask.bag.Bag.foldby用法及代码示例
- Python dask.bag.Bag.flatten用法及代码示例
- Python dask.bag.Bag.remove用法及代码示例
- Python dask.bag.Bag.random_sample用法及代码示例
- Python dask.bag.Bag.distinct用法及代码示例
- Python dask.bag.Bag.any用法及代码示例
- Python dask.bag.Bag.pluck用法及代码示例
- Python dask.bag.Bag.filter用法及代码示例
- Python dask.bag.Bag.map用法及代码示例
注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.bag.Bag.to_dataframe。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。