當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python dask.bag.Bag.to_dataframe用法及代碼示例


用法:

Bag.to_dataframe(meta=None, columns=None, optimize_graph=True)

從 Dask Bag 創建 Dask Dataframe。

Bag 應該包含元組、字典記錄或標量。

索引不會特別有意義。如有必要,之後使用reindex

參數

metapd.DataFrame,dict,可迭代,可選

與輸出的 dtypes 和列名匹配的空 pd.DataFrame。此元數據對於 dask 數據幀中的許多算法起作用是必需的。為了便於使用,還提供了一些替代輸入。代替 DataFrame ,可以提供 {name: dtype}dict(name, dtype) 的迭代器。如果未提供或未提供列表,則將計算來自第一個分區的單個元素,從而觸發對 compute 的潛在昂貴調用。這可能會導致意外結果,因此建議提供meta。有關詳細信息,請參閱 dask.dataframe.utils.make_meta

columns順序,可選

要使用的列名。如果傳遞的數據沒有與之關聯的名稱,則此參數提供列的名稱。否則,此參數指示結果中列的順序(數據中未找到的任何名稱都將變為all-NA 列)。請注意,如果提供了meta,則將從那裏獲取列名,並且此參數無效。

optimize_graph布爾型,可選

如果為 True [默認],則在轉換為 dask.dataframe.DataFrame 之前對圖形進行優化。

例子

>>> import dask.bag as db
>>> b = db.from_sequence([{'name': 'Alice',   'balance': 100},
...                       {'name': 'Bob',     'balance': 200},
...                       {'name': 'Charlie', 'balance': 300}],
...                      npartitions=2)
>>> df = b.to_dataframe()
>>> df.compute()
      name  balance
0    Alice      100
1      Bob      200
0  Charlie      300

相關用法


注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.bag.Bag.to_dataframe。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。