當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python dask.dataframe.from_pandas用法及代碼示例

用法:

dask.dataframe.from_pandas(data, npartitions=None, chunksize=None, sort=True, name=None)

從 Pandas DataFrame 構造 Dask DataFrame

這會將in-memory Pandas 數據幀分成幾個部分,並從 Dask.dataframe 可以並行操作的那些部分構造一個 dask.dataframe。默認情況下,輸入數據幀將按索引排序以生成cleanly-divided 分區(具有已知分區)。要保留輸入順序,請確保輸入索引為monotonically-increasing。 sort=False 選項也將避免重新排序,但不會導致已知的除法。

請注意,盡管具有並行性,但 Dask.dataframe 可能並不總是比 Pandas 快。我們建議您在切換到 Dask.dataframe 之前盡可能長時間地使用 Pandas。

參數

datapandas.DataFrame 或 pandas.Series

用於構建 Dask DataFrame/Series 的 DataFrame/Series

npartitions整數,可選

要創建的索引的分區數。請注意,根據數據幀的大小和索引,輸出的分區可能少於請求的分區。

chunksize整數,可選

要使用的每個索引分區的行數。

sort: bool

首先按索引對輸入進行排序以獲得幹淨劃分的分區(具有已知的劃分)。如果為 False,則不會對輸入進行排序,並且所有分區都將設置為 None。默認為真。

name: string, optional

DataFrame 的可選鍵名。默認散列輸入

返回

dask.DataFrame 或 dask.Series

沿索引分區的 dask DataFrame/Series

拋出

TypeError

如果傳入 pandas.DataFramepandas.Series 以外的其他內容。

例子

>>> from dask.dataframe import from_pandas
>>> df = pd.DataFrame(dict(a=list('aabbcc'), b=list(range(6))),
...                   index=pd.date_range(start='20100101', periods=6))
>>> ddf = from_pandas(df, npartitions=3)
>>> ddf.divisions  
(Timestamp('2010-01-01 00:00:00', freq='D'),
 Timestamp('2010-01-03 00:00:00', freq='D'),
 Timestamp('2010-01-05 00:00:00', freq='D'),
 Timestamp('2010-01-06 00:00:00', freq='D'))
>>> ddf = from_pandas(df.a, npartitions=3)  # Works with Series too!
>>> ddf.divisions  
(Timestamp('2010-01-01 00:00:00', freq='D'),
 Timestamp('2010-01-03 00:00:00', freq='D'),
 Timestamp('2010-01-05 00:00:00', freq='D'),
 Timestamp('2010-01-06 00:00:00', freq='D'))

相關用法


注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.dataframe.from_pandas。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。