Python dask.dataframe.from_pandas用法及代碼示例

用法: dask.dataframe.from_pandas(data, npartitions=None, chunksize=None, sort=True, name=None)

從 Pandas DataFrame 構造 Dask DataFrame

這會將in-memory Pandas 數據幀分成幾個部分，並從 Dask.dataframe 可以並行操作的那些部分構造一個 dask.dataframe。默認情況下，輸入數據幀將按索引排序以生成cleanly-divided 分區(具有已知分區)。要保留輸入順序，請確保輸入索引為monotonically-increasing。 sort=False 選項也將避免重新排序，但不會導致已知的除法。

請注意，盡管具有並行性，但 Dask.dataframe 可能並不總是比 Pandas 快。我們建議您在切換到 Dask.dataframe 之前盡可能長時間地使用 Pandas。

參數：

data：pandas.DataFrame 或 pandas.Series: 用於構建 Dask DataFrame/Series 的 DataFrame/Series
npartitions：整數，可選: 要創建的索引的分區數。請注意，根據數據幀的大小和索引，輸出的分區可能少於請求的分區。
chunksize：整數，可選: 要使用的每個索引分區的行數。
sort: bool：: 首先按索引對輸入進行排序以獲得幹淨劃分的分區(具有已知的劃分)。如果為 False，則不會對輸入進行排序，並且所有分區都將設置為 None。默認為真。
name: string, optional：: DataFrame 的可選鍵名。默認散列輸入

dask.DataFrame 或 dask.Series: 沿索引分區的 dask DataFrame/Series

拋出：

TypeError: 如果傳入 pandas.DataFrame 或 pandas.Series 以外的其他內容。

例子：

>>> from dask.dataframe import from_pandas
>>> df = pd.DataFrame(dict(a=list('aabbcc'), b=list(range(6))),
...                   index=pd.date_range(start='20100101', periods=6))
>>> ddf = from_pandas(df, npartitions=3)
>>> ddf.divisions  
(Timestamp('2010-01-01 00:00:00', freq='D'),
 Timestamp('2010-01-03 00:00:00', freq='D'),
 Timestamp('2010-01-05 00:00:00', freq='D'),
 Timestamp('2010-01-06 00:00:00', freq='D'))
>>> ddf = from_pandas(df.a, npartitions=3)  # Works with Series too!
>>> ddf.divisions  
(Timestamp('2010-01-01 00:00:00', freq='D'),
 Timestamp('2010-01-03 00:00:00', freq='D'),
 Timestamp('2010-01-05 00:00:00', freq='D'),
 Timestamp('2010-01-06 00:00:00', freq='D'))

相關用法

注：本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.dataframe.from_pandas。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

拋出：

例子：