用法:
dask.dataframe.from_pandas(data, npartitions=None, chunksize=None, sort=True, name=None)
從 Pandas DataFrame 構造 Dask DataFrame
這會將in-memory Pandas 數據幀分成幾個部分,並從 Dask.dataframe 可以並行操作的那些部分構造一個 dask.dataframe。默認情況下,輸入數據幀將按索引排序以生成cleanly-divided 分區(具有已知分區)。要保留輸入順序,請確保輸入索引為monotonically-increasing。
sort=False
選項也將避免重新排序,但不會導致已知的除法。請注意,盡管具有並行性,但 Dask.dataframe 可能並不總是比 Pandas 快。我們建議您在切換到 Dask.dataframe 之前盡可能長時間地使用 Pandas。
- data:pandas.DataFrame 或 pandas.Series
用於構建 Dask DataFrame/Series 的 DataFrame/Series
- npartitions:整數,可選
要創建的索引的分區數。請注意,根據數據幀的大小和索引,輸出的分區可能少於請求的分區。
- chunksize:整數,可選
要使用的每個索引分區的行數。
- sort: bool:
首先按索引對輸入進行排序以獲得幹淨劃分的分區(具有已知的劃分)。如果為 False,則不會對輸入進行排序,並且所有分區都將設置為 None。默認為真。
- name: string, optional:
DataFrame 的可選鍵名。默認散列輸入
- dask.DataFrame 或 dask.Series
沿索引分區的 dask DataFrame/Series
- TypeError
如果傳入
pandas.DataFrame
或pandas.Series
以外的其他內容。
參數:
返回:
拋出:
例子:
>>> from dask.dataframe import from_pandas >>> df = pd.DataFrame(dict(a=list('aabbcc'), b=list(range(6))), ... index=pd.date_range(start='20100101', periods=6)) >>> ddf = from_pandas(df, npartitions=3) >>> ddf.divisions (Timestamp('2010-01-01 00:00:00', freq='D'), Timestamp('2010-01-03 00:00:00', freq='D'), Timestamp('2010-01-05 00:00:00', freq='D'), Timestamp('2010-01-06 00:00:00', freq='D')) >>> ddf = from_pandas(df.a, npartitions=3) # Works with Series too! >>> ddf.divisions (Timestamp('2010-01-01 00:00:00', freq='D'), Timestamp('2010-01-03 00:00:00', freq='D'), Timestamp('2010-01-05 00:00:00', freq='D'), Timestamp('2010-01-06 00:00:00', freq='D'))
相關用法
- Python dask.dataframe.from_dask_array用法及代碼示例
- Python dask.dataframe.Series.apply用法及代碼示例
- Python dask.dataframe.to_records用法及代碼示例
- Python dask.dataframe.DataFrame.applymap用法及代碼示例
- Python dask.dataframe.Series.clip用法及代碼示例
- Python dask.dataframe.Series.prod用法及代碼示例
- Python dask.dataframe.Series.fillna用法及代碼示例
- Python dask.dataframe.DataFrame.sub用法及代碼示例
- Python dask.dataframe.compute用法及代碼示例
- Python dask.dataframe.DataFrame.mod用法及代碼示例
- Python dask.dataframe.Series.to_frame用法及代碼示例
- Python dask.dataframe.read_table用法及代碼示例
- Python dask.dataframe.read_hdf用法及代碼示例
- Python dask.dataframe.Series.sum用法及代碼示例
- Python dask.dataframe.Series.dropna用法及代碼示例
- Python dask.dataframe.DataFrame.cummin用法及代碼示例
- Python dask.dataframe.Series.gt用法及代碼示例
- Python dask.dataframe.Series.ge用法及代碼示例
- Python dask.dataframe.Series.repartition用法及代碼示例
- Python dask.dataframe.Series.mod用法及代碼示例
注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.dataframe.from_pandas。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。