Python pandas.DataFrame.to_parquet用法及代碼示例

用法:
DataFrame.to_parquet(path=None, engine='auto', compression='snappy', index=None, partition_cols=None, storage_options=None, **kwargs)

將 DataFrame 寫入二進製拚花格式。

此函數將數據幀寫入 parquet 文件。您可以選擇不同的鑲木 floor 後端，並可以選擇壓縮。有關詳細信息，請參閱用戶指南。

參數：

path：str，路徑對象，file-like 對象，或無，默認無

字符串、路徑對象(實現 os.PathLike[str] )或 file-like 對象實現二進製 write() 函數。如果為 None，則結果以字節形式返回。如果是字符串或路徑，它將在寫入分區數據集時用作根目錄路徑。

以前這是“fname”

engine：{‘auto’, ‘pyarrow’, ‘fastparquet’}，默認 ‘auto’

要使用的 Parquet 庫。如果‘auto’，則使用選項io.parquet.engine。默認的 io.parquet.engine 行為是嘗試 ‘pyarrow’，如果 ‘pyarrow’ 不可用，則回退到 ‘fastparquet’。

compression：{‘snappy’, ‘gzip’, ‘brotli’, 無}，默認 ‘snappy’

要使用的壓縮名稱。使用None 不進行壓縮。

index：布爾值，默認無

如果 True ，在文件輸出中包含數據幀的索引。如果 False ，它們將不會被寫入文件。如果 None ，類似於 True 數據幀的索引將被保存。但是，RangeIndex 不會保存為值，而是作為範圍存儲在元數據中，因此它不需要太多空間並且速度更快。其他索引將作為列包含在文件輸出中。

partition_cols：列表，可選，默認無

用於劃分數據集的列名。列按照給定的順序進行分區。如果 path 不是字符串，則必須為 None。

storage_options：字典，可選

對特定存儲連接有意義的額外選項，例如主機、端口、用戶名、密碼等。對於 HTTP(S) URL，鍵值對作為標頭選項轉發到 urllib。對於其他 URL(例如以 “s3://” 和 “gcs://” 開頭)，鍵值對被轉發到 fsspec 。有關詳細信息，請參閱fsspec 和urllib。

**kwargs：

傳遞給 parquet 庫的附加參數。有關更多詳細信息，請參閱 pandas io。

如果沒有提供路徑參數，則為字節，否則無

注意：

此函數需要 fastparquet 或 pyarrow 庫。

例子：

>>> df = pd.DataFrame(data={'col1':[1, 2], 'col2':[3, 4]})
>>> df.to_parquet('df.parquet.gzip',
...               compression='gzip')  
>>> pd.read_parquet('df.parquet.gzip')  
   col1  col2
0     1     3
1     2     4

如果你想獲得 parquet 內容的緩衝區，你可以使用 io.BytesIO 對象，隻要你不使用 partition_cols，它會創建多個文件。

>>> import io
>>> f = io.BytesIO()
>>> df.to_parquet(f)
>>> f.seek(0)
0
>>> content = f.read()

相關用法

注：本文由純淨天空篩選整理自pandas.pydata.org大神的英文原創作品 pandas.DataFrame.to_parquet。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

注意：

例子：