Python pandas.DataFrame.to_parquet用法及代码示例

用法:
DataFrame.to_parquet(path=None, engine='auto', compression='snappy', index=None, partition_cols=None, storage_options=None, **kwargs)

将 DataFrame 写入二进制拼花格式。

此函数将数据帧写入 parquet 文件。您可以选择不同的镶木 floor 后端，并可以选择压缩。有关详细信息，请参阅用户指南。

参数：

path：str，路径对象，file-like 对象，或无，默认无

字符串、路径对象(实现 os.PathLike[str] )或 file-like 对象实现二进制 write() 函数。如果为 None，则结果以字节形式返回。如果是字符串或路径，它将在写入分区数据集时用作根目录路径。

以前这是“fname”

engine：{‘auto’, ‘pyarrow’, ‘fastparquet’}，默认 ‘auto’

要使用的 Parquet 库。如果‘auto’，则使用选项io.parquet.engine。默认的 io.parquet.engine 行为是尝试 ‘pyarrow’，如果 ‘pyarrow’ 不可用，则回退到 ‘fastparquet’。

compression：{‘snappy’, ‘gzip’, ‘brotli’, 无}，默认 ‘snappy’

要使用的压缩名称。使用None 不进行压缩。

index：布尔值，默认无

如果 True ，在文件输出中包含数据帧的索引。如果 False ，它们将不会被写入文件。如果 None ，类似于 True 数据帧的索引将被保存。但是，RangeIndex 不会保存为值，而是作为范围存储在元数据中，因此它不需要太多空间并且速度更快。其他索引将作为列包含在文件输出中。

partition_cols：列表，可选，默认无

用于划分数据集的列名。列按照给定的顺序进行分区。如果 path 不是字符串，则必须为 None。

storage_options：字典，可选

对特定存储连接有意义的额外选项，例如主机、端口、用户名、密码等。对于 HTTP(S) URL，键值对作为标头选项转发到 urllib。对于其他 URL(例如以 “s3://” 和 “gcs://” 开头)，键值对被转发到 fsspec 。有关详细信息，请参阅fsspec 和urllib。

**kwargs：

传递给 parquet 库的附加参数。有关更多详细信息，请参阅 pandas io。

如果没有提供路径参数，则为字节，否则无

注意：

此函数需要 fastparquet 或 pyarrow 库。

例子：

>>> df = pd.DataFrame(data={'col1':[1, 2], 'col2':[3, 4]})
>>> df.to_parquet('df.parquet.gzip',
...               compression='gzip')  
>>> pd.read_parquet('df.parquet.gzip')  
   col1  col2
0     1     3
1     2     4

如果你想获得 parquet 内容的缓冲区，你可以使用 io.BytesIO 对象，只要你不使用 partition_cols，它会创建多个文件。

>>> import io
>>> f = io.BytesIO()
>>> df.to_parquet(f)
>>> f.seek(0)
0
>>> content = f.read()

相关用法

注：本文由纯净天空筛选整理自pandas.pydata.org大神的英文原创作品 pandas.DataFrame.to_parquet。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

注意：

例子：