當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python pyspark to_avro用法及代碼示例

本文簡要介紹 pyspark.sql.avro.functions.to_avro 的用法。

用法:

pyspark.sql.avro.functions.to_avro(data, jsonFormatSchema='')

將列轉換為 avro 格式的二進製文件。

3.0.0 版中的新函數。

參數

data Column 或 str

數據列。

jsonFormatSchemastr,可選

用戶指定的 JSON 字符串格式的輸出 avro 模式。

注意

自 Spark 2.4 以來,Avro 是內置但外部的數據源模塊。請按照“Apache Avro 數據源指南”的部署部分部署應用程序。

例子

>>> from pyspark.sql import Row
>>> from pyspark.sql.avro.functions import to_avro
>>> data = ['SPADES']
>>> df = spark.createDataFrame(data, "string")
>>> df.select(to_avro(df.value).alias("suite")).collect()
[Row(suite=bytearray(b'\x00\x0cSPADES'))]
>>> jsonFormatSchema = '''["null", {"type": "enum", "name": "value",
...     "symbols": ["SPADES", "HEARTS", "DIAMONDS", "CLUBS"]}]'''
>>> df.select(to_avro(df.value, jsonFormatSchema).alias("suite")).collect()
[Row(suite=bytearray(b'\x02\x00'))]

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.sql.avro.functions.to_avro。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。