pyspark.pandas.read_html
的用法。用法:
pyspark.pandas.read_html(io: Union[str, Any], match: str = '.+', flavor: Optional[str] = None, header: Union[int, List[int], None] = None, index_col: Union[int, List[int], None] = None, skiprows: Union[int, List[int], slice, None] = None, attrs: Optional[Dict[str, str]] = None, parse_dates: bool = False, thousands: str = ',', encoding: Optional[str] = None, decimal: str = '.', converters: Optional[Dict] = None, na_values: Optional[Any] = None, keep_default_na: bool = True, displayed_only: bool = True) → List[pyspark.pandas.frame.DataFrame]
将 HTML 表读入
DataFrame
对象的list
。- io:str 或 file-like
URL、file-like 对象或包含 HTML 的原始字符串。请注意,lxml 只接受 http、ftp 和文件 url 协议。如果您有一个以
'https'
开头的 URL,您可以尝试删除's'
。- match:str 或编译的正则表达式,可选
将返回包含与此正则表达式或字符串匹配的文本的表集。除非 HTML 非常简单,否则您可能需要在此处传递一个非空字符串。默认为“.+”(匹配任何非空字符串)。默认值将返回页面中包含的所有表。此值被转换为正则表达式,以便 Beautiful Soup 和 lxml 之间的行为一致。
- flavor:str 或 None,字符串的容器
要使用的解析引擎。 ‘bs4’ 和 ‘html5lib’ 是同义词,它们都是为了向后兼容。
None
的默认值尝试使用lxml
进行解析,如果失败,则返回bs4
+html5lib
。- header:int 或 list-like 或无,可选
用于制作列标题的行(或
MultiIndex
的行列表)。- index_col:int 或 list-like 或无,可选
用于创建索引的列(或列列表)。
- skiprows:int 或 list-like 或切片或无,可选
基于 0。解析列整数后要跳过的行数。如果给定整数序列或切片,将跳过由该序列索引的行。请注意,单个元素序列表示“跳过第 n 行”,而整数表示“跳过 n 行”。
- attrs:dict 或 None,可选
这是一个属性字典,您可以通过它来识别 HTML 中的表格。在传递给 lxml 或 Beautiful Soup 之前,不会检查它们的有效性。但是,这些属性必须是有效的 HTML 表格属性才能正常工作。例如,
attrs = {'id': 'table'}
是一个有效的属性字典,因为 ‘id’ HTML 标签属性是一个有效的 HTML 属性任何HTML标签按照这个文件.
attrs = {'asdf': 'table'}
是不是一个有效的属性字典,因为 ‘asdf’ 不是一个有效的 HTML 属性,即使它是一个有效的 XML 属性。可以找到有效的 HTML 4.01 表格属性这里.可以找到 HTML 5 规范的工作草案这里.它包含有关现代 Web 表属性的最新信息。
- parse_dates:布尔型,可选
有关详细信息,请参阅
read_csv()
。- thousands:str,可选
用于解析数千的分隔符。默认为
','
。- encoding:str 或无,可选
用于解码网页的编码。默认为
None
。``None`` 保留先前的编码行为,这取决于底层解析器库(例如,解析器库将尝试使用文档提供的编码)。- decimal:str,默认“。”
识别为小数点的字符(例如:对欧洲数据使用“,”)。
- converters:字典,默认无
用于转换某些列中的值的函数的字典。键可以是整数或列标签,值是接受一个输入参数、单元格(不是列)内容并返回转换后的内容的函数。
- na_values:可迭代,默认无
自定义 NA 值
- keep_default_na:布尔值,默认为真
如果指定了 na_values 并且 keep_default_na 为 False,则默认的 NaN 值将被覆盖,否则它们将附加到
- displayed_only:布尔值,默认为真
是否应该解析带有“display: none”的元素
- dfs:DataFrames列表
参数:
返回:
相关用法
- Python pyspark read_json用法及代码示例
- Python pyspark read_parquet用法及代码示例
- Python pyspark read_spark_io用法及代码示例
- Python pyspark read_delta用法及代码示例
- Python pyspark read_orc用法及代码示例
- Python pyspark read_table用法及代码示例
- Python pyspark read_sql_query用法及代码示例
- Python pyspark read_excel用法及代码示例
- Python pyspark read_csv用法及代码示例
- Python pyspark read_sql_table用法及代码示例
- Python pyspark read_sql用法及代码示例
- Python pyspark reverse用法及代码示例
- Python pyspark register_index_accessor用法及代码示例
- Python pyspark register_series_accessor用法及代码示例
- Python pyspark regexp_extract用法及代码示例
- Python pyspark repeat用法及代码示例
- Python pyspark register_dataframe_accessor用法及代码示例
- Python pyspark regexp_replace用法及代码示例
- Python pyspark range用法及代码示例
- Python pyspark rand用法及代码示例
- Python pyspark rpad用法及代码示例
- Python pyspark round用法及代码示例
- Python pyspark randn用法及代码示例
- Python pyspark create_map用法及代码示例
- Python pyspark date_add用法及代码示例
注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.read_html。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。