Python pyspark read_html用法及代碼示例

本文簡要介紹 pyspark.pandas.read_html 的用法。

用法: pyspark.pandas.read_html(io: Union[str, Any], match: str = '.+', flavor: Optional[str] = None, header: Union[int, List[int], None] = None, index_col: Union[int, List[int], None] = None, skiprows: Union[int, List[int], slice, None] = None, attrs: Optional[Dict[str, str]] = None, parse_dates: bool = False, thousands: str = ',', encoding: Optional[str] = None, decimal: str = '.', converters: Optional[Dict] = None, na_values: Optional[Any] = None, keep_default_na: bool = True, displayed_only: bool = True) → List[pyspark.pandas.frame.DataFrame]

將 HTML 表讀入 DataFrame 對象的 list。

參數：

io：str 或 file-like

URL、file-like 對象或包含 HTML 的原始字符串。請注意，lxml 隻接受 http、ftp 和文件 url 協議。如果您有一個以 'https' 開頭的 URL，您可以嘗試刪除 's' 。

match：str 或編譯的正則表達式，可選

將返回包含與此正則表達式或字符串匹配的文本的表集。除非 HTML 非常簡單，否則您可能需要在此處傳遞一個非空字符串。默認為“.+”(匹配任何非空字符串)。默認值將返回頁麵中包含的所有表。此值被轉換為正則表達式，以便 Beautiful Soup 和 lxml 之間的行為一致。

flavor：str 或 None，字符串的容器

要使用的解析引擎。 ‘bs4’ 和 ‘html5lib’ 是同義詞，它們都是為了向後兼容。 None 的默認值嘗試使用 lxml 進行解析，如果失敗，則返回 bs4 + html5lib 。

header：int 或 list-like 或無，可選

用於製作列標題的行(或 MultiIndex 的行列表)。

index_col：int 或 list-like 或無，可選

用於創建索引的列(或列列表)。

skiprows：int 或 list-like 或切片或無，可選

基於 0。解析列整數後要跳過的行數。如果給定整數序列或切片，將跳過由該序列索引的行。請注意，單個元素序列表示“跳過第 n 行”，而整數表示“跳過 n 行”。

attrs：dict 或 None，可選

這是一個屬性字典，您可以通過它來識別 HTML 中的表格。在傳遞給 lxml 或 Beautiful Soup 之前，不會檢查它們的有效性。但是，這些屬性必須是有效的 HTML 表格屬性才能正常工作。例如，

attrs = {'id': 'table'}

是一個有效的屬性字典，因為 ‘id’ HTML 標簽屬性是一個有效的 HTML 屬性任何HTML標簽按照這個文件.

attrs = {'asdf': 'table'}

是不是一個有效的屬性字典，因為 ‘asdf’ 不是一個有效的 HTML 屬性，即使它是一個有效的 XML 屬性。可以找到有效的 HTML 4.01 表格屬性這裏.可以找到 HTML 5 規範的工作草案這裏.它包含有關現代 Web 表屬性的最新信息。

parse_dates：布爾型，可選

有關詳細信息，請參閱read_csv()。

thousands：str，可選

用於解析數千的分隔符。默認為 ',' 。

encoding：str 或無，可選

用於解碼網頁的編碼。默認為 None 。``None`` 保留先前的編碼行為，這取決於底層解析器庫(例如，解析器庫將嘗試使用文檔提供的編碼)。

decimal：str，默認“。”

識別為小數點的字符(例如：對歐洲數據使用“,”)。

converters：字典，默認無

用於轉換某些列中的值的函數的字典。鍵可以是整數或列標簽，值是接受一個輸入參數、單元格(不是列)內容並返回轉換後的內容的函數。

na_values：可迭代，默認無

自定義 NA 值

keep_default_na：布爾值，默認為真

如果指定了 na_values 並且 keep_default_na 為 False，則默認的 NaN 值將被覆蓋，否則它們將附加到

displayed_only：布爾值，默認為真

是否應該解析帶有“display: none”的元素

dfs：DataFrames列表

相關用法

注：本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.read_html。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：