當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python pyspark DataFrame.info用法及代碼示例


本文簡要介紹 pyspark.pandas.DataFrame.info 的用法。

用法:

DataFrame.info(verbose: Optional[bool] = None, buf: Optional[IO[str]] = None, max_cols: Optional[int] = None, null_counts: Optional[bool] = None) → None

打印 DataFrame 的簡明摘要。

此方法打印有關 DataFrame 的信息,包括索引數據類型和列數據類型、非空值和內存使用情況。

參數

verbose布爾型,可選

是否打印完整的摘要。

buf可寫緩衝區,默認為sys.stdout

將輸出發送到哪裏。默認情況下,輸出打印到 sys.stdout。如果您需要進一步處理輸出,請傳遞一個可寫緩衝區。

max_cols整數,可選

何時從詳細輸出切換到截斷輸出。如果 DataFrame 的列數多於 max_cols 列,則使用截斷的輸出。

null_counts布爾型,可選

是否顯示非空計數。

返回

None

此方法打印 DataFrame 的摘要並返回 None。

例子

>>> int_values = [1, 2, 3, 4, 5]
>>> text_values = ['alpha', 'beta', 'gamma', 'delta', 'epsilon']
>>> float_values = [0.0, 0.25, 0.5, 0.75, 1.0]
>>> df = ps.DataFrame(
...     {"int_col": int_values, "text_col": text_values, "float_col": float_values},
...     columns=['int_col', 'text_col', 'float_col'])
>>> df
   int_col text_col  float_col
0        1    alpha       0.00
1        2     beta       0.25
2        3    gamma       0.50
3        4    delta       0.75
4        5  epsilon       1.00

打印所有列的信息:

>>> df.info(verbose=True)  
<class 'pyspark.pandas.frame.DataFrame'>
Index: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   int_col    5 non-null      int64
 1   text_col   5 non-null      object
 2   float_col  5 non-null      float64
dtypes: float64(1), int64(1), object(1)

打印列數及其 dtypes 的摘要,但不打印每列信息:

>>> df.info(verbose=False)  
<class 'pyspark.pandas.frame.DataFrame'>
Index: 5 entries, 0 to 4
Columns: 3 entries, int_col to float_col
dtypes: float64(1), int64(1), object(1)

將 DataFrame.info 的輸出通過管道傳輸到緩衝區而不是 sys.stdout,獲取緩衝區內容並寫入文本文件:

>>> import io
>>> buffer = io.StringIO()
>>> df.info(buf=buffer)
>>> s = buffer.getvalue()
>>> with open('%s/info.txt' % path, "w",
...           encoding="utf-8") as f:
...     _ = f.write(s)
>>> with open('%s/info.txt' % path) as f:
...     f.readlines()  
["<class 'pyspark.pandas.frame.DataFrame'>\n",
'Index: 5 entries, 0 to 4\n',
'Data columns (total 3 columns):\n',
' #   Column     Non-Null Count  Dtype  \n',
'---  ------     --------------  -----  \n',
' 0   int_col    5 non-null      int64  \n',
' 1   text_col   5 non-null      object \n',
' 2   float_col  5 non-null      float64\n',
'dtypes: float64(1), int64(1), object(1)']

相關用法


注:本文由純淨天空篩選整理自spark.apache.org大神的英文原創作品 pyspark.pandas.DataFrame.info。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。