當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python cudf.get_dummies用法及代碼示例

用法:

cudf.get_dummies(df, prefix=None, prefix_sep='_', dummy_na=False, columns=None, cats=None, sparse=False, drop_first=False, dtype='uint8')

返回一個數據幀,其列是df中所有列的一個熱編碼

參數

dfarray-like、係列或數據幀

獲取虛擬指標的數據。

prefixstr、dict 或序列,可選

要附加的前綴。 str(應用常量前綴)、將列名映射到前綴的 dict 或要應用的前綴序列,其長度與列數相同。如果未提供,則默認為空字符串

prefix_sepstr, dict, or sequence,可選,默認 ‘_’

附加前綴時使用的分隔符

dummy_na布爾值,可選

如果忽略 False Nones,則添加一列以指示 Nones。

cats字典,可選

將列名映射到表示該列類別的值序列的字典。如果未提供,則將其計算為列的唯一值。

sparse布爾值,可選

現在這是急流中的非函數論點。

drop_first布爾值,可選

現在這是急流中的非函數論點。

columnsstr 序列,可選

要編碼的列的名稱。如果未提供,將嘗試對所有列進行編碼。請注意,這與 pandas 默認行為不同,後者使用 dtype object 或 categorical 對所有列進行編碼

dtypestr,可選

輸出數據類型,默認 ‘uint8’

例子

>>> import cudf
>>> df = cudf.DataFrame({"a": ["value1", "value2", None], "b": [0, 0, 0]})
>>> cudf.get_dummies(df)
   b  a_value1  a_value2
0  0         1         0
1  0         0         1
2  0         0         0
>>> cudf.get_dummies(df, dummy_na=True)
   b  a_None  a_value1  a_value2
0  0       0         1         0
1  0       0         0         1
2  0       1         0         0
>>> import numpy as np
>>> df = cudf.DataFrame({"a":cudf.Series([1, 2, np.nan, None],
...                     nan_as_null=False)})
>>> df
      a
0   1.0
1   2.0
2   NaN
3  <NA>
>>> cudf.get_dummies(df, dummy_na=True, columns=["a"])
   a_1.0  a_2.0  a_nan  a_null
0      1      0      0       0
1      0      1      0       0
2      0      0      1       0
3      0      0      0       1
>>> series = cudf.Series([1, 2, None, 2, 4])
>>> series
0       1
1       2
2    <NA>
3       2
4       4
dtype: int64
>>> cudf.get_dummies(series, dummy_na=True)
null  1  2  4
0     0  1  0  0
1     0  0  1  0
2     1  0  0  0
3     0  0  1  0
4     0  0  0  1

相關用法


注:本文由純淨天空篩選整理自rapids.ai大神的英文原創作品 cudf.get_dummies。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。