Python cudf.core.column.string.StringMethods.normalize_characters用法及代碼示例

用法: StringMethods.normalize_characters(do_lower: bool = True) → SeriesOrIndex

規範化字符串字符以進行標記化。

這使用 subword_tokenize 函數中內置的規範化器，其中包括：

在標點符號周圍添加填充(unicode 類別以 “P” 開頭)以及某些 ASCII 符號，如 “^” 和 “$”
在 CJK Unicode 塊字符周圍添加填充
將空格(例如 \t , \n , \r )更改為空格
刪除控製字符(unicode 類別 “Cc” 和 “Cf”)

如果 do_lower_case = true ， lower-casing 也會刪除重音符號。如果沒有lower-casing，則無法從大寫字符中刪除重音，如果不刪除重音，則無法執行lower-casing。但是，如果重音字符已經是小寫，則隻刪除重音。

參數：

do_lower：布爾值，默認為真: 如果設置為 True，字符將為 lower-cased，並且重音符號將被刪除。如果為 False，則不轉換重音字符和大寫字符。

對象的係列或索引。

例子：

>>> import cudf
>>> ser = cudf.Series(["héllo, \tworld","&Abreve;&Cacute;C&Edot;ÑTED","$99"])
>>> ser.str.normalize_characters()
0    hello ,  world
1          accented
2              $ 99
dtype: object
>>> ser.str.normalize_characters(do_lower=False)
0    héllo ,  world
1          &Abreve;&Cacute;C&Edot;ÑTED
2              $ 99
dtype: object

相關用法

注：本文由純淨天空篩選整理自rapids.ai大神的英文原創作品 cudf.core.column.string.StringMethods.normalize_characters。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

例子：