用法:
StringMethods.normalize_characters(do_lower: bool = True) → SeriesOrIndex
規範化字符串字符以進行標記化。
這使用 subword_tokenize 函數中內置的規範化器,其中包括:
在標點符號周圍添加填充(unicode 類別以 “P” 開頭)以及某些 ASCII 符號,如 “^” 和 “$”
在 CJK Unicode 塊字符周圍添加填充
將空格(例如
\t
,\n
,\r
)更改為空格刪除控製字符(unicode 類別 “Cc” 和 “Cf”)
如果
do_lower_case = true
, lower-casing 也會刪除重音符號。如果沒有lower-casing,則無法從大寫字符中刪除重音,如果不刪除重音,則無法執行lower-casing。但是,如果重音字符已經是小寫,則隻刪除重音。- do_lower:布爾值,默認為真
如果設置為 True,字符將為 lower-cased,並且重音符號將被刪除。如果為 False,則不轉換重音字符和大寫字符。
- 對象的係列或索引。
參數:
返回:
例子:
>>> import cudf >>> ser = cudf.Series(["héllo, \tworld","ĂĆCĖÑTED","$99"]) >>> ser.str.normalize_characters() 0 hello , world 1 accented 2 $ 99 dtype: object >>> ser.str.normalize_characters(do_lower=False) 0 héllo , world 1 ĂĆCĖÑTED 2 $ 99 dtype: object
相關用法
- Python cudf.core.column.string.StringMethods.normalize_spaces用法及代碼示例
- Python cudf.core.column.string.StringMethods.ngrams用法及代碼示例
- Python cudf.core.column.string.StringMethods.ngrams_tokenize用法及代碼示例
- Python cudf.core.column.string.StringMethods.is_vowel用法及代碼示例
- Python cudf.core.column.string.StringMethods.endswith用法及代碼示例
- Python cudf.core.column.string.StringMethods.title用法及代碼示例
- Python cudf.core.column.string.StringMethods.contains用法及代碼示例
- Python cudf.core.column.string.StringMethods.rsplit用法及代碼示例
- Python cudf.core.column.string.StringMethods.zfill用法及代碼示例
- Python cudf.core.column.string.StringMethods.hex_to_int用法及代碼示例
- Python cudf.core.column.string.StringMethods.htoi用法及代碼示例
- Python cudf.core.column.string.StringMethods.character_tokenize用法及代碼示例
- Python cudf.core.column.string.StringMethods.filter_alphanum用法及代碼示例
- Python cudf.core.column.string.StringMethods.split用法及代碼示例
- Python cudf.core.column.string.StringMethods.replace_with_backrefs用法及代碼示例
- Python cudf.core.column.string.StringMethods.insert用法及代碼示例
- Python cudf.core.column.string.StringMethods.pad用法及代碼示例
- Python cudf.core.column.string.StringMethods.replace用法及代碼示例
- Python cudf.core.column.string.StringMethods.rstrip用法及代碼示例
- Python cudf.core.column.string.StringMethods.replace_tokens用法及代碼示例
注:本文由純淨天空篩選整理自rapids.ai大神的英文原創作品 cudf.core.column.string.StringMethods.normalize_characters。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。