用法:
StringMethods.normalize_characters(do_lower: bool = True) → SeriesOrIndex
规范化字符串字符以进行标记化。
这使用 subword_tokenize 函数中内置的规范化器,其中包括:
在标点符号周围添加填充(unicode 类别以 “P” 开头)以及某些 ASCII 符号,如 “^” 和 “$”
在 CJK Unicode 块字符周围添加填充
将空格(例如
\t
,\n
,\r
)更改为空格删除控制字符(unicode 类别 “Cc” 和 “Cf”)
如果
do_lower_case = true
, lower-casing 也会删除重音符号。如果没有lower-casing,则无法从大写字符中删除重音,如果不删除重音,则无法执行lower-casing。但是,如果重音字符已经是小写,则只删除重音。- do_lower:布尔值,默认为真
如果设置为 True,字符将为 lower-cased,并且重音符号将被删除。如果为 False,则不转换重音字符和大写字符。
- 对象的系列或索引。
参数:
返回:
例子:
>>> import cudf >>> ser = cudf.Series(["héllo, \tworld","ĂĆCĖÑTED","$99"]) >>> ser.str.normalize_characters() 0 hello , world 1 accented 2 $ 99 dtype: object >>> ser.str.normalize_characters(do_lower=False) 0 héllo , world 1 ĂĆCĖÑTED 2 $ 99 dtype: object
相关用法
- Python cudf.core.column.string.StringMethods.normalize_spaces用法及代码示例
- Python cudf.core.column.string.StringMethods.ngrams用法及代码示例
- Python cudf.core.column.string.StringMethods.ngrams_tokenize用法及代码示例
- Python cudf.core.column.string.StringMethods.is_vowel用法及代码示例
- Python cudf.core.column.string.StringMethods.endswith用法及代码示例
- Python cudf.core.column.string.StringMethods.title用法及代码示例
- Python cudf.core.column.string.StringMethods.contains用法及代码示例
- Python cudf.core.column.string.StringMethods.rsplit用法及代码示例
- Python cudf.core.column.string.StringMethods.zfill用法及代码示例
- Python cudf.core.column.string.StringMethods.hex_to_int用法及代码示例
- Python cudf.core.column.string.StringMethods.htoi用法及代码示例
- Python cudf.core.column.string.StringMethods.character_tokenize用法及代码示例
- Python cudf.core.column.string.StringMethods.filter_alphanum用法及代码示例
- Python cudf.core.column.string.StringMethods.split用法及代码示例
- Python cudf.core.column.string.StringMethods.replace_with_backrefs用法及代码示例
- Python cudf.core.column.string.StringMethods.insert用法及代码示例
- Python cudf.core.column.string.StringMethods.pad用法及代码示例
- Python cudf.core.column.string.StringMethods.replace用法及代码示例
- Python cudf.core.column.string.StringMethods.rstrip用法及代码示例
- Python cudf.core.column.string.StringMethods.replace_tokens用法及代码示例
注:本文由纯净天空筛选整理自rapids.ai大神的英文原创作品 cudf.core.column.string.StringMethods.normalize_characters。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。