Python cudf.core.column.string.StringMethods.normalize_characters用法及代码示例

用法: StringMethods.normalize_characters(do_lower: bool = True) → SeriesOrIndex

规范化字符串字符以进行标记化。

这使用 subword_tokenize 函数中内置的规范化器，其中包括：

在标点符号周围添加填充(unicode 类别以 “P” 开头)以及某些 ASCII 符号，如 “^” 和 “$”
在 CJK Unicode 块字符周围添加填充
将空格(例如 \t , \n , \r )更改为空格
删除控制字符(unicode 类别 “Cc” 和 “Cf”)

如果 do_lower_case = true ， lower-casing 也会删除重音符号。如果没有lower-casing，则无法从大写字符中删除重音，如果不删除重音，则无法执行lower-casing。但是，如果重音字符已经是小写，则只删除重音。

参数：

do_lower：布尔值，默认为真: 如果设置为 True，字符将为 lower-cased，并且重音符号将被删除。如果为 False，则不转换重音字符和大写字符。

对象的系列或索引。

例子：

>>> import cudf
>>> ser = cudf.Series(["héllo, \tworld","&Abreve;&Cacute;C&Edot;ÑTED","$99"])
>>> ser.str.normalize_characters()
0    hello ,  world
1          accented
2              $ 99
dtype: object
>>> ser.str.normalize_characters(do_lower=False)
0    héllo ,  world
1          &Abreve;&Cacute;C&Edot;ÑTED
2              $ 99
dtype: object

相关用法

注：本文由纯净天空筛选整理自rapids.ai大神的英文原创作品 cudf.core.column.string.StringMethods.normalize_characters。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。

用法:

参数：

返回：

例子：