当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python cudf.core.column.string.StringMethods.normalize_characters用法及代码示例


用法:

StringMethods.normalize_characters(do_lower: bool = True) → SeriesOrIndex

规范化字符串字符以进行标记化。

这使用 subword_tokenize 函数中内置的规范化器,其中包括:

  • 在标点符号周围添加填充(unicode 类别以 “P” 开头)以及某些 ASCII 符号,如 “^” 和 “$”

  • 在 CJK Unicode 块字符周围添加填充

  • 将空格(例如 \t , \n , \r )更改为空格

  • 删除控制字符(unicode 类别 “Cc” 和 “Cf”)

如果 do_lower_case = true , lower-casing 也会删除重音符号。如果没有lower-casing,则无法从大写字符中删除重音,如果不删除重音,则无法执行lower-casing。但是,如果重音字符已经是小写,则只删除重音。

参数

do_lower布尔值,默认为真

如果设置为 True,字符将为 lower-cased,并且重音符号将被删除。如果为 False,则不转换重音字符和大写字符。

返回

对象的系列或索引。

例子

>>> import cudf
>>> ser = cudf.Series(["héllo, \tworld","ĂĆCĖÑTED","$99"])
>>> ser.str.normalize_characters()
0    hello ,  world
1          accented
2              $ 99
dtype: object
>>> ser.str.normalize_characters(do_lower=False)
0    héllo ,  world
1          ĂĆCĖÑTED
2              $ 99
dtype: object

相关用法


注:本文由纯净天空筛选整理自rapids.ai大神的英文原创作品 cudf.core.column.string.StringMethods.normalize_characters。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。