當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python cudf.core.column.string.StringMethods.normalize_characters用法及代碼示例


用法:

StringMethods.normalize_characters(do_lower: bool = True) → SeriesOrIndex

規範化字符串字符以進行標記化。

這使用 subword_tokenize 函數中內置的規範化器,其中包括:

  • 在標點符號周圍添加填充(unicode 類別以 “P” 開頭)以及某些 ASCII 符號,如 “^” 和 “$”

  • 在 CJK Unicode 塊字符周圍添加填充

  • 將空格(例如 \t , \n , \r )更改為空格

  • 刪除控製字符(unicode 類別 “Cc” 和 “Cf”)

如果 do_lower_case = true , lower-casing 也會刪除重音符號。如果沒有lower-casing,則無法從大寫字符中刪除重音,如果不刪除重音,則無法執行lower-casing。但是,如果重音字符已經是小寫,則隻刪除重音。

參數

do_lower布爾值,默認為真

如果設置為 True,字符將為 lower-cased,並且重音符號將被刪除。如果為 False,則不轉換重音字符和大寫字符。

返回

對象的係列或索引。

例子

>>> import cudf
>>> ser = cudf.Series(["héllo, \tworld","ĂĆCĖÑTED","$99"])
>>> ser.str.normalize_characters()
0    hello ,  world
1          accented
2              $ 99
dtype: object
>>> ser.str.normalize_characters(do_lower=False)
0    héllo ,  world
1          ĂĆCĖÑTED
2              $ 99
dtype: object

相關用法


注:本文由純淨天空篩選整理自rapids.ai大神的英文原創作品 cudf.core.column.string.StringMethods.normalize_characters。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。