當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python cudf.core.column.string.StringMethods.ngrams_tokenize用法及代碼示例


用法:

StringMethods.ngrams_tokenize(n: int = 2, delimiter: str = ' ', separator: str = '_') → SeriesOrIndex

使用每個字符串中的標記生成n-grams。這將對每個字符串進行標記,然後為每個字符串生成 ngram。

參數

n整數,默認 2。

n-gram 的度數(連續標記的數量)。

delimiterstr,默認為空格。

用於定位每個字符串的分割點的字符。

sepstr,默認為‘_’。

n-gram 中的標記之間使用的分隔符。

返回

對象的係列或索引。

例子

>>> import cudf
>>> ser = cudf.Series(['this is the', 'best book'])
>>> ser.str.ngrams_tokenize(n=2, sep='_')
0      this_is
1       is_the
2    best_book
dtype: object

相關用法


注:本文由純淨天空篩選整理自rapids.ai大神的英文原創作品 cudf.core.column.string.StringMethods.ngrams_tokenize。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。