当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python cudf.core.column.string.StringMethods.ngrams用法及代码示例


用法:

StringMethods.ngrams(n: int = 2, separator: str = '_') → SeriesOrIndex

从一组标记生成n-grams,系列中的每条记录都被视为一个标记。

您可以使用 Series.str.tokenize() 函数从 Series 实例生成令牌。

参数

nint

n-gram 的度数(连续标记的数量)。对于二元组,默认值为 2。

separatorstr

在n-gram 之间使用的分隔符。默认为‘_’。

例子

>>> import cudf
>>> str_series = cudf.Series(['this is my', 'favorite book'])
>>> str_series = cudf.Series(['this is my', 'favorite book'])
>>> str_series.str.ngrams(2, "_")
0    this is my_favorite book
dtype: object
>>> str_series = cudf.Series(['abc','def','xyz','hhh'])
>>> str_series.str.ngrams(2, "_")
0    abc_def
1    def_xyz
2    xyz_hhh
dtype: object

相关用法


注:本文由纯净天空筛选整理自rapids.ai大神的英文原创作品 cudf.core.column.string.StringMethods.ngrams。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。