本文整理汇总了Python中tokenizer.Tokenizer.get_n_gram_count方法的典型用法代码示例。如果您正苦于以下问题:Python Tokenizer.get_n_gram_count方法的具体用法?Python Tokenizer.get_n_gram_count怎么用?Python Tokenizer.get_n_gram_count使用的例子?那么恭喜您, 这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所在类tokenizer.Tokenizer
的用法示例。
在下文中一共展示了Tokenizer.get_n_gram_count方法的1个代码示例,这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞,您的评价将有助于系统推荐出更棒的Python代码示例。
示例1: add_tfidf
# 需要导入模块: from tokenizer import Tokenizer [as 别名]
# 或者: from tokenizer.Tokenizer import get_n_gram_count [as 别名]
def add_tfidf(self):
print 'calculating tfidf...'
token_tfidf = TFIDF('token')
bi_gram_tfidf = TFIDF('bi_gram')
texts = self.df['body']
# tfidf_df = pd.DataFrame(columns=token_tfidf.terms)
tfidf_df = pd.DataFrame(columns=token_tfidf.terms + bi_gram_tfidf.terms)
is_from_sql = ('_data_source' in self.df.columns)
token_dict = get_token_dict() if is_from_sql else None
count = 0
for i, text in enumerate(texts):
if i > 0 and i % 500 == 0:
print i, 'rows'
if text:
token_freqs = None
bi_gram_freqs = None
if is_from_sql:
sql_tbl_id, sql_id = self.df._data_source[i], self.df._id[i]
token_freqs, bi_gram_freqs = get_freqs(sql_tbl_id, sql_id, token_dict)
else:
tokenizer = Tokenizer(text)
token_freqs = tokenizer.get_token_count()
bi_gram_freqs = tokenizer.get_n_gram_count(2, True)
row = token_tfidf.get_tfidf(token_freqs) + bi_gram_tfidf.get_tfidf(bi_gram_freqs)
tfidf_df.loc[i] = row
# tfidf_df.loc[i] = token_tfidf.get_tfidf(token_freqs)
count = i+1
self.df = pd.concat([self.df, tfidf_df], axis=1)
print "tfidf'd", count, 'rows'