本文整理汇总了Python中corpus.Corpus.parse_xml方法的典型用法代码示例。如果您正苦于以下问题:Python Corpus.parse_xml方法的具体用法?Python Corpus.parse_xml怎么用?Python Corpus.parse_xml使用的例子?那么恭喜您, 这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所在类corpus.Corpus
的用法示例。
在下文中一共展示了Corpus.parse_xml方法的1个代码示例,这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞,您的评价将有助于系统推荐出更棒的Python代码示例。
示例1: recurse_dir
# 需要导入模块: from corpus import Corpus [as 别名]
# 或者: from corpus.Corpus import parse_xml [as 别名]
corpus = []
corpus_bigrams = []
corpus_trigrams = []
corpus_fourgrams = []
corpus_fivegrams = []
for doc in recurse_dir(r'./corpus', '*.txt'):
doc_file = open(doc, 'rb')
doc = doc_file.read()
doc_words = []
bi_grams = []
tri_grams = []
four_grams = []
five_grams = []
cor = Corpus(doc, doc_words, bi_grams, tri_grams, four_grams, five_grams)
cor.generate_location_vector(cor.parse_xml(), [0])
doc_count += 1
doc_word_count = len(doc_words)
doc_word_count_list.append(doc_word_count)
corpus_words.append(doc_words)
doc_bi_gram_count = len(bi_grams)
doc_bi_gram_count_list.append(doc_bi_gram_count)
corpus_bi_grams.append(bi_grams)
doc_tri_gram_count = len(tri_grams)
doc_tri_gram_count_list.append(doc_tri_gram_count)
corpus_tri_grams.append(tri_grams)
doc_four_gram_count = len(four_grams)