当前位置: 首页>>代码示例>>Python>>正文


Python Corpus.add_to_corpus方法代码示例

本文整理汇总了Python中corpus.Corpus.add_to_corpus方法的典型用法代码示例。如果您正苦于以下问题:Python Corpus.add_to_corpus方法的具体用法?Python Corpus.add_to_corpus怎么用?Python Corpus.add_to_corpus使用的例子?那么恭喜您, 这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所在corpus.Corpus的用法示例。


在下文中一共展示了Corpus.add_to_corpus方法的1个代码示例,这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞,您的评价将有助于系统推荐出更棒的Python代码示例。

示例1: create_dict

# 需要导入模块: from corpus import Corpus [as 别名]
# 或者: from corpus.Corpus import add_to_corpus [as 别名]
def create_dict():
    '''
    Using parsed unicode files stored in the corpus folder, adds words from each to corpus object for use later
    '''
    corpus = Corpus()
    
    CORPUS_DIR = "./corpus"
    
    files = os.listdir(CORPUS_DIR)
    
    print(files)
    #only keep unicode files
    files = [file_ for file_ in files if ".unicode" in file_]
    
    #counter
    num_files = len(files)
    current = 1
    
    print("\nAdding " + str(num_files) + " total files.")
    
    #iterate over all xml files in directory and process
    for file_ in files:
        print("Adding " + file_ + " (" + str(current) + " of " + str(num_files) + ") to corpus")
        current += 1
        
        #if the pre-processed unicode file exits, add to corpus
        if os.path.exists(os.path.join(CORPUS_DIR, file_)):
            
            unicode_ = open(os.path.join(CORPUS_DIR, file_)).read().decode("utf-8")
            
            #split file and add words
            for word in unicode_.split(" "):
                corpus.add_to_corpus(word)
                
    print("Corpus successfully built. Saving corpus to corpus.pickle")
    file_ = open("./corpus.pickle","w")
    pickle.dump(corpus,file_)
开发者ID:ramatevish,项目名称:greekify,代码行数:39,代码来源:parse_corpus.py


注:本文中的corpus.Corpus.add_to_corpus方法示例由纯净天空整理自Github/MSDocs等开源代码及文档管理平台,相关代码片段筛选自各路编程大神贡献的开源项目,源码版权归原作者所有,传播和使用请参考对应项目的License;未经允许,请勿转载。