Python KaggleWord2VecUtility.review_to_sentences方法代码示例

本文整理汇总了Python中KaggleWord2VecUtility.KaggleWord2VecUtility.review_to_sentences方法的典型用法代码示例。如果您正苦于以下问题：Python KaggleWord2VecUtility.review_to_sentences方法的具体用法？Python KaggleWord2VecUtility.review_to_sentences怎么用？Python KaggleWord2VecUtility.review_to_sentences使用的例子？那么恭喜您, 这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所在类KaggleWord2VecUtility.KaggleWord2VecUtility的用法示例。

在下文中一共展示了KaggleWord2VecUtility.review_to_sentences方法的3个代码示例，这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞，您的评价将有助于系统推荐出更棒的Python代码示例。

示例1: clean_review_function

# 需要导入模块: from KaggleWord2VecUtility import KaggleWord2VecUtility [as 别名]
# 或者: from KaggleWord2VecUtility.KaggleWord2VecUtility import review_to_sentences [as 别名]
def clean_review_function(review):
    list_of_sentences = KaggleWord2VecUtility.review_to_sentences(review, tokenizer, remove_stopwords=False)
    return list_of_sentences

开发者ID:ddboline，项目名称:kaggle_imdb_sentiment_model，代码行数:5，代码来源:average_word_vectors.py

示例2:

# 需要导入模块: from KaggleWord2VecUtility import KaggleWord2VecUtility [as 别名]
# 或者: from KaggleWord2VecUtility.KaggleWord2VecUtility import review_to_sentences [as 别名]
     test["review"].size, unlabeled_train["review"].size )



    # Load the punkt tokenizer
    tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')



    # ****** Split the labeled and unlabeled training sets into clean sentences
    #
    sentences = []  # Initialize an empty list of sentences

    print "Parsing sentences from training set"
    for review in train["review"]:
        sentences += KaggleWord2VecUtility.review_to_sentences(review, tokenizer)

    print "Parsing sentences from unlabeled set"
    for review in unlabeled_train["review"]:
        sentences += KaggleWord2VecUtility.review_to_sentences(review, tokenizer)

    # ****** Set parameters and train the word2vec model
    #
    # Import the built-in logging module and configure it so that Word2Vec
    # creates nice output messages
    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',\
        level=logging.INFO)

    # Set values for various parameters
    num_features = 300    # Word vector dimensionality
    min_word_count = 40   # Minimum word count

开发者ID:fujun-liu，项目名称:phone-scraping，代码行数:33，代码来源:analyze_comments.py

示例3:

# 需要导入模块: from KaggleWord2VecUtility import KaggleWord2VecUtility [as 别名]
# 或者: from KaggleWord2VecUtility.KaggleWord2VecUtility import review_to_sentences [as 别名]
        if x in tag:
           Y.append(tag[x])

#for i in O_test:
#test.append(O_test[i][0])

    # Load the punkt tokenizer
    tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

    # ****** Split the labeled and unlabeled training sets into clean sentences
    #
    sentences = []  # Initialize an empty list of sentences

#print("Parsing sentences from training set")
    for review in train:
        sentences += KaggleWord2VecUtility.review_to_sentences(review.encode('utf-8'), tokenizer)

# print "Parsing sentences from training set"
        #for review in test:
# sentences += KaggleWord2VecUtility.review_to_sentences(review, tokenizer)

    # ****** Set parameters and train the word2vec model
    #
    # Import the built-in logging module and configure it so that Word2Vec
    # creates nice output messages
    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',\
        level=logging.INFO)

    # Set values for various parameters
    num_features = 300    # Word vector dimensionality
    min_word_count = 40   # Minimum word count

开发者ID:weichenzhao，项目名称:CS544_Project，代码行数:33，代码来源:RandomForest.py

注：本文中的KaggleWord2VecUtility.KaggleWord2VecUtility.review_to_sentences方法示例由纯净天空整理自Github/MSDocs等开源代码及文档管理平台，相关代码片段筛选自各路编程大神贡献的开源项目，源码版权归原作者所有，传播和使用请参考对应项目的License；未经允许，请勿转载。