當前位置: 首頁>>代碼示例>>Python>>正文


Python Document.split方法代碼示例

本文整理匯總了Python中readability.Document.split方法的典型用法代碼示例。如果您正苦於以下問題:Python Document.split方法的具體用法?Python Document.split怎麽用?Python Document.split使用的例子?那麽, 這裏精選的方法代碼示例或許可以為您提供幫助。您也可以進一步了解該方法所在readability.Document的用法示例。


在下文中一共展示了Document.split方法的1個代碼示例,這些例子默認根據受歡迎程度排序。您可以為喜歡或者感覺有用的代碼點讚,您的評價將有助於係統推薦出更棒的Python代碼示例。

示例1: get_html_article

# 需要導入模塊: from readability import Document [as 別名]
# 或者: from readability.Document import split [as 別名]
    def get_html_article(self, response):
        """
        先調用readability識別正文,再去除標簽以及空行,接下來因為模塊識別出的正文會混入導航內容,需進一步處理
        具體做法是以換行符分割識別到內容,判斷字數.取出是文章的項
        """

        readable_article = Document(response).summary()
        readable_article = self.remove_html_tag(readable_article)
        readable_article = self.remove_empty_line(readable_article)

        article_split = readable_article.split('\n')

        # 記錄識別到文章開始和結束的位置
        begin = 0
        end = 0

        begin_find = False
        end_find = False
        has_article = False

        for index in range(len(article_split)):

            # # 當有一段特別大的時候隻拿那一段
            # if len(article_split[index]) > 500:
            #     begin, end = index, index
            #     break

            if not begin_find:
                # 一項長度大於40的話就認為是文章的開頭
                if len(article_split[index]) > IS_ARTICLE_SIZE:
                    begin = index
                    begin_find = True
                    has_article = True

            elif not end_find:
                if len(article_split[-index - 1]) == 0:
                    continue
                # \u3002\uff01分別對應中文的.跟? 因為一般中文句子結尾都是.跟?
                elif article_split[-index - 1][-1] in u'\u3002\uff01':
                    if len(article_split[-index - 1]) > IS_ARTICLE_SIZE:
                        end = index
                        end_find = True
                        has_article = True

        empty_list=[]

        if not has_article:
            return empty_list
        elif begin == end:
            empty_list.append(article_split[begin])
            return empty_list
        else:
            return article_split[begin: len(article_split) - end]
開發者ID:zengsn,項目名稱:name-crawler-python,代碼行數:55,代碼來源:htmlArticle.py


注:本文中的readability.Document.split方法示例由純淨天空整理自Github/MSDocs等開源代碼及文檔管理平台,相關代碼片段篩選自各路編程大神貢獻的開源項目,源碼版權歸原作者所有,傳播和使用請參考對應項目的License;未經允許,請勿轉載。