本文整理匯總了Python中readability.Document.split方法的典型用法代碼示例。如果您正苦於以下問題:Python Document.split方法的具體用法?Python Document.split怎麽用?Python Document.split使用的例子?那麽, 這裏精選的方法代碼示例或許可以為您提供幫助。您也可以進一步了解該方法所在類readability.Document
的用法示例。
在下文中一共展示了Document.split方法的1個代碼示例,這些例子默認根據受歡迎程度排序。您可以為喜歡或者感覺有用的代碼點讚,您的評價將有助於係統推薦出更棒的Python代碼示例。
示例1: get_html_article
# 需要導入模塊: from readability import Document [as 別名]
# 或者: from readability.Document import split [as 別名]
def get_html_article(self, response):
"""
先調用readability識別正文,再去除標簽以及空行,接下來因為模塊識別出的正文會混入導航內容,需進一步處理
具體做法是以換行符分割識別到內容,判斷字數.取出是文章的項
"""
readable_article = Document(response).summary()
readable_article = self.remove_html_tag(readable_article)
readable_article = self.remove_empty_line(readable_article)
article_split = readable_article.split('\n')
# 記錄識別到文章開始和結束的位置
begin = 0
end = 0
begin_find = False
end_find = False
has_article = False
for index in range(len(article_split)):
# # 當有一段特別大的時候隻拿那一段
# if len(article_split[index]) > 500:
# begin, end = index, index
# break
if not begin_find:
# 一項長度大於40的話就認為是文章的開頭
if len(article_split[index]) > IS_ARTICLE_SIZE:
begin = index
begin_find = True
has_article = True
elif not end_find:
if len(article_split[-index - 1]) == 0:
continue
# \u3002\uff01分別對應中文的.跟? 因為一般中文句子結尾都是.跟?
elif article_split[-index - 1][-1] in u'\u3002\uff01':
if len(article_split[-index - 1]) > IS_ARTICLE_SIZE:
end = index
end_find = True
has_article = True
empty_list=[]
if not has_article:
return empty_list
elif begin == end:
empty_list.append(article_split[begin])
return empty_list
else:
return article_split[begin: len(article_split) - end]