本文整理汇总了Python中src.tools.match.Match.jianshu方法的典型用法代码示例。如果您正苦于以下问题:Python Match.jianshu方法的具体用法?Python Match.jianshu怎么用?Python Match.jianshu使用的例子?那么恭喜您, 这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所在类src.tools.match.Match
的用法示例。
在下文中一共展示了Match.jianshu方法的2个代码示例,这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞,您的评价将有助于系统推荐出更棒的Python代码示例。
示例1: parse_jianshu
# 需要导入模块: from src.tools.match import Match [as 别名]
# 或者: from src.tools.match.Match import jianshu [as 别名]
def parse_jianshu(command):
u"""
:param command: 某个新浪博客博主的首页地址
:return: task:
"""
result = Match.jianshu(command)
jianshu_id = result.group('jianshu_id')
task = SingleTask()
task.author_id = jianshu_id
task.kind = 'jianshu'
task.spider.href = 'http://www.jianshu.com/users/{}/latest_articles'.format(jianshu_id)
task.book.kind = 'jianshu'
task.book.sql.info_extra = 'creator_id = "{}"'.format(jianshu_id)
task.book.sql.article_extra = 'author_id = "{}"'.format(jianshu_id)
task.book.author_id = jianshu_id
return task
示例2: create_work_set
# 需要导入模块: from src.tools.match import Match [as 别名]
# 或者: from src.tools.match.Match import jianshu [as 别名]
def create_work_set(self, target_url):
u"""
根据target_url(例:http://www.jianshu.com/users/b1dd2b2c87a8/latest_articles)的内容,
先获得creator_id, 再根据文章的数目, 获得页面数, 依次打开每个页面, 将文章的地址放入work_set中
:param target_url:
:return:
"""
if target_url in self.task_complete_set:
return
id_result = Match.jianshu(target_url)
jianshu_id = id_result.group('jianshu_id')
# ############下面这部分应该是JianshuAuthorInfo的内容, 完成jianshu_info中的内容,暂时写在这, TODO, 一行只能写一个地址
content_profile = Http.get_content(target_url)
parser = JianshuParser(content_profile)
self.question_list += parser.get_jianshu_info_list()
# #############上面这部分应该是JianshuAuthorInfo的内容, 完成jianshu_info中的内容,暂时写在这
self.task_complete_set.add(target_url)
article_num = self.question_list[0]['article_num'] # 这样的话, 一行只能写一个地址 TODO: 硬编码
if article_num % 9 != 0:
page_num = article_num/9 + 1 # 博客目录页面, 1页放50个博客链接
else:
page_num = article_num / 9
article_list = self.parse_get_article_list(content_profile)
for item in article_list:
self.work_set.add(item)
for page in range(page_num-1): # 第一页是不需要打开的
url = 'http://www.jianshu.com/users/{}/latest_articles?page={}'.format(jianshu_id, page+2)
content_article_list = Http.get_content(url)
article_list = self.parse_get_article_list(content_article_list)
for item in article_list:
self.work_set.add(item)
return