python提取知乎首页问答的url
继上次创建会话(session)模拟登陆知乎后,这次简单实现了提取知乎首页相关问答的url
回顾下上次登陆知乎,总结一下几个步骤
如果没有登陆知乎的cookie,就创建session模拟登陆一次,即向知乎登陆的url提交一次post,post包含账号、密码验证码和_xsrf,登陆完成后,再用session方法获得知乎首页,在获得的页面上提取相关的链接,代码如下
def extractUrl(self):self.__urls = []res = self.__session.get(self.homeURL)print(res.text)pattern = re.compile(r"(?<=href=\")/question/.*(?=\")|(?<=href=\').+?(?=\')" )url_list = re.findall(pattern,res.text)for url in url_list:print(self.homeURL+url)
最后提取效果如下,不知道class="toggle-expand怎么出现的,后续还要研究下,这样子提取了一些答案的url,就可以为后续爬取网页提供新的路径
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
