学习python爬虫笔记(1)

学习python爬虫笔记(1)


什么是爬虫?

爬虫为以一定规则,在网络中自动获取信息并储存的脚本或程序。

所需工具

  • python2.7
  • python第三方模块-requests

python2.7安装方法不再赘述
requests模块安装方法参考此处

基础知识

我们日常所看到浏览器所展现的网页实际上是一系列html css js代码组成的,浏览器以一定的规则将这些代码渲染成你所看到的这些内容。
以最简化的方式来说,当你敲入一个网址并按下回车时,发生的事情是浏览器对这个网址对应的服务器发出了一个请求,服务器返回相应的代码段,最后浏览器渲染出一个网页。
爬虫的工作原理便是类似于此,通过对你想抓取的网址发出请求,得到返回的代码并对此进行解析,进而得到想要的内容。

本节目的

爬取b站首页的视频相关内容

实践

import re
import requestshtml = requests.get(url = "https://www.bilibili.com")
print html.content

输出结果为(由于过长,节选部分)

<div class="groom-module"><a href="/video/av13379383" target="_blank" title="【一人全役】幻想万华镜 永夜异变之章 中篇(日配)"><div class="lazy-img"><img alt="【一人全役】幻想万华镜 永夜异变之章 中篇(日配)" src="">div><div class="card-mark"><p class="title">【一人全役】幻想万华镜 永夜异变之章 中篇(日配)p><p class="author">up主:vivian198808p><p class="play">播放:3.7万p>div>a><div class="watch-later-trigger w-later">div>div><div class="groom-module"><a href="/video/av13324761" target="_blank" title="【东方MV / 4K高清重置】东方Celeb ~ABUNAI SISTERS~【Innocent Key】"><div class="lazy-img"><img alt="【东方MV / 4K高清重置】东方Celeb ~ABUNAI SISTERS~【Innocent Key】" src="">div><div class="card-mark"><p class="title">【东方MV / 4K高清重置】东方Celeb ~ABUNAI SISTERS~【Innocent Key】p><p class="author">up主:伊吹小秋p><p class="play">播放:2.9万p>div>a><div class="watch-later-trigger w-later">div>div><div class="groom-module"><a href="/video/av13383690" target="_blank" title="【LOL】阿狸的娇喘让人听了根本把持不住啊"><div class="lazy-img"><img alt="【LOL】阿狸的娇喘让人听了根本把持不住啊" src="">div><div class="card-mark"><p class="title">【LOL】阿狸的娇喘让人听了根本把持不住啊p><p class="author">up主:逗比宇p><p class="play">播放:18.1万p>div>a><div class="watch-later-trigger w-later">div>div><div class="groom-module"><a href="/video/av13368026" target="_blank" title="【阅后即瞎】教你如何给有钱人当孙子"><div class="lazy-img"><img alt="【阅后即瞎】教你如何给有钱人当孙子"


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部