学习笔记：网络机器人1.前端入门

2023-10-24 03:43:12

网络爬虫是在互联网按照一定规则去爬取人类需要的信息的程序。主要是通过对URL的请求来实现。
最大的网络是万维网www，
我们的爬虫只是参与其中很小的一部分
爬虫本质上就是HTTP客户端请求。

爬虫怎么做？
1.找到URL
2.构造请求包（headers，cookies，data）
3.发送请求，接收响应
4.数据清洗，提取需要信息

爬虫工具
1.发起请求 requests
2.处理响应 bs4 xpath re
3.存储数据本地存储，数据库存储

pip install requests

pip install bs4

网页三剑客
HTML CSS JavaScript

需要掌握的页面调试器
1.CTRL+F调出搜索框，可以写搜索语法
2.network选项卡抓包
3.左上角小箭头可以定位元素


<html lang="en">
<head><meta charset="UTF-8"><title>这是测试title><link href="index-style.css" rel="stylesheet">