Java爬虫登陆校园网
Java爬虫登陆校园网
- 分享一次我的Java爬虫经历,在这一次爬虫过程中学到很多,拿出来和大家分享
- 阅读本文的前置学习条件:
- Java基本语法
- Maven
- Http协议有一定的了解(尤其是POST GET请求)
- HTML的基本结构逻辑
- 浏览器的开发者工具
- 本文大概阅读时间 : 10 min ~ 15 min
1.准备工作
首先我们使用Java的IDEA集成开发环境,并使用一个Maven项目作为项目的包管理器。
其次需要导入几个Jar包,这次爬虫需要的是httpclient,commons-io,tess4j
因为如果要对数据进行处理,我还添加以下Jar包:junit,fastjson,jsoup
-
httpclient : HttpClient 是Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。
Maven依赖:
<dependency><groupId>org.apache.httpcomponentsgroupId><artifactId>httpclientartifactId><version>4.5.10version>dependency> -
commons-io : Apache的一些工具集,在我们文件IO上用得到
<dependency><groupId>commons-iogroupId><artifactId>commons-ioartifactId><version>2.5version> dependency> -
tess4j :用来做ORC光学识别,用来应对一些简单的验证码
<dependency><groupId>net.sourceforge.tess4jgroupId><artifactId>tess4jartifactId><version>4.4.1version>dependency> -
junit : JUnit是一个Java语言的单元测试框架。用来做测试,可以不添加到项目当中。
<dependency><groupId>junitgroupId><artifactId>junitartifactId><version>4.12version>dependency> -
fastjson : 阿里开发的最快的json处理工具,在对数据进行实体化,存入数据库用到。
<dependency><groupId>com.alibabagroupId><artifactId>fastjsonartifactId><version>1.2.62version> dependency> -
Jsoup : 是一款Java的HTML解析器,主要用来对HTML解析。本篇不会用得到,读者酌情添加(迟早得用是不是哈哈)
<dependency><groupId>org.jsoupgroupId><artifactId>jsoupartifactId>
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
