Java爬虫登陆校园网

Java爬虫登陆校园网

  • 分享一次我的Java爬虫经历,在这一次爬虫过程中学到很多,拿出来和大家分享
  • 阅读本文的前置学习条件:
    • Java基本语法
    • Maven
    • Http协议有一定的了解(尤其是POST GET请求)
    • HTML的基本结构逻辑
    • 浏览器的开发者工具
  • 本文大概阅读时间 : 10 min ~ 15 min

1.准备工作

首先我们使用Java的IDEA集成开发环境,并使用一个Maven项目作为项目的包管理器。

其次需要导入几个Jar包,这次爬虫需要的是httpclient,commons-io,tess4j

因为如果要对数据进行处理,我还添加以下Jar包:junit,fastjson,jsoup

  • httpclient : HttpClient 是Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。

    Maven依赖:

    <dependency><groupId>org.apache.httpcomponentsgroupId><artifactId>httpclientartifactId><version>4.5.10version>dependency>
    
  • commons-io : Apache的一些工具集,在我们文件IO上用得到

    <dependency><groupId>commons-iogroupId><artifactId>commons-ioartifactId><version>2.5version>
    dependency>
    
  • tess4j :用来做ORC光学识别,用来应对一些简单的验证码

    <dependency><groupId>net.sourceforge.tess4jgroupId><artifactId>tess4jartifactId><version>4.4.1version>dependency>
    
  • junit : JUnit是一个Java语言的单元测试框架。用来做测试,可以不添加到项目当中。

    <dependency><groupId>junitgroupId><artifactId>junitartifactId><version>4.12version>dependency>
    
  • fastjson : 阿里开发的最快的json处理工具,在对数据进行实体化,存入数据库用到。

    <dependency><groupId>com.alibabagroupId><artifactId>fastjsonartifactId><version>1.2.62version>
    dependency>
    
  • Jsoup : 是一款Java的HTML解析器,主要用来对HTML解析。本篇不会用得到,读者酌情添加(迟早得用是不是哈哈)

    <dependency><groupId>org.jsoupgroupId><artifactId>jsoupartifactId>


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部