爬取京东图书Java实现

案例demo

使用的是jsoup.jar包

org.jsoupjsoup1.10.2

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;public class HtmlParseUtil {public void test1() throws IOException {//可以通过字符串拼接的方法,自定义爬取商品//"https://search.jd.com/Search?keyword="+搜索的商品String url  = "https://search.jd.com/Search?keyword=java";Document parse = Jsoup.parse(new URL(url), 30000);Element elementById = parse.getElementById("J_goodsList");// System.out.println(elementById);Elements li = elementById.getElementsByTag("li");for (Element el: li) {String img  =  el.getElementsByTag("img").eq(0).attr("src");String price = el.getElementsByClass("p-price").eq(0).text().replaceAll("¥","");String title = el.getElementsByClass("curr-shop hd-shopname").eq(0).attr("title");String s  =  el.getElementsByClass("promo-words").eq(0).text();String em = el.getElementsByClass("p-name").eq(0).text();System.out.println(img);System.out.println(title);System.out.println(em.replaceAll(s,""));System.out.println(price);System.out.println("========================");}}public static void main(String[] args) throws IOException {test();}
}

爬取的数据就是解析出html , 根据html中的id , class , div 属性进行筛选爬取


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部