爬取京东图书Java实现
案例demo
使用的是jsoup.jar包
org.jsoup jsoup 1.10.2
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;public class HtmlParseUtil {public void test1() throws IOException {//可以通过字符串拼接的方法,自定义爬取商品//"https://search.jd.com/Search?keyword="+搜索的商品String url = "https://search.jd.com/Search?keyword=java";Document parse = Jsoup.parse(new URL(url), 30000);Element elementById = parse.getElementById("J_goodsList");// System.out.println(elementById);Elements li = elementById.getElementsByTag("li");for (Element el: li) {String img = el.getElementsByTag("img").eq(0).attr("src");String price = el.getElementsByClass("p-price").eq(0).text().replaceAll("¥","");String title = el.getElementsByClass("curr-shop hd-shopname").eq(0).attr("title");String s = el.getElementsByClass("promo-words").eq(0).text();String em = el.getElementsByClass("p-name").eq(0).text();System.out.println(img);System.out.println(title);System.out.println(em.replaceAll(s,""));System.out.println(price);System.out.println("========================");}}public static void main(String[] args) throws IOException {test();}
}
爬取的数据就是解析出html , 根据html中的id , class , div 属性进行筛选爬取
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
