Jsoup爬取网站图片-蒲公英云

Jsoup爬取网站图片

Jsoup 是一款 Java 的 HTML 解析器，我们可以用它进行网站图片的爬取，然后下载到本地文件夹中。
首先在pom.xml中添加依赖。

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.10.2</version>
</dependency>

首先我们写出下载图片的方法，先创建一个文件夹，然后截取出图片的文件名，并对文件名进行处理并转换为UTF-8格式。

public static void downImages(String filePath, String imgUrl) { 
    // 若没有指定文件夹，则先创建
    File dir = new File(filePath);
    if (!dir.exists()) { 
        dir.mkdirs();
    }
    // 截取图片文件名
    String fileName = imgUrl.substring(imgUrl.lastIndexOf('/') + 1, imgUrl.length());
    try { 
        // 文件名里面可能有中文或者空格，所以这里要进行处理。但空格又会被URLEncoder转义为加号
        String urlTail = URLEncoder.encode(fileName, "UTF-8");
        // 因此要将加号转化为UTF-8格式
        imgUrl = imgUrl.substring(0, imgUrl.lastIndexOf('/') + 1) + urlTail.replaceAll("\\+", "\\%20");
    } catch (UnsupportedEncodingException e) { 
        e.printStackTrace();
    }
    // 写出的路径
    File file = new File(filePath + File.separator + fileName);
    try { 
        // 获取图片URL
        URL url = new URL(imgUrl);
        // 获得连接
        URLConnection connection = url.openConnection();
        // 设置10秒的相应时间
        connection.setConnectTimeout(10 * 1000);
        // 获得输入流
        InputStream in = connection.getInputStream();
        // 获得输出流
        BufferedOutputStream out = new BufferedOutputStream(new FileOutputStream(file));
        // 构建缓冲区
        byte[] buf = new byte[1024];
        int size;
        // 写入到文件
        while (-1 != (size = in.read(buf))) { 
            out.write(buf, 0, size);
        }
        out.close();
        in.close();
    } catch (MalformedURLException e) { 
        e.printStackTrace();
    } catch (IOException e) { 
        e.printStackTrace();
    }
}

然后使用Jsoup连接到网页，将图片下载到本地文件夹中。

public static void main(String[] args) { 
    // 利用Jsoup获得连接
    Connection connect = Jsoup.connect("https://pic.netbian.com/4kqiche/");
    try { 
        // 得到Document对象
        Document document = connect.get();
        // 查找所有img标签
        Elements imgs = document.getElementsByTag("img");
        System.out.println("共检测到下列图片URL：");
        System.out.println("开始下载");
        // 遍历img标签并获得src的属性
        for (Element element : imgs) { 
            //获取每个img标签URL "abs:"表示绝对路径
            String imgSrc = element.attr("abs:src");
            // 打印URL
            System.out.println(imgSrc);
            //下载图片到本地
            img.downImages("f:/img", imgSrc);
        }
        System.out.println("下载完成");
    } catch (IOException e) { 
        e.printStackTrace();
    }
}