博客搬家系列（四）-爬取简书文章-蒲公英云

博客搬家系列（四）-爬取简书文章

一.前情回顾

博客搬家系列（一）-简介：https://blog.csdn.net/rico_zhou/article/details/83619152

博客搬家系列（二）-爬取CSDN博客：https://blog.csdn.net/rico_zhou/article/details/83619509

博客搬家系列（三）-爬取博客园博客：https://blog.csdn.net/rico_zhou/article/details/83619525

博客搬家系列（五）-爬取开源中国博客：https://blog.csdn.net/rico_zhou/article/details/83619561

博客搬家系列（六）-爬取今日头条文章：https://blog.csdn.net/rico_zhou/article/details/83619564

博客搬家系列（七）-本地WORD文档转HTML：https://blog.csdn.net/rico_zhou/article/details/83619573

博客搬家系列（八）-总结：https://blog.csdn.net/rico_zhou/article/details/83619599

二.开干（获取文章URL集合）

爬取简书的文章思路跟CSDN一样，且下载图片那一步更为简单，任何header都不需要设置，同样，我们找一个文章比较多的主页为例分析源码，如https://www.jianshu.com/u/b52ff888fd17 u后面的字符串即为博主id，经我们下拉发现，简书的文章列表加载方式是下拉自动加载，即滚动条到达一定程度时则js去请求后台，那么我们按下F12或者右击审查元素，点击network查看一下详情

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3JpY29femhvdQ_size_16_color_FFFFFF_t_70

我们点击XHR（XMLHttpRequest）查看请求如下

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3JpY29femhvdQ_size_16_color_FFFFFF_t_70 1

暂时没啥有用信息，此时我们缓慢滚动鼠标让其继续加载文章列表，我们发现多了一条请求：?order_by=shared_at&page=2

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3JpY29femhvdQ_size_16_color_FFFFFF_t_70 2

猜测page=2即表示文章的页数，将url复制到浏览器打开，可以看到正是下一页的文章，此时文章url的规律找到，接下来右击查看源码寻找包含文章url的标签，可以发现，文章的url在class为note-list的ul标签下的子标签，class为content的div内，这就好办了，代码如下：注意url不完整，需要补充拼接一下

/**
     * @date Oct 17, 2018 12:30:46 PM
     * @Desc
     * @param blogMove
     * @param oneUrl
     * @return
     * @throws IOException
     * @throws MalformedURLException
     * @throws FailingHttpStatusCodeException
     */
    public void getJianShuArticleUrlList(Blogmove blogMove, String oneUrl, List<String> urlList)
            throws FailingHttpStatusCodeException, MalformedURLException, IOException {
        // 模拟浏览器操作
        // 创建WebClient
        WebClient webClient = new WebClient(BrowserVersion.CHROME);
        // 关闭css代码功能
        webClient.getOptions().setThrowExceptionOnScriptError(false);
        webClient.getOptions().setCssEnabled(false);
        // 如若有可能找不到文件js则加上这句代码
        webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
        // 获取第一级网页html
        HtmlPage page = webClient.getPage(oneUrl);
        // System.out.println(page.asXml());
        Document doc = Jsoup.parse(page.asXml());
        Element pageMsg22 = doc.select("ul.note-list").first();
        if (pageMsg22 == null) {
            return;
        }
        Elements pageMsg = pageMsg22.select("div.content");
        Element linkNode;
        for (Element e : pageMsg) {
            linkNode = e.select("a.title").first();
            if (linkNode == null) {
                continue;
            }
            if (urlList.size() < blogMove.getMoveNum()) {
                urlList.add(BlogConstant.BLOG_BLOGMOVE_WEBSITE_BASEURL_JIANSHU + linkNode.attr("href"));
            } else {
                break;
            }
        }
        return;
    }

获取url集合如下注意url不完整，需要补充拼接一下

三.开干（获取文章具体信息）

同样，我们还是打开一篇博文，以爬虫框架htmlunit整合springboot不兼容的问题为例，使用Chrome打开，我们可以看到一些基本信息，如文章的类型为原创，标题，时间，作者，阅读数，文章文字信息，图片信息等

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3JpY29femhvdQ_size_16_color_FFFFFF_t_70 3

这里需要特别注意一下的就是时间的获取，简书文章时间显示并不是唯一，如他会将时间进行一些改变显示，这里需要注意一下，将获取的时间反向解析一下，这里不再过多讲述。

同样，右击查看源码找到对应的元素，然后获取内容

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3JpY29femhvdQ_size_16_color_FFFFFF_t_70 4

代码如下：

/**
     * @date Oct 17, 2018 12:46:52 PM
     * @Desc 获取详细信息
     * @param blogMove
     * @param url
     * @return
     * @throws IOException
     * @throws MalformedURLException
     * @throws FailingHttpStatusCodeException
     */
    public Blogcontent getJianShuArticleMsg(Blogmove blogMove, String url, List<Blogcontent> bList)
            throws FailingHttpStatusCodeException, MalformedURLException, IOException {
        Blogcontent blogcontent = new Blogcontent();
        blogcontent.setArticleSource(blogMove.getMoveWebsiteId());
        // 模拟浏览器操作
        // 创建WebClient
        WebClient webClient = new WebClient(BrowserVersion.CHROME);
        // 关闭css代码功能
        webClient.getOptions().setThrowExceptionOnScriptError(false);
        webClient.getOptions().setCssEnabled(false);
        // 如若有可能找不到文件js则加上这句代码
        webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
        // 获取第一级网页html
        HtmlPage page = webClient.getPage(url);
        Document doc = Jsoup.parse(page.asXml());
        // 获取标题
        String title = BlogMoveJianShuUtils.getJianShuArticleTitle(doc);
        // 是否重复去掉
        if (blogMove.getMoveRemoveRepeat() == 0) {
            // 判断是否重复
            if (BlogMoveCommonUtils.articleRepeat(bList, title)) {
                return null;
            }
        }
        blogcontent.setTitle(title);
        // 获取作者
        blogcontent.setAuthor(BlogMoveJianShuUtils.getJianShuArticleAuthor(doc));
        // 获取时间
        if (blogMove.getMoveUseOriginalTime() == 0) {
            blogcontent.setGtmCreate(BlogMoveJianShuUtils.getJianShuArticleTime(doc));
        } else {
            blogcontent.setGtmCreate(new Date());
        }
        blogcontent.setGtmModified(new Date());
        // 获取类型
        blogcontent.setType(BlogMoveJianShuUtils.getJianShuArticleType(doc));
        // 获取正文
        blogcontent.setContent(BlogMoveJianShuUtils.getJianShuArticleContent(doc, blogMove, blogcontent));
        // 设置其他
        blogcontent.setStatus(blogMove.getMoveBlogStatus());
        blogcontent.setBlogColumnName(blogMove.getMoveColumn());
        // 特殊处理
        blogcontent.setArticleEditor(blogMove.getMoveArticleEditor());
        blogcontent.setShowId(DateUtils.format(new Date(), DateUtils.YYYYMMDDHHMMSSSSS));
        blogcontent.setAllowComment(0);
        blogcontent.setAllowPing(0);
        blogcontent.setAllowDownload(0);
        blogcontent.setShowIntroduction(1);
        blogcontent.setIntroduction("");
        blogcontent.setPrivateArticle(1);
        return blogcontent;
    }

详细信息

/**
     * @date Oct 17, 2018 1:10:19 PM
     * @Desc 获取标题
     * @param doc
     * @return
     */
    public static String getJianShuArticleTitle(Document doc) {
        // 标题
        Element pageMsg2 = doc.select("div.note").first().select("h1.title").first();
        return pageMsg2.html();
    }
    /**
     * @date Oct 17, 2018 1:10:28 PM
     * @Desc 获取作者
     * @param doc
     * @return
     */
    public static String getJianShuArticleAuthor(Document doc) {
        Element pageMsg2 = doc.select("div.note").first().select("span.name").first();
        return pageMsg2.text();
    }
    /**
     * @date Oct 17, 2018 1:10:33 PM
     * @Desc 获取时间
     * @param doc
     * @return
     */
    public static Date getJianShuArticleTime(Document doc) {
        Element pageMsg2 = doc.select("div.note").first().select("span.publish-time").first();
        String date = pageMsg2.html();
        // 注意有些格式不正确
        return DateUtils.formatStringDate(date, DateUtils.YYYY_MM_DD_HH_MM_SS2);
    }
    /**
     * @date Oct 17, 2018 1:10:37 PM
     * @Desc 获取类型
     * @param doc
     * @return
     */
    public static String getJianShuArticleType(Document doc) {
        // Element pageMsg2 =
        // doc.select("div.article-title-box").first().select("span.article-type").first();
        // if ("原".equals(pageMsg2.html())) {
        // return "原创";
        // } else if ("转".equals(pageMsg2.html())) {
        // return "转载";
        // } else if ("译".equals(pageMsg2.html())) {
        // return "翻译";
        // }
        return "原创";
    }
    /**
     * @date Oct 17, 2018 1:10:41 PM
     * @Desc 获取正文
     * @param doc
     * @param object
     * @param blogcontent
     * @return
     */
    public static String getJianShuArticleContent(Document doc, Blogmove blogMove, Blogcontent blogcontent) {
        Element pageMsg2 = doc.select("div.note").first().select("div.show-content").first();
        // 为了图片显示正常去掉一个元素
        pageMsg2.select("div.image-container-fill").remove();
        String content = pageMsg2.toString();
        String images;
        // 注意是否需要替换图片
        if (blogMove.getMoveSaveImg() == 0) {
            // 保存图片到本地
            // 先获取所有图片连接，再按照每个链接下载图片，最后替换原有链接
            // 先创建一个文件夹
            // 先创建一个临时文件夹
            String blogFileName = String.valueOf(UUID.randomUUID());
            FileUtils.createFolder(FilePathConfig.getUploadBlogPath() + File.separator + blogFileName);
            blogcontent.setBlogFileName(blogFileName);
            // 匹配出所有链接
            List<String> imgList = BlogMoveCommonUtils.getArticleImgList2(content);
            // 下载并返回重新生成的imgurllist
            List<String> newImgList = BlogMoveCommonUtils.getArticleNewImgList(blogMove, imgList, blogFileName);
            // 拼接文章所有链接
            images = BlogMoveCommonUtils.getArticleImages(newImgList);
            blogcontent.setImages(images);
            // 替换所有链接按顺序
            content = getJianShuNewArticleContent(content, imgList, newImgList);
        }
        return content;
    }

这里的下载图片也需要注意，当我测试文章时，发现有些图片下载了有些则没有，注意观察一下源码发现，img标签中的src并不是同步加载，即当我获取文章正文时，可能图片链接尚未加载到源码中，但是此img标签中有另一个属性可用，即data-original-src，显然这是图片的原路径，那么我们就根据这个路径去下载图片，然后将自己的图片路径更改到src属性中，这样就可全部下载显示了