使用Jsoup 抓取本人CSDN博客文章列表的数据

Dear 丶 2022-06-12 10:11 343阅读 0赞

代码:

  1. package cn.test.webcap;
  2. import java.io.IOException;
  3. import java.security.KeyManagementException;
  4. import java.security.NoSuchAlgorithmException;
  5. import java.sql.SQLException;
  6. import java.text.ParseException;
  7. import org.jsoup.Jsoup;
  8. import org.jsoup.Connection.Method;
  9. import org.jsoup.Connection.Response;
  10. import org.jsoup.nodes.Document;
  11. import org.jsoup.select.Elements;
  12. public class CSDNTest {
  13. static int time_out = 300000;
  14. public static void main(String[] args) throws SQLException,KeyManagementException, NoSuchAlgorithmException,
  15. InterruptedException, ParseException,IOException {
  16. // TODO Auto-generated method stub
  17. System.out.println("Start!");
  18. String url_main = "http://blog.csdn.net/linhaiyun_ytdx?viewmode=contents";
  19. Response res_main = Jsoup
  20. .connect(url_main)
  21. .method(Method.GET)
  22. .header("User-Agent",
  23. "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36")
  24. .header("Connection",
  25. "keep-alive")
  26. .ignoreContentType(true)
  27. .timeout(time_out).execute();
  28. Document doc = res_main.parse();
  29. Elements e = doc.select("div.list_item_new").select("div.contents >div");
  30. // System.out.println("你抓取的页面数据为:"+e);
  31. for (int i=0 ; i<e.size();i++) {
  32. String title = doc.select("div.article_title > h1 > span >a").get(i).text();
  33. String time = doc.select("div.article_manage > span.link_postdate").get(i).text();
  34. String view = doc.select("div.article_manage > span.link_view").get(i).text();
  35. String comments = doc.select("div.article_manage > span.link_comments").get(i).text();
  36. System.out.println(title + "----"+time+"----"+view+"----"+comments);
  37. }
  38. System.out.println("本页总共"+e.size()+"条数据");
  39. System.out.println("End!");
  40. }
  41. }

截图:

Center

获取的数据:

Start!
[置顶] 一位资深程序员大牛给予Java学习者的学习路线建议——2017-02-17 00:27——阅读(163)——评论(0)
使用Jsoup 简单抓取页面的数据——2017-07-20 19:55——阅读(12)——评论(0)
JFreeChart 制作柱状图分析数据——2017-07-14 09:35——阅读(50)——评论(0)
JFreeChart 制作3D饼状图分析数据——2017-07-14 09:35——阅读(60)——评论(0)
JFreeChart 制作折线图分析数据——2017-07-13 22:10——阅读(41)——评论(0)
防机器登录验证码的实现 与 输入匹配验证——2017-07-09 19:30——阅读(49)——评论(0)
通知类短信接口的实现——2017-07-09 19:30——阅读(46)——评论(0)
Servlet +JSP+Javabean 实现用户登录注册——2017-07-01 11:11——阅读(61)——评论(0)
数字签名算法的具体使用测试——2017-07-01 10:55——阅读(37)——评论(0)
短信验证码接口的实现——2017-07-01 10:44——阅读(44)——评论(0)
数字签名算法的实现——2017-06-16 16:59——阅读(90)——评论(0)
Oracle 课程设计源码——2017-06-15 21:51——阅读(56)——评论(0)
C3P0数据库连接池SQL语句的简单总结——2017-06-08 21:08——阅读(131)——评论(0)
Oracle用户权限与安全——2017-06-08 21:08——阅读(107)——评论(0)
MongoDB 的基本使用——2017-05-29 22:39——阅读(154)——评论(0)
软件设计的目标——2017-05-29 16:34——阅读(104)——评论(0)
经典软件体系结构风格(五)——2017-05-29 16:33——阅读(212)——评论(0)
博客系统开发推送第六季——留言板模块——2017-05-27 14:46——阅读(193)——评论(1)
博客系统开发推送第五季——个人相册模块——2017-05-26 17:31——阅读(176)——评论(0)
JSP使用URL编码传递中文参数问题的解决——2017-05-23 22:39——阅读(109)——评论(0)
博客系统开发推送第四季——网站框架的搭建及博客模块功能的完善——2017-05-20 15:00——阅读(328)——评论(0)
博客系统开发推送第三季——文章的归档分类——2017-05-17 17:04——阅读(108)——评论(0)
博客系统开发推送第二季——数据库设计——2017-05-17 17:02——阅读(87)——评论(0)
DBCP数据连接池——2017-05-12 09:51——阅读(79)——评论(0)
常见三种数据库连接池在WEB程序的应用总结——2017-05-12 09:41——阅读(119)——评论(0)
经典软件体系结构风格(四)——2017-05-09 21:58——阅读(108)——评论(0)
经典软件体系结构风格(三)——2017-05-09 21:27——阅读(180)——评论(0)
父子实例的内存控制—继承成员变量和继承方法的区别——2017-05-09 20:24——阅读(83)——评论(0)
父类构造器的隐式调用和显式调用——2017-05-09 20:23——阅读(91)——评论(0)
博客系统开发推送第一季——编写发表博客,并生成阅读摘要——2017-05-09 10:36——阅读(143)——评论(0)
高仿CSDN编写文章,发表文章的工具——2017-05-05 22:58——阅读(283)——评论(0)
Bootstrap 前端框架制作响应式网站——2017-05-03 22:39——阅读(541)——评论(0)
Linux 系统常用命令——2017-05-02 17:56——阅读(256)——评论(0)
Linux 网络基础配置——2017-05-02 17:56——阅读(198)——评论(0)
Oracle 创建/调用函数小示例——2017-05-02 17:56——阅读(325)——评论(0)
Oracle 存储过程的默认值参数和过程中的事务处理——2017-05-02 17:55——阅读(117)——评论(0)
Oracle 使用IN OUT参数创建/调用存储过程——2017-05-02 17:55——阅读(86)——评论(0)
Oracle 使用OUT参数创建/调用存储过程——2017-05-02 17:55——阅读(336)——评论(0)
Oracle 使用IN参数创建/调用存储过程——2017-05-02 17:54——阅读(233)——评论(0)
CentOS 7.0 进入单用户模式修改Root密码——2017-05-01 18:32——阅读(200)——评论(0)
Linux 系统启动详解——2017-05-01 18:31——阅读(220)——评论(0)
Linux 命令行文本处理工具——2017-05-01 18:31——阅读(189)——评论(0)
Linux 多命令协作:管道及重定向——2017-05-01 18:31——阅读(1107)——评论(0)
YUM 软件管理——2017-04-30 15:44——阅读(207)——评论(0)
RPM 软件包管理——2017-04-30 15:44——阅读(212)——评论(0)
Linux 扩展权限——2017-04-30 15:44——阅读(215)——评论(0)
Linux 权限机制——2017-04-29 10:31——阅读(233)——评论(0)
Linux 用户基础——2017-04-29 10:31——阅读(204)——评论(0)
Linux 系统挂载管理——2017-04-26 18:30——阅读(81)——评论(0)
Linux 文件系统管理——2017-04-26 18:30——阅读(88)——评论(0)
使用fdisk分区进行磁盘管理——2017-04-25 22:16——阅读(94)——评论(0)
本页总共51条数据
End!

发表评论

表情:
评论列表 (有 0 条评论,343人围观)

还没有评论,来说两句吧...

相关阅读