使用Jsoup 抓取本人CSDN博客文章列表的数据
代码:
package cn.test.webcap;
import java.io.IOException;
import java.security.KeyManagementException;
import java.security.NoSuchAlgorithmException;
import java.sql.SQLException;
import java.text.ParseException;
import org.jsoup.Jsoup;
import org.jsoup.Connection.Method;
import org.jsoup.Connection.Response;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class CSDNTest {
static int time_out = 300000;
public static void main(String[] args) throws SQLException,KeyManagementException, NoSuchAlgorithmException,
InterruptedException, ParseException,IOException {
// TODO Auto-generated method stub
System.out.println("Start!");
String url_main = "http://blog.csdn.net/linhaiyun_ytdx?viewmode=contents";
Response res_main = Jsoup
.connect(url_main)
.method(Method.GET)
.header("User-Agent",
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36")
.header("Connection",
"keep-alive")
.ignoreContentType(true)
.timeout(time_out).execute();
Document doc = res_main.parse();
Elements e = doc.select("div.list_item_new").select("div.contents >div");
// System.out.println("你抓取的页面数据为:"+e);
for (int i=0 ; i<e.size();i++) {
String title = doc.select("div.article_title > h1 > span >a").get(i).text();
String time = doc.select("div.article_manage > span.link_postdate").get(i).text();
String view = doc.select("div.article_manage > span.link_view").get(i).text();
String comments = doc.select("div.article_manage > span.link_comments").get(i).text();
System.out.println(title + "----"+time+"----"+view+"----"+comments);
}
System.out.println("本页总共"+e.size()+"条数据");
System.out.println("End!");
}
}
截图:
获取的数据:
Start!
[置顶] 一位资深程序员大牛给予Java学习者的学习路线建议——2017-02-17 00:27——阅读(163)——评论(0)
使用Jsoup 简单抓取页面的数据——2017-07-20 19:55——阅读(12)——评论(0)
JFreeChart 制作柱状图分析数据——2017-07-14 09:35——阅读(50)——评论(0)
JFreeChart 制作3D饼状图分析数据——2017-07-14 09:35——阅读(60)——评论(0)
JFreeChart 制作折线图分析数据——2017-07-13 22:10——阅读(41)——评论(0)
防机器登录验证码的实现 与 输入匹配验证——2017-07-09 19:30——阅读(49)——评论(0)
通知类短信接口的实现——2017-07-09 19:30——阅读(46)——评论(0)
Servlet +JSP+Javabean 实现用户登录注册——2017-07-01 11:11——阅读(61)——评论(0)
数字签名算法的具体使用测试——2017-07-01 10:55——阅读(37)——评论(0)
短信验证码接口的实现——2017-07-01 10:44——阅读(44)——评论(0)
数字签名算法的实现——2017-06-16 16:59——阅读(90)——评论(0)
Oracle 课程设计源码——2017-06-15 21:51——阅读(56)——评论(0)
C3P0数据库连接池SQL语句的简单总结——2017-06-08 21:08——阅读(131)——评论(0)
Oracle用户权限与安全——2017-06-08 21:08——阅读(107)——评论(0)
MongoDB 的基本使用——2017-05-29 22:39——阅读(154)——评论(0)
软件设计的目标——2017-05-29 16:34——阅读(104)——评论(0)
经典软件体系结构风格(五)——2017-05-29 16:33——阅读(212)——评论(0)
博客系统开发推送第六季——留言板模块——2017-05-27 14:46——阅读(193)——评论(1)
博客系统开发推送第五季——个人相册模块——2017-05-26 17:31——阅读(176)——评论(0)
JSP使用URL编码传递中文参数问题的解决——2017-05-23 22:39——阅读(109)——评论(0)
博客系统开发推送第四季——网站框架的搭建及博客模块功能的完善——2017-05-20 15:00——阅读(328)——评论(0)
博客系统开发推送第三季——文章的归档分类——2017-05-17 17:04——阅读(108)——评论(0)
博客系统开发推送第二季——数据库设计——2017-05-17 17:02——阅读(87)——评论(0)
DBCP数据连接池——2017-05-12 09:51——阅读(79)——评论(0)
常见三种数据库连接池在WEB程序的应用总结——2017-05-12 09:41——阅读(119)——评论(0)
经典软件体系结构风格(四)——2017-05-09 21:58——阅读(108)——评论(0)
经典软件体系结构风格(三)——2017-05-09 21:27——阅读(180)——评论(0)
父子实例的内存控制—继承成员变量和继承方法的区别——2017-05-09 20:24——阅读(83)——评论(0)
父类构造器的隐式调用和显式调用——2017-05-09 20:23——阅读(91)——评论(0)
博客系统开发推送第一季——编写发表博客,并生成阅读摘要——2017-05-09 10:36——阅读(143)——评论(0)
高仿CSDN编写文章,发表文章的工具——2017-05-05 22:58——阅读(283)——评论(0)
Bootstrap 前端框架制作响应式网站——2017-05-03 22:39——阅读(541)——评论(0)
Linux 系统常用命令——2017-05-02 17:56——阅读(256)——评论(0)
Linux 网络基础配置——2017-05-02 17:56——阅读(198)——评论(0)
Oracle 创建/调用函数小示例——2017-05-02 17:56——阅读(325)——评论(0)
Oracle 存储过程的默认值参数和过程中的事务处理——2017-05-02 17:55——阅读(117)——评论(0)
Oracle 使用IN OUT参数创建/调用存储过程——2017-05-02 17:55——阅读(86)——评论(0)
Oracle 使用OUT参数创建/调用存储过程——2017-05-02 17:55——阅读(336)——评论(0)
Oracle 使用IN参数创建/调用存储过程——2017-05-02 17:54——阅读(233)——评论(0)
CentOS 7.0 进入单用户模式修改Root密码——2017-05-01 18:32——阅读(200)——评论(0)
Linux 系统启动详解——2017-05-01 18:31——阅读(220)——评论(0)
Linux 命令行文本处理工具——2017-05-01 18:31——阅读(189)——评论(0)
Linux 多命令协作:管道及重定向——2017-05-01 18:31——阅读(1107)——评论(0)
YUM 软件管理——2017-04-30 15:44——阅读(207)——评论(0)
RPM 软件包管理——2017-04-30 15:44——阅读(212)——评论(0)
Linux 扩展权限——2017-04-30 15:44——阅读(215)——评论(0)
Linux 权限机制——2017-04-29 10:31——阅读(233)——评论(0)
Linux 用户基础——2017-04-29 10:31——阅读(204)——评论(0)
Linux 系统挂载管理——2017-04-26 18:30——阅读(81)——评论(0)
Linux 文件系统管理——2017-04-26 18:30——阅读(88)——评论(0)
使用fdisk分区进行磁盘管理——2017-04-25 22:16——阅读(94)——评论(0)
本页总共51条数据
End!
还没有评论,来说两句吧...