获取一篇新闻的全部信息 小咪咪 2021-12-15 13:47 245阅读 0赞 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894 -------------------- **题目:** 给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: * newsUrl * newsId(使用正则表达式re) * clickUrl(str.format(newsId)) * requests.get(clickUrl) * newClick(用字符串处理,或正则表达式) * int() 整个过程包装成一个简单清晰的函数。 -------------------- newsURL为: http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0402/11131.html 代码为 # -*- coding: utf-8 -*- import requests from datetime import datetime from bs4 import BeautifulSoup url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0402/11131.html' clickNumURL = 'http://oa.gzcc.cn/api.php?op=count&id=11131&modelid=80' def newsTime(shareinfo): newsDate = shareinfo.split()[0].split(':')[1] newsTime = shareinfo.split()[1] dt = newsDate + " " + newsTime # datetime模块的strptime能够将文本字符串格式的数据转换成时间格式的数据 showtime = datetime.strptime(dt, "%Y-%m-%d %H:%M:%S") print("新闻发布时间:", end="") print(showtime) def click(click_num_url): return_click_num = requests.get(click_num_url) click_info = BeautifulSoup(return_click_num.text, 'html.parser') click_num = int(click_info.text.split('.html')[3].split("'")[1]) print("点击次数:", end="") print(click_num) resourses = requests.get(url) resourses.encoding = 'UTF-8' soup = BeautifulSoup(resourses.text, 'html.parser') print("\n新闻标题:" + soup.select('.show-title')[0].text) # 使用BeautifulSoup的select方法根据元素的类名来查找元素的内容,返回的是list类型 publishing_unit = soup.select('.show-info')[0].text.split()[4].split(':')[1] print("新闻发布单位:", end="") print(publishing_unit) print("作者:", end="") writer = soup.select('.show-info')[0].text.split()[2].split(':')[1] print(writer) print("新闻内容:" + soup.select('.show-content')[0].text.replace('\u3000', '')) shareinfo = soup.select('.show-info')[0].text newsTime(shareinfo) click(clickNumURL) 标题、作者、发布单位、审核、来源 ![1480621-20190403144420643-413253012.png][] 整体效果为: ![1480621-20190403144511103-70288181.png][] 转载于:https://www.cnblogs.com/hesz/p/10648738.html [1480621-20190403144420643-413253012.png]: /images/20211214/590713bcec8540c1aaae88f437d8d787.png [1480621-20190403144511103-70288181.png]: /images/20211214/690112e30b5f4d93918a91c2be942909.png
相关 Java根据Bean实体某一属性获取Bean全部信息 Java根据Bean实体某一属性获取Bean全部信息 业务场景 业务涉及到多个国家,现在需要根据国家的某一属性(以`国家简称`为例)获得国家的全部信息。 业务代 古城微笑少年丶/ 2024年03月30日 15:33/ 0 赞/ 79 阅读
相关 String知识点-这一篇全部了解 字符串是常量,在定义之后不能被改变 String源码(java7) 定义 public final class String implements jav 一时失言乱红尘/ 2022年05月17日 07:44/ 0 赞/ 140 阅读
相关 [原] Python 获取全部网络信息 获取网络信息 def netInfo(): """ 获取网络信息 :return: """ 灰太狼/ 2022年02月28日 08:04/ 0 赞/ 262 阅读
相关 [原] Python 获取全部进程信息 转战Python已经半年,现在开始写一些自己开发的代码段 获取全部进程信息 def processInfo(): """ 获 分手后的思念是犯贱/ 2022年02月28日 08:04/ 0 赞/ 616 阅读
相关 java 获取全部参数及获取全部头信息 //获取参数 Map<String, String\[\]> parms = req.getParameterMap(); 迷南。/ 2022年01月30日 18:55/ 0 赞/ 372 阅读
相关 爬取全部校园新闻 0.从新闻url获取点击次数,并整理成函数 newsUrl newsId(re.search()) clickUrl(str.format()) re £神魔★判官ぃ/ 2022年01月07日 13:23/ 0 赞/ 443 阅读
相关 爬取全部的校园新闻 1.从新闻url获取新闻详情: 字典,anews ![ContractedBlock.gif][] ![ExpandedBlockStart.gif][] 1 - 淩亂°似流年/ 2021年12月21日 08:53/ 0 赞/ 426 阅读
相关 爬取全部的校园新闻 作业要求来自于[https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2941][https_edu.cnblogs. ╰+哭是因爲堅強的太久メ/ 2021年12月21日 01:34/ 0 赞/ 428 阅读
相关 获取一篇新闻的全部信息 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894 -------------------- 小咪咪/ 2021年12月15日 13:47/ 0 赞/ 246 阅读
还没有评论,来说两句吧...