Python爬取新闻网站保存标题、内容、日期、图片等数据

爱被打了一巴掌 2022-12-24 09:53 516阅读 0赞

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入


基本开发环境

  • Python 3.6
  • Pycharm

    import requests
    import parsel
    import pdfkit
    import csv
    import threading

相关模块pip安装即可

确定目标网页

在这里插入图片描述

获取数据

  • 标题
  • 内容 保存成PDF
  • 日期
  • 图片 保存本地
  • 详情页url、日期、图片地址等等 保存csv

在这里插入图片描述
网站是静态网页,没有什么难度
在这里插入图片描述

详情页

同样是静态页面
在这里插入图片描述
在这里插入图片描述
网页源代码已经说明数据在什么地方了,利用相关的解析工具,对网页数据进行解析即可。

代码实现

  • 请求网页以及解析

    def get_html(html_url):

    1. response = requests.get(url=html_url, headers=headers)
    2. return response
  1. def get_pars(html_data):
  2. selector = parsel.Selector(html_data)
  3. return selector
  • 保存内容 PDF格式

    html_str = “”” <!doctype html> Document {article} “””
    def save_article(article, title):

    1. html_path = '重庆新闻\\' + title + '.html'
    2. pdf_path = '重庆新闻pdf\\' + title + '.pdf'
    3. html = html_str.format(article=article)
    4. with open(html_path, mode='w', encoding='utf-8') as f:
    5. f.write(html)
    6. print('{}已下载完成'.format(title))
    7. # exe 文件存放的路径
    8. config = pdfkit.configuration(wkhtmltopdf='C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe')
    9. # 把 html 通过 pdfkit 变成 pdf 文件
    10. pdfkit.from_file(html_path, pdf_path, configuration=config)
  • 保存csv文件

    f = open(‘新闻.csv’, mode=’a’, encoding=’utf-8-sig’, newline=’’)
    csv_writer = csv.DictWriter(f, fieldnames=[‘标题’, ‘作者’, ‘日期’, ‘新闻详情页’])
    csv_writer.writeheader()

  • 保存图片

    def save_img(img_urls):

    1. for i in img_urls:
    2. img_url = 'http://news.cqu.edu.cn' + i
    3. img_content = get_html(img_url).content
    4. img_name = img_url.split('/')[-1]
    5. with open('新闻图片\\' + img_name, mode='wb') as f:
    6. f.write(img_content)
  • 主函数

    def main(url):

    1. html_data = get_html(url).text
    2. selector = get_pars(html_data)
    3. lis = selector.css('body > div:nth-child(4) > div > div.lists .title a::attr(href)').getall()
    4. for li in lis:
    5. content_data = get_html(li).text
    6. li_selector = get_pars(content_data)
    7. title = li_selector.css('.dtitle::text').get() # 新闻标题
    8. article = li_selector.css('.acontent').get() # 新闻内容
    9. name_list = li_selector.css('.dinfoa a::text').getall() # 作者
    10. name = '|'.join(name_list)
    11. date_list = li_selector.css('.ibox span::text').getall()
    12. date_str = ''.join(date_list) # 新闻日期
    13. img_urls = li_selector.css('.acontent p img::attr(src)').getall() # 获取新闻内图片
    14. dit = {
    15. '标题': title,
    16. '作者': name,
    17. '日期': date_str,
    18. '新闻详情页': li,
    19. }
    20. csv_writer.writerow(dit)
    21. save_article(article, title)
    22. save_img(img_urls)
  1. if __name__ == '__main__':
  2. for page in range(1, 11):
  3. url = 'https://news.cqu.edu.cn/newsv2/news-127.html?&page={}'.format(page)
  4. main_thread = threading.Thread(target=main, args=(url,))
  5. main_thread.start()

在这里插入图片描述

  • 文件PDF

在这里插入图片描述

在这里插入图片描述

  • 详情页url
    在这里插入图片描述
  • 相关图片

图片可以按照标题后缀数字123命名,这个地方可以优化
在这里插入图片描述

  • csv文件数据

在这里插入图片描述

完整代码

  1. import requests
  2. import parsel
  3. import pdfkit
  4. import csv
  5. import threading
  6. f = open('新闻.csv', mode='a', encoding='utf-8-sig', newline='')
  7. csv_writer = csv.DictWriter(f, fieldnames=['标题', '作者', '日期', '新闻详情页'])
  8. csv_writer.writeheader()
  9. headers = {
  10. 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
  11. }
  12. html_str = """ <!doctype html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Document</title> </head> <body> {article} </body> </html> """
  13. def get_html(html_url):
  14. response = requests.get(url=html_url, headers=headers)
  15. return response
  16. def get_pars(html_data):
  17. selector = parsel.Selector(html_data)
  18. return selector
  19. def save_article(article, title):
  20. html_path = '重庆新闻\\' + title + '.html'
  21. pdf_path = '重庆新闻pdf\\' + title + '.pdf'
  22. html = html_str.format(article=article)
  23. with open(html_path, mode='w', encoding='utf-8') as f:
  24. f.write(html)
  25. print('{}已下载完成'.format(title))
  26. # exe 文件存放的路径
  27. config = pdfkit.configuration(wkhtmltopdf='C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe')
  28. # 把 html 通过 pdfkit 变成 pdf 文件
  29. pdfkit.from_file(html_path, pdf_path, configuration=config)
  30. def save_img(img_urls):
  31. for i in img_urls:
  32. img_url = 'http://news.cqu.edu.cn' + i
  33. img_content = get_html(img_url).content
  34. img_name = img_url.split('/')[-1]
  35. with open('新闻图片\\' + img_name, mode='wb') as f:
  36. f.write(img_content)
  37. def main(url):
  38. html_data = get_html(url).text
  39. selector = get_pars(html_data)
  40. lis = selector.css('body > div:nth-child(4) > div > div.lists .title a::attr(href)').getall()
  41. for li in lis:
  42. content_data = get_html(li).text
  43. li_selector = get_pars(content_data)
  44. title = li_selector.css('.dtitle::text').get() # 新闻标题
  45. article = li_selector.css('.acontent').get() # 新闻内容
  46. name_list = li_selector.css('.dinfoa a::text').getall() # 作者
  47. name = '|'.join(name_list)
  48. date_list = li_selector.css('.ibox span::text').getall()
  49. date_str = ''.join(date_list) # 新闻日期
  50. img_urls = li_selector.css('.acontent p img::attr(src)').getall() # 获取新闻内图片
  51. dit = {
  52. '标题': title,
  53. '作者': name,
  54. '日期': date_str,
  55. '新闻详情页': li,
  56. }
  57. csv_writer.writerow(dit)
  58. save_article(article, title)
  59. save_img(img_urls)
  60. if __name__ == '__main__':
  61. for page in range(1, 11):
  62. url = 'https://news.cqu.edu.cn/newsv2/news-127.html?&page={}'.format(page)
  63. main_thread = threading.Thread(target=main, args=(url,))
  64. main_thread.start()

发表评论

表情:
评论列表 (有 0 条评论,516人围观)

还没有评论,来说两句吧...

相关阅读

    相关 jsoup网站内容

    soup爬取网站内容,感觉是一件很神奇的事。如果爬取的内容进行非法的传播或进行商业用途,可能会收到法院的传票(被仲裁),所以请确认你的用途,以免官司或牢狱之苦。总而言之,...

    相关 Python爬虫——网站图片

      爬虫这东西最早出现在我大学计算机网络的课程上面,我们当时的老师人很好,期末不笔试,他说这东西笔试没什么用,对于一个年纪比较大的老师来讲,能提出这种方式,实在难得。当时在考虑