Python网页爬取的通用代码框架

傷城~ 2022-06-12 04:51 280阅读 0赞

Goals:

有效处理和避免访问和爬取网页过程中可能出现的错误

Details：

import requests def getHTMLText(url) try: r = requests.get(url,timeout=30) r.raise_for_status() #如果状态码不是200，将引发HTTPError异常 r.encoding = r.apparent_encoding return r.text expect: return "产生异常" if _name_ =="_main_" url = "http://www.baidu.com" print(getHTMLText(url))

*说明：这样的网页爬取的通用代码可以提高访问和爬取的效率

More：

Requests库的异常类型

requests.ConnectionError	网络连接错误异常，如DNS查询失败等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，重定向异常
requests.ConnectionTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时错误

Response类关于异常的方法

r.raise_for_status

判断状态码，如果状态码不是200，就会产生requests.HTTPError异常

发表评论取消回复

表情：

评论列表（有 0 条评论，280人围观）

还没有评论，来说两句吧...

相关阅读

相关如何利用Python的Scrapy框架爬取网页数据？

要使用Python的Scrapy框架爬取网页数据，你需要遵循以下步骤： 1. **安装Scrapy**： - 如果尚未安装，打开命令行（WindowsPowerShel

秒速五厘米/ 2025年03月01日 06:09/ 0 赞/ 23 阅读

相关爬虫初探：Python Scrapy框架爬取网页内容

Scrapy 是一个强大的 Python 网页抓取和分析框架。它设计用于大规模、高效率的爬取。以下是如何使用 Scrapy 构建一个简单的爬虫来爬取网页内容： 1. 安装

ゞ浴缸里的玫瑰/ 2025年01月13日 04:39/ 0 赞/ 61 阅读

相关 Python爬取网页内容

import urllib.request url = "https://blog.csdn.net/zhangphil" response

浅浅的花香味﹌/ 2024年02月19日 17:17/ 0 赞/ 156 阅读

相关爬取网页的通用代码框架

爬取网页的通用代码框架 import requests def getHTMLText(url): try: r=requests.

短命女/ 2023年07月18日 09:56/ 0 赞/ 79 阅读

相关 java 爬取网页代码

package text; import java.io.BufferedReader; import java.io.IOException

客官°小女子只卖身不卖艺/ 2022年12月22日 00:56/ 0 赞/ 266 阅读

相关学习python爬取网页

新手学习python爬取网页先用下面4个库就够了：（第4个是实在搞不定用的，当然某些特殊情况它也可能搞不定） 1. 打开网页，下载文件：urllib 2

柔情只为你懂/ 2022年07月14日 09:21/ 0 赞/ 375 阅读

相关 Python网页爬取的通用代码框架

Goals: 有效处理和避免访问和爬取网页过程中可能出现的错误 Details： import requests def getHTMLText(url

傷城~/ 2022年06月12日 04:51/ 0 赞/ 281 阅读

相关 Python爬取网页的图片数据

本案例是基于PyCharm开发的，也可以使用idea。 [在项目内新建一个python文件TestCrawlers.py][python_TestCrawlers.py]

你的名字/ 2022年04月18日 06:29/ 0 赞/ 397 阅读

相关 Python爬取整个网页的数据

本案例是基于PyCharm开发的，也可以使用idea。 [在项目内新建一个python文件Test.py][python_Test.py] [Test.py][]

淩亂°似流年/ 2022年04月17日 05:19/ 0 赞/ 556 阅读

相关 python爬取网页的通用代码框架

代码如下: import requests def getHTMLText(url): try: r = r

刺骨的言语ヽ痛彻心扉/ 2022年02月14日 06:45/ 0 赞/ 287 阅读