【Python爬虫】简易网页采集器

女爷i 2022-12-14 03:37 279阅读 0赞

需求

爬取搜狗指定词条对应的搜索结果页面。

分析

四大步:指定url —> 发起请求 —> 获取响应数据 —> 持久化存储
我搜索的词条为“哈利波特”,其url为 “https://www.sogou.com/web?query=哈利波特”(这是简洁处理过的,实际后面的一些参数省略了,不影响)。但为了能实现搜索不同的词条,我设置了动态参数kw,将其分装到字典中。当我们使用get方法发出请求时,请求所对应的url的参数就可以用params赋值。

代码

  1. import requests
  2. if __name__ == "__main__":
  3. # UA伪装:将对应的User-Agent封装到一个字典中
  4. headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'}
  5. url = 'https://www.sogou.com/web'
  6. # 处理url携带的参数:封装到字典中
  7. kw = input('enter a word:')
  8. param = { 'query': kw}
  9. # 对指定的url发起的请求对应的url是携带参数的,并且请求过程中处理了参数
  10. response = requests.get(url=url, params=param, headers=headers)
  11. page_text = response.text
  12. fileName = kw + '.html'
  13. with open(fileName, 'w', encoding='utf-8') as fp:
  14. fp.write(page_text)
  15. print('采集完毕!!!')

发表评论

表情:
评论列表 (有 0 条评论,279人围观)

还没有评论,来说两句吧...

相关阅读

    相关 python爬虫登录网页

    爬虫登录网页是指使用爬虫程序自动模拟登录流程,获取网站的数据。 在 Python 中登录网页,需要使用第三方库如 requests、mechanicalsoup 或者 sel

    相关 网页采集-UA伪装

    网页采集器-UA伪装 UA伪装 请求载体身份标识的伪装: User-Agent: 请求载体身份标识,通过浏览器发起的请求,请求载体为浏览器,则该请求的User-