爬虫:“掌握我,你需要掌握这些技术哦”

阳光穿透心脏的1/2处 2022-12-18 11:59 266阅读 0赞

掌握爬虫用到的技术

20201026214237107.png

  1. Python的基本语法知识
  2. 如何抓取HTML页面:HTTP请求的处理,urllib、urllib2、requests
  3. 解析服务器响应的内容:re、xpath、BeautifulSoup4(bs4)、jsonpath、pyquery等
  4. 如何采集动态HTML、验证码的处理:通用的动态页面采集:Selenium + PhantomJS(无界面):模拟真实浏览器加载js、ajax等非静态页面数据。Tesseract:机器学习库,机器图像识别系统,可以处理简单的验证码,复杂的验证码可以通过手动输入/专门的打码平台
  5. Scrapy框架:(Scrapy,Pyspider)
  6. 分布式策略 scrapy-reids:
  7. 爬虫 - 反爬虫 - 反反爬虫 之间的斗争(其实这个地方最后肯定是爬虫胜利,因为爬虫只是模拟用户的操作,只要你的网站让用户看,那么爬虫就能爬下来。

附上在网上看到蛮有用的一张Python爬虫思维导图

watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDAxNTY2OQ_size_16_color_FFFFFF_t_70

爬虫:“如果你还不太了解我,可以查看这篇(Python:从概念上了解爬虫What?Why?How?Who?(通俗易懂+详精版)https://blog.csdn.net/weixin_44015669/article/details/109297649)自我介绍的文章哟”.爱你ღ( ´・ᴗ・` )比心,谢谢支持~

发表评论

表情:
评论列表 (有 0 条评论,266人围观)

还没有评论,来说两句吧...

相关阅读