爬虫:“掌握我,你需要掌握这些技术哦”
掌握爬虫用到的技术
- Python的基本语法知识
- 如何抓取HTML页面:HTTP请求的处理,urllib、urllib2、requests
- 解析服务器响应的内容:re、xpath、BeautifulSoup4(bs4)、jsonpath、pyquery等
- 如何采集动态HTML、验证码的处理:通用的动态页面采集:Selenium + PhantomJS(无界面):模拟真实浏览器加载js、ajax等非静态页面数据。Tesseract:机器学习库,机器图像识别系统,可以处理简单的验证码,复杂的验证码可以通过手动输入/专门的打码平台
- Scrapy框架:(Scrapy,Pyspider)
- 分布式策略 scrapy-reids:
- 爬虫 - 反爬虫 - 反反爬虫 之间的斗争(其实这个地方最后肯定是爬虫胜利,因为爬虫只是模拟用户的操作,只要你的网站让用户看,那么爬虫就能爬下来。
附上在网上看到蛮有用的一张Python爬虫思维导图
爬虫:“如果你还不太了解我,可以查看这篇(Python:从概念上了解爬虫What?Why?How?Who?(通俗易懂+详精版)https://blog.csdn.net/weixin_44015669/article/details/109297649)自我介绍的文章哟”.爱你ღ( ´・ᴗ・` )比心,谢谢支持~
还没有评论,来说两句吧...