爬虫--今日头条

秒速五厘米 2023-08-17 16:35 137阅读 0赞

1、分析今日头条

  在看头条的时候可以发现展示出来的页面的数据都是一些封装过的js代码或者css代码,所以这时候就需要考虑页面的数据是不是封装在cookie里面了

  回过头去看cookie就可以发现有一个s_v_web_id的cookie字段,然后上去一试就得到了当前网页的真是源代码,所以我们就可以根据这个cookie和网址一起想服务端发送过去以来获得真实的数据

2、选取合适的方法来爬

  当我们获得了真实的数据以后,要走的就是解析这里面的内容了,我又定睛一看,发现我要的所有信息都放在了data这个字典里面了,所以我就循环data,然后获得里面的title和id(要记住这里面的id是需要进行拼接的,所以只能手动进行拼接)

3、选择存储方式

  我代码里面没有写存储方式,但是我一般使用mongodb比较多,所以就可以直接将数据保存到mongo中

具体代码在:https://github.com/1213William/toutiao_spider

转载于:https://www.cnblogs.com/tulintao/p/11486268.html

发表评论

表情:
评论列表 (有 0 条评论,137人围观)

还没有评论,来说两句吧...

相关阅读

    相关 爬虫--今日

    1、分析今日头条   在看头条的时候可以发现展示出来的页面的数据都是一些封装过的js代码或者css代码,所以这时候就需要考虑页面的数据是不是封装在cookie里面了   回

    相关 今日Android面试

    点击关注异步图书,置顶公众号 每天与你分享 IT好书 技术干货 职场知识 首先说一下,今日头条的面试主要分为三轮到四轮,如果是旺季面三轮,首先是基础面试,基本面试