爬虫--今日头条

秒速五厘米 2023-08-17 16:35 137阅读 0赞

1、分析今日头条

　　在看头条的时候可以发现展示出来的页面的数据都是一些封装过的js代码或者css代码，所以这时候就需要考虑页面的数据是不是封装在cookie里面了

　　回过头去看cookie就可以发现有一个s_v_web_id的cookie字段，然后上去一试就得到了当前网页的真是源代码，所以我们就可以根据这个cookie和网址一起想服务端发送过去以来获得真实的数据

2、选取合适的方法来爬

　　当我们获得了真实的数据以后，要走的就是解析这里面的内容了，我又定睛一看，发现我要的所有信息都放在了data这个字典里面了，所以我就循环data，然后获得里面的title和id（要记住这里面的id是需要进行拼接的，所以只能手动进行拼接）

3、选择存储方式

　　我代码里面没有写存储方式，但是我一般使用mongodb比较多，所以就可以直接将数据保存到mongo中

具体代码在：https://github.com/1213William/toutiao_spider

转载于//www.cnblogs.com/tulintao/p/11486268.html

发表评论取消回复

表情：

评论列表（有 0 条评论，137人围观）

还没有评论，来说两句吧...

相关阅读

相关爬虫--今日头条

1、分析今日头条　　在看头条的时候可以发现展示出来的页面的数据都是一些封装过的js代码或者css代码，所以这时候就需要考虑页面的数据是不是封装在cookie里面了　　回

秒速五厘米/ 2023年08月17日 16:35/ 0 赞/ 138 阅读

相关今日头条街拍

spider.py import json import os from urllib.parse import urlencode impo

约定不等于承诺〃/ 2023年08月17日 16:32/ 0 赞/ 217 阅读

相关 Vue仿今日头条

利用[Express+MongoDB+Vue][Express_MongoDB_Vue]实现《Vue仿今日头条》功能，效果如下图：代码顺序如下： 1. Vue仿今

待我称王封你为后i/ 2023年06月24日 13:24/ 0 赞/ 65 阅读

相关今日头条阅读量怎么刷_头条搜索优化如何提高今日头条文章阅读量？

![4ac7fad3762bddd286d2112a211b5a29.png][] 我最开始做今日头条的时候，文章基本都是几十几百的阅读量，粉丝涨不上去，很焦虑。中间阅读量稍

野性酷女/ 2023年01月03日 01:49/ 0 赞/ 247 阅读

相关今日头条2018 坐标

![Image 1][] ![1png][] ![2png][] 其中“最大”是在右上方的意思，即任意一点没有同时x,y都比它大的点。创建Node节点

约定不等于承诺〃/ 2022年06月09日 13:36/ 0 赞/ 349 阅读

相关今日头条面试总结

头条2017年4月27号面试一面： 1. hashmap 的实现原理，是不是线程安全的？ 2. 如何解决hashmap线程不安全问题？ 3. 弱引用和软引用

水深无声/ 2022年05月29日 00:58/ 0 赞/ 408 阅读

相关今日头条案例抓取

[https://www.cnblogs.com/woshiruge/p/8449304.html][https_www.cnblogs.com_woshiruge_p_844

淩亂°似流年/ 2022年05月11日 12:36/ 0 赞/ 461 阅读

相关今日头条面试

问题：矿泉水1块钱1瓶，喝完以后，2个空瓶子可以换一瓶新矿泉水。问：花10块钱最后最多能得多少瓶矿泉水。解答： public class Main{

﹏ヽ暗。殇╰゛Y/ 2022年04月01日 03:14/ 0 赞/ 488 阅读

相关今日头条Android面试

点击关注异步图书，置顶公众号每天与你分享 IT好书技术干货职场知识首先说一下，今日头条的面试主要分为三轮到四轮，如果是旺季面三轮，首先是基础面试，基本面试

怼烎@/ 2022年03月16日 07:44/ 0 赞/ 470 阅读

相关 Python爬虫——新闻热点爬取中国新闻网,今日头条，

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ub

淡淡的烟草味﹌/ 2021年07月25日 18:25/ 0 赞/ 1270 阅读