模拟登陆爬取知乎

朴灿烈づ我的快乐病毒、 2022-06-17 13:13 403阅读 0赞

2017.4.26更新

实现功能为爬取指定关键字下所有问题及每个问题中的所有回答
回答中文字和图片是分离的，因为从服务器返回的JSON数据中内容部分比较混乱，暂时只是粗暴的做了分离操作
后续将加入多线程下载、爬取用户、爬取话题的功能

项目地址
GitHub : ZhihuCrawler

使用说明

本程序实现爬取指定关键词下所有问题及所有回答，保存格式为csv格式
采用模拟登陆，首次使用时需要输入账号和密码
本程序基于Python3开发，使用包括requests、http、bs4、urllib和json等第三方库
运行Main.py文件，无需做其他修改
附带了Json.json文件，这是某个问题下从服务器返回的数据，可以根据需求手动修改GetContent.py文件中parserQuestion()方法中保存类别的信息

发表评论取消回复

表情：

评论列表（有 0 条评论，403人围观）

还没有评论，来说两句吧...

相关阅读

相关 python爬取知乎热榜Top50

python爬取知乎热榜Top50 1、导入第三方库 2、程序的主函数 3、正则表达式匹配数据 4、程序运行结果 5、程序源代码 1、导

淡淡的烟草味﹌/ 2022年11月12日 04:21/ 0 赞/ 382 阅读

相关模拟登陆爬取知乎

2017.4.26更新实现功能为爬取指定关键字下所有问题及每个问题中的所有回答回答中文字和图片是分离的，因为从服务器返回的JSON数据中内容部分比较混乱，暂时

朴灿烈づ我的快乐病毒、/ 2022年06月17日 13:13/ 0 赞/ 404 阅读

相关用python做有趣的事儿——模拟登陆知乎

用Python做网络数据采集，是非常方便的。特别是使用第三方库requests。 window下安装方法 pip install requests 处理网页超文本信息

偏执的太偏执、/ 2022年06月08日 00:54/ 0 赞/ 303 阅读

相关新版知乎模拟登陆

1.Cookie和Session的区别如果你登录知乎，填写过用户名、密码下次进来的时候不想再填写了，那么你在第一次登录后，服务器就会发送给你的浏览器一个Cookie，C

「爱情、让人受尽委屈。」/ 2022年05月23日 02:19/ 0 赞/ 449 阅读

相关 requests + pyquery爬取知乎发现首页

简述学习了崔神的代码。然后自己手动敲了下，mark一下代码 import requests from pyquery import Py

短命女/ 2022年05月22日 05:19/ 0 赞/ 338 阅读

相关知乎登陆

知乎登陆 @(博客)\[Python, 登陆, 知乎, 爬虫\] 文章目录知乎登陆背景题外话环境

本是古典何须时尚/ 2022年05月15日 23:52/ 0 赞/ 549 阅读

相关爬取知乎------使用分布式scrapy-redis

上次分享的那个增量爬取方式，一直没找到Berkeley DB在windows上如何安装，有解决的帮忙指导。找资料的时候发现使用分布式scrapy-redis可以实现相同的功能。

朴灿烈づ我的快乐病毒、/ 2022年04月23日 05:14/ 0 赞/ 397 阅读

相关基于pyppeteer实现最新版知乎模拟登陆

现在还在爬知乎的同学，想必已经被知乎这个登陆搞得头大了吧，哈哈哈哈哈！！用selenium吧，不行，会被检测出来，用requests构造表单吧，提交的加密参数复杂，而且还不给出

分手后的思念是犯贱/ 2022年04月16日 02:21/ 0 赞/ 484 阅读

相关 Scrapy实战：爬取知乎用户信息

思路：从一个用户（本例为“张佳玮”）出发，来爬取其粉丝，进而爬取其粉丝的粉丝… ![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdG

男娘i/ 2022年02月27日 14:24/ 0 赞/ 505 阅读

相关用python爬虫爬取知乎热榜

用python爬虫爬取知乎热榜话不多说，直接上代码！ import requests import re from lxml import e

今天药忘吃喽~/ 2021年07月27日 00:57/ 0 赞/ 691 阅读