以下所有内容仅供学习交流,相关链接已删除,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除!
本项目使用Scrapy框架实现对B站评论区的爬取
-
实现了对父评论区的全部爬取
-
这里的接口请求我还是使用的request库的session来实现会话的保持。因为B站评论区不是翻页操作,而是拉到底进行加载的操作。所以需要保持同一个会话中对这个接口反复请求才能返回多页的数据。
-
我也查了Scrapy的官方文档,按照他的流程去操作还是实现不了爬取多页评论。如果有更好的解决方法,烦请提交issue与我沟通,不胜感激
-
对于父评论区的请求这里使用原始的request请求,而不走Scrapy框架自写的request请求
-
实现了对子评论区的全部爬取
-
实现将数据保存为csv
-
实现将数据存入数据库
-
实现IP代理和UA代理