学习 Python 爬虫,采集抖音用户信息经验分享
第一次发贴混脸熟,一前好几个号都没玩被清不仅,近来在学习python爬虫,想采集爬取抖音用户信息,由于见到相关爬虫岗位有这个需求,突发奇想,分享一下经验,顺便整理自己的思路。首先是听到b站不二小段的爬虫视频,脑子王者的外挂,通过更改fidder函数把脑子王者的json数据包保存本地,用python脚本循环读取数据包,之后手动打开浏览器搜索题目。如今我就想把这个思路扩充一下到抖音这儿来。首先安装最新的fidder,抖音用户的数据包传输合同是https。须要下载fidder的证书,安装到手机或则安卓模拟器。我用的模拟器,之后设置安卓的模拟器的代{过}{滤}理IP设置为笔记本的IP,如今模拟器所有的网路恳求都被fidder获取了,如今我们就是要抓取数据包,剖析数据包,推荐一个剖析json包的网址,能把很复杂难懂的数据节突显的很清晰,在模拟器刷抖音的时侯json数据包,我就一个个的把它复制下来看下,网址在图片中。
接出来就想办法保存这个数据包,重点就是更改fidder函数,fidder这个工具在做爬虫和外挂的时侯常常使用,特地的学习了一下这个fidder的使用。更改fiiderscript,这个包含用户信息的json数据包的恳求网址和host都是一样的,借助这个更改的函数,把它保存到本地某个文件夹。
fidder函数的保存到本地的数据只能覆盖,不能添加,所以只能用脚本循环读取了,所以用python写个脚本吧,把读下来的数据解析一下,保存到本地数据库。
如今就差最后一步写一个模拟人工划抖音的脚本了,既然用模拟器的话,想要多开几个,数据都会保存的更快那就用最小的帧率写一个吧320*480的帧率,节省资源,抓取用户的信息要步入个人主页。思路是在抖音上面往上划,辨识是不是广告或则直播,是广告再往下话,不是点头像,延时返回,之后循环。打包成apk安装到模拟器实机测试!速率还不错。还要继续优化脚本,设置消除缓存的功能才好,缓存太多了都会很卡。
虽然抓包的过程中有很多有意思的东西,例如抓到了无水印的视频链接,可以搜集出来,哈哈。还有一些细节问题,没有写清楚,有问题不懂的可以留言我会仔细解答哈。高手勿喷
最后附件代码打包,密码为52pojie。同时上传到百度云了。
代码.rar
页:
[1]