这个月琐事比较多,工作有点忙,没太有新的进展,只是月初的时候尝试用selenium爬取了一些需要的数据。
背景
工作里需要用的一些基础资料可以在一些网站上找到,只是数据量比较大,网站上公布的是每天的资料,我需要的是每个月的,所以需要把每天的资料爬取下来然后再处理。最开始是打算用requests库构造请求然后处理返回的数据,结果发现需要的数据在返回时放在了一个_VIEWSTATE里,然后可能是经过加密处理了,反正不是原始的数据,所以这个方法暂时就用不了了。然后就想通过selenium直接模拟一个浏览器出来,然后把需要的数据提取出来。
大致流程
首先是
pip install selenium
安装selenium然后需要去下载浏览器对应版本的驱动 驱动下载地址
下载完之后应该需要将文件放到环境变量中,可以参考 Unable to Locate Driver Error
代码示例
1 | from selenium import webdriver |
参考资料
最后
为了防止给服务器太大压力,当时写好程序之后设置了一个查询间隔,大概是3秒查一次,这样最终跑了一晚上,获取了差不多20年的资料。要是手动查的话估计好很久吧。