抓取速度最快的谷歌IP

之前发表了一篇谷歌能访问镜像的文章,还是比较受欢迎,其实代码非常的简单。今天正好有时间,将代码上传到了github上,感兴趣的朋友可以下载来运行看看。

github地址: https://github.com/it2048/pynews

代码原理:

1.首先通过开源项目获取了谷歌全球4000+的ip,开源地址看这里 点击跳转

2.之后我考虑的是写程序区ping IP地址,发现这样太low了,而且ping的通并不代表能访问。所以选择了curl的方式。但是python中curl设置超时最小为1秒,导致效率不高跑完4000++个ip需要20分钟左右。

3.谷歌IP在国内查的严……所以一次能抓取并不代表稳定可用。一般需要抓5次左右,最后还坚挺着的ip都比较稳定。

4.之后我想的是对这些IP做下负载均衡,技术还在摸索中。