Tag:crawler

Tag (crawler)'s result:

python采集百度url

最近用python写了一个采集百度url的脚本,一个线程一次爬一个页面的全部url,使用了多线程、队列、bs4,感觉bs4挺强大。 功能描述:采集百度url,自定义页数,线程数,关键词,保存文件名 (注:此脚本使用线程数小于或等于页面数即可,由于使用了队列,即使线程数大于页面数效果也和等于页面数一样) 源代码: #coding: utf-……

python爬取代理脚本

最近写了一个爬取代理的python脚本,参考了一下别人的代码,有了大量代理就方便了,这是v1.0版本,采用了多线程(一页用一个线程爬代理),顺便熟悉一下队列和bs4,感觉bs4的确很强大而且方便很多。还有很多地方不是很完善,日后有空会继续完善这个脚本。 功能描述:爬取www.xicidaili.com的代理,并去1212.ip138.co……