本發(fā)明涉及一種基于IP的高效爬蟲(chóng)方法,包括以下步驟:(1)獲取代理IP,將IP放入可用性檢測(cè)隊(duì)列,請(qǐng)求在本地搭建的服務(wù)器,將高質(zhì)量代理的IP放入普通IP池;(2)根據(jù)實(shí)際采集任務(wù),制定指定網(wǎng)站使用的IP池;(3)對(duì)各個(gè)代理池的IP請(qǐng)求服務(wù)器,刪掉失效的IP。采用了本發(fā)明的基于IP的高效爬蟲(chóng)方法,根據(jù)采集不同的網(wǎng)站,添加不同的指定網(wǎng)站使用的IP池,不同的網(wǎng)站用不同的IP池,能最大限度的利用IP,本發(fā)明節(jié)約了因無(wú)法獲取數(shù)據(jù)而頻繁切換IP的時(shí)間,大大提高了爬蟲(chóng)效率,通過(guò)對(duì)指定網(wǎng)站使用的IP池監(jiān)測(cè)就能很好解決該問(wèn)題,提高利用率和效率。
聲明:
“基于IP的高效爬蟲(chóng)方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)