1樓清空數(shù)據(jù) 2樓查看數(shù)據(jù),3樓網(wǎng)址庫講解 請(qǐng)你看完
1,清空網(wǎng)址和數(shù)據(jù)
如果你想把規(guī)則里的數(shù)據(jù)清空從新采集請(qǐng)按照下面的操作:
右擊采集規(guī)則====》清空任務(wù)所有采集數(shù)據(jù),清空該任務(wù)網(wǎng)址庫(備注:這個(gè)2個(gè)都要選擇下)
這樣就會(huì)把任務(wù)采集到數(shù)據(jù)和網(wǎng)址全部清空掉,再次運(yùn)行任務(wù)就從新采集了
2,只清空數(shù)據(jù)
按照上面的操作,會(huì)把采集的地址也會(huì)清空掉,地址就要從新采集了
假如你只是想從新采集內(nèi)容的話可以只要把這條采集信息勾選為未采集狀態(tài)辦法看下面
1,手動(dòng)勾選
如果數(shù)據(jù)不多或者只是針對(duì)部分?jǐn)?shù)據(jù)需要重新采集可以選擇此方法
首先打開本地編輯任務(wù)采集數(shù)據(jù)如下圖
然后采集器的右側(cè)可以看到采集到的數(shù)據(jù)
把采集的狀態(tài)設(shè)置為未采集如下圖
這樣運(yùn)行任務(wù) 不需要勾選采集網(wǎng)址 直接勾選采集內(nèi)容就可以了 節(jié)省時(shí)間
2,sql語句
如果數(shù)據(jù)很多 ,我們就使用sql語句來批量修改采集的狀態(tài)為“未采集”
說明下你選擇保存的數(shù)據(jù)庫是什么 這樣對(duì)應(yīng)的sql語句是有所不一樣的
知道數(shù)據(jù)庫的童鞋都知道每個(gè)數(shù)據(jù)庫的Sql語句格式都是不一樣的
我本地是使用sqlite數(shù)據(jù)庫,做為演示
點(diǎn)擊Sql按鈕如下圖:
寫sql語句如下圖,采集器把對(duì)應(yīng)數(shù)據(jù)庫的sql語句列出了,我們這里選擇“更新”數(shù)據(jù)庫
sql語句這里就不說明了會(huì)的自然會(huì),不會(huì)的在這里也說不明白 不明白的大家問度娘去。。
這里sql語句寫成“UPDATE Content SET [已采]=1” 下面的執(zhí)行就可以了
執(zhí)行成功了,點(diǎn)擊從新加載數(shù)據(jù) 就看到變化了 再次采集的時(shí)候會(huì)把之前采集的覆蓋掉。
假如你本地保存數(shù)據(jù)庫選擇的是mysql
使用“更新”sql語句是:“UPDATE `Data_Content_任務(wù)ID` SET `已發(fā)`=1 WHERE `標(biāo)題` is null”
這里說下這個(gè)任務(wù)id是什么
看下圖
把“任務(wù)ID” 對(duì)應(yīng)修改成數(shù)字就好
】
大家疑惑會(huì)什么不同的數(shù)據(jù)庫會(huì)這么大的區(qū)別,不需要去疑惑,本身不同的數(shù)據(jù)庫就是不一樣的
現(xiàn)在我們來說下如果查看采集到的數(shù)據(jù)
1,本地編輯采集任務(wù)數(shù)據(jù)
采集器有自帶的編輯器,我們可以通過這個(gè)個(gè)編輯器查看數(shù)據(jù)
按照上圖,右側(cè)就可以打開數(shù)據(jù)了
我們可以查看數(shù)據(jù)如果你是商業(yè)版用戶也可以修改數(shù)據(jù)后保存
如上圖選擇要修改的值 在下面編輯器那里修改 然后點(diǎn)擊下面的保存按鈕就可以了
2,從數(shù)據(jù)庫查看數(shù)據(jù)
大家都知道采集器這個(gè)目錄 \Data\LocoySpider 就是存放規(guī)則采集到的數(shù)據(jù)的地方,打開后看到的是
一個(gè)一個(gè)按照數(shù)字命名的文件夾 這個(gè)數(shù)字就是對(duì)應(yīng)的任務(wù)id 數(shù)字 按照任務(wù)ID命名的文件下面的數(shù)據(jù)庫文件就是存放的
對(duì)應(yīng)規(guī)則的采集數(shù)據(jù)
這里如果知道規(guī)則的任務(wù)ID呢?看下圖
如上圖所示有2種方式打開 對(duì)應(yīng)的文件
1,規(guī)則右擊==》打開DATA下任務(wù)文件夾 這樣就可以直接打開對(duì)應(yīng)的數(shù)據(jù)庫文件夾
2,選中規(guī)則,有下角 會(huì)顯示任務(wù)對(duì)應(yīng)的ID 然后去DATA文件夾下找到對(duì)應(yīng)的文件
數(shù)據(jù)庫文件名是SpiderResult。如果后綴是db3說明你本地保存的數(shù)據(jù)庫是sqlite 如果打開這個(gè)文件請(qǐng)百度下
如果后綴名是mdb 說明你本地保存的數(shù)據(jù)庫是選擇的access數(shù)據(jù)庫 這個(gè)可以直接用excel 打開
如果你想用更專業(yè)的工具打開它 也請(qǐng)你百度下如果打開
如果你本地保存數(shù)據(jù)庫選擇的是mysql sqlserver mongodb 那么你一定不是菜鳥 對(duì)數(shù)據(jù)庫有一定的了解
那么如果查看我就不要說了
網(wǎng)址庫
大家知道規(guī)則的網(wǎng)址庫是那個(gè)嗎
就是\Data\LocoySpider\PageUrl 同樣是根據(jù)任務(wù)ID命名的
采集器把任務(wù)采集到的地址都保存到這里面的文件下用來
檢測(cè)網(wǎng)址重復(fù)呀 都是根據(jù)這里面的數(shù)據(jù)庫文件
里面內(nèi)容是加密的