最新更新版本增加商家、文章、問答采集功能
使用說明:下載采集器解壓,運行程序如圖

點擊登錄用戶,輸入官網(wǎng)的賬號和密碼,這里會顯示登錄成功和采集器到期日期。采集器免費7天,到期后可以直接在官網(wǎng)續(xù)費。

登錄官網(wǎng),用戶中心,點擊續(xù)費即可,收費為30元一個月 150元年半 200元一年。

點擊采集器的網(wǎng)站管理 - 添加網(wǎng)站

填寫網(wǎng)站資料
注:如果你的程序是多城市版,把多城市版鉤選上
域名直接填你網(wǎng)站的域名,這個域名是用來把采集到的圖片上傳到你的網(wǎng)站上的
數(shù)據(jù)庫地址一般就是你的服務(wù)器IP
使用官網(wǎng)合租服務(wù)器的,數(shù)據(jù)庫地址是域名解析地址加,2988
如:hosts3.ktongcheng.com,2988 注:逗號要用英文狀態(tài)下的
數(shù)據(jù)庫名、用戶名、密碼,可以在你的網(wǎng)站的web.config文件中找到,如圖

database=后面的是數(shù)據(jù)庫名
uid=后面的是數(shù)據(jù)庫用戶名
pwd=后面的是數(shù)據(jù)庫密碼
都填好后點一下測試數(shù)據(jù)庫鏈接,提示鏈接成功為正常,本采集器可以同時為多個網(wǎng)站采集內(nèi)容,所以可以添加多個網(wǎng)站資料。
添加好網(wǎng)站后,點一下網(wǎng)站管理中的【更新載入網(wǎng)站配置】,將網(wǎng)站的信息分類、地區(qū)分類、電話黑名單、中介電話名單、過濾詞導入過來。
當網(wǎng)站的分類、地區(qū)和電話黑名單等有變動時,重新點一下。
采集器不會采集電話黑名單的信息
采集規(guī)則 - 載入采集規(guī)則,把最新的采集規(guī)則載入進來,針對不同網(wǎng)站對應(yīng)不同的采集規(guī)則。站長也可以自己寫采集規(guī)則,可以看采集器規(guī)則教程。

添加采集任務(wù),以采集百姓網(wǎng)二手車為例。
點擊采集任務(wù) - 添加任務(wù)
任務(wù)名:自己寫一個,方便記住
網(wǎng)站選擇:選擇要把采集的信息寫入哪個網(wǎng)站
排序:是采集的順序,因為可以填加多個任務(wù),所以排序數(shù)字越大的,先采集
采集網(wǎng)址:直接把要采集網(wǎng)站的信息列表頁面地址填上,這里直接填上百姓網(wǎng)二手車的網(wǎng)頁地址,把頁碼替換成{p}
注(百姓網(wǎng)二手車點第二頁時,網(wǎng)址中變?yōu)?的數(shù)字就是頁碼,把這個2替換成{p}就可以了,其它網(wǎng)站也是照此操作)
采集頁數(shù):要采集多少頁,是從后頁向前采集
采集規(guī)則:根據(jù)你要采集的網(wǎng)站選擇對應(yīng)的規(guī)則,這里要采集百姓網(wǎng),所以選擇百姓網(wǎng)
默認分類:這里會顯示你網(wǎng)站的分類,選擇你要采集到哪個分類中
(注:如果不選擇,采集器會根據(jù)內(nèi)容自動判斷)
默認地區(qū):選擇采集到哪個地區(qū)(注:如果不選擇,采集器會根據(jù)內(nèi)容自動判斷)
有效期:這里填采集到的信息的有效期
采集圖片:鉤選就采集圖片,不選就不采集
自動審核:鉤選就是采集到的信息自動審核,不鉤選就是要手動去后臺審核
過濾重復(fù):當有兩條信息內(nèi)容是一樣時,只采集一條,因為有的網(wǎng)站有大量重復(fù)信息
已采集自動更新:之前采集過的信息,會直接更新,不會重復(fù)采集(不鉤選,不會采集之前采集過的信息,也不會更新)
采集間隔:有的網(wǎng)站有防采集功能,訪問速度太快會被屏蔽,這里可以把采集間隔設(shè)置3到5秒
水印設(shè)置,可以用來遮擋采集圖片上的水印,可以自己設(shè)置水印位置和透明度,100為不透明,0為完全透明。
都填好后,點添加采集任務(wù)
在采集管理 - 任務(wù)管理中,可以看到所有的采集任務(wù),可以修改和刪除,如果臨時不想采集某個任務(wù),可以把任務(wù)前的鉤去掉
采集任務(wù)都添加好后,點擊開始采集,等待采集完成

采集完成后,可以看到提示,采集完成,請點擊寫入信息。右側(cè)顯示每個任務(wù)采集成功多少條信息,重復(fù)多少條,黑名單多少條,失敗多少條
點寫入信息,這樣就把采集到的信息和圖片上傳到網(wǎng)站中了
等待寫入和整理完成,就可以關(guān)閉采集器了

這個采集器采集的信息是自動分部到當天凌晨5點到當前時間段的,所以不會出現(xiàn)所有信息發(fā)布時間都一樣的問題
采集器采集過的信息是不會重復(fù)采集的,如果想重新采集已經(jīng)采集過的內(nèi)容,可以點一下清空全部采集記錄或清空三天前采集記錄

采集器用了一段時間后,如果目錄太大,可以點一下
清空三天前采集記錄 ,這樣會把三天前的采集記錄清空
upload中保存的是采集到的圖片,已經(jīng)上傳了的,會直接刪除,這里可能有一些沒有刪除成功的,可以定期自己手動刪除一下

采集器常見問題及處理方法
一些采集規(guī)則是模擬瀏覽器訪問進行采集的,需要IE瀏覽器能正常訪問網(wǎng)站。
如果采集的過程中顯示如下圖,此網(wǎng)站的安全證書存在問題

或如下圖,無法打開頁面

請打開你的IE瀏覽器,點擊設(shè)置 - internet選項

將使用SSL3.0、使用TLS 1.0、使用TLS 1.1、使用TLS 1.2、使用TLS 1.3 都鉤選上,點擊確定,重啟電腦就可以解決。
在采集百姓網(wǎng)的過程中,如果采集間隔設(shè)置太短容易被屏蔽,建議采集間隔設(shè)置為5-10秒