本軟件屬于網絡類應用軟件,在Windows平臺使用的網絡圖片爬取工具,主要功能為根據提供的網站地址,分析網頁源碼獲取網站的圖片資源,能夠實現簡單分類并存儲到數據庫和硬盤中。
貝殼圖片爬取工具使用方法
(1)本技術需配合SQL Server數據庫使用,請參考附錄安裝SQL Server 2008。
(2)獲取圖片
在獲取圖片時,需要用戶自己輸入要抓取的根網址,這里的根網址需要保證其真實存在,如果不存在則會提示網頁源代碼獲取失敗,從而導致任務啟動失敗。
(3)搜索參數設置
在搜索參數設置的時候,需要慎重考慮其各個參數之間的制約關系,有以下幾種情況需要說明。
如果搜索深度設置過大,那么就需要將抓取數據容量設置的大一些,否則任務會因為抓取容量不足而被迫停止抓取工作。
如果能夠保證自己的網絡連接正常,則選擇不使用代理服務器。因為使用代理服務器,在任務執行過程中,如果代理服務器失效或者停止活動,則需要重新選擇代理服務器,這中間會耗費大量時間來更換代理服務器。
在選擇開始執行時間時,不易將執行時間設置的過長,因為設置的過長會使任務長期處于等待狀態,建議只有在任務較少的情況下這樣設置。
(4)關鍵字管理
在關鍵字管理中,需要注意的是在添加主關鍵字的時候,要同時添加一個與主關鍵字名字相同的子關鍵字,因為在圖片進行分類的時候,首先比對的是子關鍵字,只有子關鍵字匹配之后才能確定其分類歸屬。
另外需要注意的是,刪除主關鍵字時會將與其相關的所有子關鍵字一同刪除。
(5)多任務
鑒于對任務耗費資源的考慮,同時執行的任務個數設定為5個,超過5個的任務只能處于等待狀態,只有5個被執行任務中有結束的,處于等待的任務才能被執行。
- PC官方版
- 安卓官方手機版
- IOS官方手機版