關關采集器是一款非常實用的網絡采集器,這里東坡小編帶來這款關關超級采集器牛X小說專用版,綠色破解,下載解壓后無需注冊,可以直接使用,喜歡的朋友快來下載吧。
關關超級采集器牛X小說專用版功能特色
1、采集和生成速度更快更穩定。
2、支持亂序采集模式。
3、替換采集模式+圖片行間水印+圖片FTP負載+文字圖片化等等。
4、支持server2003或server2008。
5、集圖片沒有黑塊和其他BUG,而且不會再有CPU達到100%。
6、不會出現界面卡死、運行緩慢等。
7、敬重聲明:采集器僅提供研究和學習,不提供商業應用。
8、完善的技術售后支持。
關關采集規則
介紹一下關關采規則當中需要用到的一些標簽
\d* 表示數字 \s* 表示空格+換行 .+? 表示字符(不能為空) .* 表示字符(可以為空)
() 表示我們需要的部分 ((.|\n)*) 章節的內容部分,包括了換行。
=====與杰奇后臺標簽的對應關系=====
!!!! 相當于 ([^><]*)
~~~~ 相當于 ([^><'"]*)
^^^^ 相當于 ([^><\d]*)
$$$$ 相當于 ([\d]*)
**** 相當于 (.*)
現在開始編寫規則,假設目標站為小說書庫[1]
首先我們需要復制一份原有的規則做模版(規則文件存放在Rules目錄下)。把復制的那份做模板的規則命名為xssk.xml 或小說書庫.xml,這個主要是便于規則管理。
運行采集器里的規則管理工具,打開后載入剛剛我們命名為xssk.xml 或小說書庫.xml的文件。
現在可以正式的編寫規則了,我們寫規則時要找的標志性代碼必需是整個頁面里唯一的代碼,其次我們取用的部份代碼超精簡超好。
1. GetSiteName(站點名稱) 這里我們寫小說書庫(在執行任務時會在上方顯示)
2. GetSiteCharset(站點編碼) 這里我們打開小說書庫[1] 源代碼查找 charset= 得到charset=gbk這個gbk就是我們需要的站點編碼
3. GetSiteUrl(站點地址) 這個就不用我說了吧
4. NovelListUrl(站點最新列表地址) 因為這些每個站點的不同,這個就需要自己去找了小說書庫的是/modules/article/toplist.php?sort=lastupdate
5. NovelList_GetNovelKey(從最新列表中獲得小說編號) 此規則中需要同時獲得書名,獲得書名是在手動模式的時候用到,如果你要用手動模式那么必須獲得書名,否則手動模式將會無法使用。我們 打開/modules/article/toplist.php?sort=lastupdate 這個地址查看源文件,我們編寫這個規則的時候找到想要獲得的內容所在的地方,比如我們打開地址看到想要獲得的內容的第一本小說的名字是“從零開始”我們在源文件里面找到“從零開始”復制代碼我們編寫規則用到的代碼其實也不是很多,編寫規則的原則是能省則省,也就是說代碼越短越好除非萬不得已一般精短一些比較好。好了不廢話了,在這個規則里面我們需要用到的是<td class="L"><a href="/modules/article/articleinfo.php?id=1959">從零開始</a></td>
復制代碼我們將這段改下<td class="L"><a href="/modules/article/articleinfo.php?id=(\d*)">(.+?)</a></td>
復制代碼其中 (\d*) 表示編號 (.+?) 表示小說名 .+?表示代替此位置字符,經過測試正確
6. NovelUrl(小說信息頁地址) 這個很容易,我們隨便點開一本小說就能知道了,比如說/modules/article/articleinfo.php?id=1959這本小說,我們可以看到的我們改下將里面的1959換成 {NovelKey} 一般情況表示小說編號/modules/article/articleinfo.php?id={NovelKey}
7. NovelName(獲得小說名稱正則) 我們還打開剛才那本書/modules/article/articleinfo.php?id=1959查看源代碼,獲得小說名稱那我們在源代碼里查找到“從零開始”,需要得到前后代碼為唯一的位置,一般小說站的名稱都在H1或者H2標簽里,這個我們得到的內容是
<h1>從零開始 全文閱讀</h1>
復制代碼這一段 我們改下
<h1>(.+?) 全文閱讀</h1>
下面的 NovelAuthor(獲得小說作者)、LagerSort(獲得小說大類)、SmallSort(獲得小說大類)、NovelIntro(獲得小說簡介)、NovelKeyword(獲得小說主角(關鍵字))、NovelDegree(獲得寫作進程)、NovelCover(獲得小說封面)這些呢我就不演示了,這些跟上面的那個獲得小說名方法是一樣的,也就所謂的一通百通。需要說到的是獲得簡介的時候最好用 ((.|\n)*)來代替,因為中間可能包含換行。
8. NovelInfo_GetNovelPubKey(獲得小說公眾目錄頁地址)很多站目錄頁的地址有子ID在前邊,所以我們要采集目錄頁的地址我們獲得代碼如下:
<a class="read" href="/1959.html" title="從零開始全文閱讀">全文閱讀</a> 復制代碼這一段 我們改下<a class="read" href="/(.+?)" title=".+?">全文閱讀</a>
9. PubIndexUrl(公眾目錄頁地址) 這個里面寫入{NovelPubKey}
10. PubVolumeSplit(分割分卷) 這個分割分卷 有寫地方需要注意到 如果分割分卷的正則沒對 那么有可能 對于下面的 獲得章節名那些有很大的影響 這里 我們獲得 分割部分的代碼呢 按我的經驗呢 是找到第一個 分卷 跟下面的分卷 查看他們的共同處 在我們分析/1959.html 這個目錄章節里面的源代碼 可以看出分卷的代碼為H2標簽,因此分割分卷就填寫<h2>
11 . PubVolumeName(獲得分卷名) 上面我們說明分割部分用到<h2>因此分卷名為
<h2>(.+?)</h2>
12. PubChapterName(獲得章節名) 這個我們拿一段來說明
<li style="width:24%;"><div class="novel_num"></div><a href="481855.html" title="一章 時間方恨少">一章 時間方恨少</a></li>
復制代碼如果有碰到時間、日期、更新字數什么的我們直接忽略,因為這些不是我們要獲得的內容,這個我們可以用 .+? 來表示。 好了我們吧上面的那一段改下改成表達式
<li style="width:24%;"><div class="novel_num"></div><a href="\d*.html" title=".+?">(.+?)</a></li>
復制代碼正常獲得內容。(如果不是單行的話我們用\s* 來表示N個換行符)
13. PubChapter_GetChapterKey(獲得章節地址(章節編號)) 這里說明下 這個里面的章節編號是在下面的 PubContentUrl(章節內容頁地址)用到,那么這里我們需要獲得的是章節地址分析得到
<li style="width:24%;"><div class="novel_num"></div><a href="(\d*).html" title=".+?">.+?</a></li>
這里既然是獲得章節地址那為什么我們還有用到章節名的呢?這個說下主要就是為了避免獲得的章節名跟獲得的章節地址不匹配。
如果是章節頁是亂序的這里就要獲得章節編號了(強烈見意用戶用獲得章節編號)
14. PubContentUrl(章節內容頁地址) 這里拿/1959/432738.html 這個來說明下該怎么用,其中/1959/432738這個是前邊獲得的目錄地址我們用{NovelPubKey}替代,1693778這個就是在 PubChapter_GetChapterKey 里面獲得的 章節編號我們{ChapterKey} 替代,填入{NovelPubKey}{ChapterKey} .html
15. PubContentText(獲得章節內容) 這個獲得方法我們就拿/1959/432738.html這個地址來說吧,打開源代碼在內容上下我們看到
復制代碼這里我就直接改成正規的內容獲得代碼如下
<dd id="contents">((.|\n)+?)</dd>
復制代碼這里說明下((.|\n)+?)為我們要獲取的內容,<dd id="contents">這個必需要是唯一的。
16. PubContentImages(章節內容中提取圖片正則) 章節中圖片也就是我們所說的圖片章節,這里我們可以用萬能圖片規則
<[^<]*((?<=<(?:img|IMG)[^>]*(?:(?:src|SRC)(?:\s*=\s*(?:["']?))))(?:[^\s"'>]*)\.(?:jpg|gif|jpeg|bmp|png|GIF|JPG))[^>]*>
現在說下替換,每行一個替換,格式如下需要替換的內容♂替換結果
<div.+?>
復制代碼這個表示過濾
<div.+?>♂<br>
復制代碼這個表示替換現在的站長們都會在小說章節內容上加入自己的廣告
如(**站第一時間更新vip章節)、(**站首發)等廣告我們可以用
**站第一時間更新vip章節♂替換的內容
**站首發♂替換的內容
復制代碼其他的替換類似
出現空章節情況有可能是目標站正好重啟網站或者你的采集IP被封等原因
如果不是以上原因,請先檢查你采集的章節是否是圖片章節,如果你的PubContentImages(章節內容中提取圖片) 沒有獲得圖片章節內容的話軟件就會檢查你的采集文字內容 PubContentText(獲得章節內容)這個里面的正則的匹配,如果 PubContentImages(章節內容中提取圖片) 跟PubContentText(獲得章節內容) 都沒有匹配的內容,那么就出現了上面我們說的空章節的原因。關關采集器規則
關關超級采集器牛X小說專用版更新日志
1增加手工模式分卷刪除
2增加手工模式選擇性插入采集
3增加手工模式編輯文章
4更新數字化BUG速度更快
5增加定時生成靜態首頁提高網站穩定性
6支持定義不同生成方式目錄和內容獨立
7支持章節重復檢測手工模式
8支持章節缺少TXT檢測手工模式
9支持批量刪除支持jieqi和qiwen
10支持批量生成增加自定語句多ID切割
11增加自定章節,缺少字數,或缺少內容為空替換指定內容
12增加雜項可以獲取段內容調用標簽
13增加相鄰書推薦功能
14增加隨機推薦書功能
15增加TXT專頁面生成功能
16支持上一頁下一頁地址定義
17支持規則設置專碼提取新地址內容
18支持jieqi18Cms最新建站系統
19增加超級防采集器模式混合模式
- PC官方版
- 安卓官方手機版
- IOS官方手機版