后羿采集
后羿采集,是多數(shù)網(wǎng)站管理員必備的網(wǎng)站更新工具,傳統(tǒng)的采集器在對網(wǎng)頁信息進行提取時,主要基于正則表達式對網(wǎng)頁內(nèi)容進行匹配,運行速度快,實現(xiàn)難度低,但不同的網(wǎng)站具有不同的頁面結(jié)構(gòu),需要編寫不同的采集規(guī)則,工作量大,難于維護。而且需要用戶自己尋找采集源,還需要用戶自己掛機運行采集器,甚至還涉及可能被封IP,需要使用代理IP等一系列問題。后羿采集支持的建站程序/內(nèi)容管理系統(tǒng)織夢CMS(DEDECMS)、帝國網(wǎng)站管理系統(tǒng)、DISCUZ、Z-BLOG、WordPress、EMLOG、MIPCMS、凡科網(wǎng)、易優(yōu)企業(yè)建站系統(tǒng)(EYOUCMS)、米拓建站(MetInfo)、PHPCMS、DESTOON(B2B網(wǎng)站系統(tǒng))
后羿采集提供一個1億+量級的龐大關(guān)鍵詞庫,可根據(jù)用戶輸入的任意文本進行關(guān)鍵詞搜索,經(jīng)過簡單勾選就能用于采集,大幅縮減了用戶搜集關(guān)鍵詞的時間和精力。用戶也可以創(chuàng)建自己的私有詞庫,可分庫分組,數(shù)百萬關(guān)鍵詞輕松管理,也滿足更個性化的關(guān)鍵詞需求。
后羿采集按關(guān)鍵詞采集文章,基于搜索引擎,全網(wǎng)采集精美好文,用戶不必為尋找采集源而花費精力。自動識別網(wǎng)頁編碼、標題、正文等信息,不用為每個網(wǎng)站設(shè)置不同的采集規(guī)則,更不用到處找人寫采集規(guī)則,不必懂得html源碼,完全零維護。
后羿采集可設(shè)定需求的正文長度,比如500字,750字,1000字,長度不達標的內(nèi)容自動舍棄。系統(tǒng)內(nèi)置多種自然語言處理算法,后羿采集自動計算文章正文和關(guān)鍵詞的相關(guān)度(特征向量間的余弦距離),把相關(guān)度低的文章自動過濾掉,只把相關(guān)度高的文章留給用戶。后羿采集自動計算文章正文的通順度(語言困惑度),把通順度低的文章舍棄,通順度高的文章留給用戶。
后羿采集自動計算標題(Title)和描述(Description)與關(guān)鍵詞的相關(guān)度,如果相關(guān)度低,可在標題和描述中自動插入關(guān)鍵詞,以提升相關(guān)度。還可以為標題設(shè)定前綴關(guān)鍵詞,每次在設(shè)定的多個前綴中隨機選取一個添加在文章標題頭部。后羿采集基于機器學(xué)習(xí)算法實現(xiàn)的文本鑒定,可對采集的內(nèi)容進行內(nèi)容審核,保障用戶內(nèi)容安全。
后羿采集實現(xiàn)基于同義詞替換的偽原創(chuàng)功能,從2000萬對近義詞庫中選擇最符合語言表達習(xí)慣的詞,替換原文中的詞,最大限度保證文章可讀性。實現(xiàn)基于機器學(xué)習(xí)的智能AI偽原創(chuàng),后羿采集先把原文編碼為高維語義向量,再通過解碼器逐字解碼,實現(xiàn)對整篇文章的完全重寫,偽原創(chuàng)程度高,可讀性好。
后羿采集自動提取Tags標簽,并在此基礎(chǔ)上實現(xiàn)自動內(nèi)鏈,當正文中出現(xiàn)標簽對應(yīng)的文本時,后羿采集為該文本加上一個站內(nèi)文章的鏈接,指向一篇具有同樣主題的文章,實現(xiàn)自動化的科學(xué)有效的內(nèi)鏈建設(shè)。也可以設(shè)置固定的鏈接,當正文中出現(xiàn)某些固定文本時,為它加上固定的鏈接,指向站內(nèi)或站外的文章均可。后羿采集根據(jù)文章內(nèi)容自動配圖,讓你即使是采集的文章也能圖文并茂。
后羿采集可設(shè)置圖片本地化或者使用遠程圖片,以及屏蔽所有圖片??稍O(shè)置屏蔽某些網(wǎng)站不采集,或包含某些特定詞的內(nèi)容不采集。后羿采集自動過濾聯(lián)系方式、網(wǎng)址以及文章前后的廣告性內(nèi)容等冗余信息,并進行全部標簽清理,正文部分只保留《p》段落標簽和圖片《img》標簽,無任何亂碼,也不包含任何排版格式,方便用戶通過css樣式自定義外觀。
后羿采集嚴格的防重復(fù)機制,整個平臺每個網(wǎng)址只采集一次,不重復(fù)采集。同一網(wǎng)站下,相同標題的文章只采集一次,不重復(fù)采集??芍付總€關(guān)鍵詞允許采集的文章數(shù)量,實現(xiàn)大量長尾關(guān)鍵詞不重復(fù)布局。云端自動運行采集任務(wù),可定時定量采集,不用在自己電腦上安裝任何軟件,不用掛機采集,甚至不需要打開瀏覽器。后羿采集后自動發(fā)布到用戶網(wǎng)站后臺,用戶只需要把接口文件下載并上傳到網(wǎng)站根目錄就能完成對接。采集后自動執(zhí)行主動推送,讓蜘蛛快速發(fā)現(xiàn)你的文章。