文章采集過(guò)濾不相關(guān)文章的教程
快捷導(dǎo)讀:
一、打開(kāi)詞庫(kù)
二、添加敏感詞
三、調(diào)用詞庫(kù)
四、總結(jié)
很多網(wǎng)友提出,在采集的時(shí)候會(huì)采集到一些不相關(guān)的文章,這是因?yàn)榇蠹覜](méi)有設(shè)置敏感詞庫(kù),在設(shè)置了敏感詞庫(kù)后就可以大大避免采集到不相關(guān)的文章,下面就是采集工具,過(guò)濾不相關(guān)文章的教程:
在采集首頁(yè),找到窗口右上方的【詞庫(kù)配置】,彈出詞庫(kù)界面,然后在詞庫(kù)界面點(diǎn)擊右上角的【新增詞庫(kù)】。
如下圖所示,在新增詞庫(kù)界面選中【敏感詞】,然后在下方的方框內(nèi)輸入用戶(hù)不像采集的敏感詞,多個(gè)敏感詞的話(huà),只需要跳行輸入即可,設(shè)置好后點(diǎn)擊上方的保存就可以了。
回到采集任務(wù)界面,按照下圖所示,點(diǎn)擊1號(hào)箭頭所指的【設(shè)置】彈出2號(hào)箭頭所指的詞庫(kù)調(diào)用界面,在此界面選到剛剛設(shè)置好的詞庫(kù)就可以了。
通過(guò)增加敏感詞的方式確實(shí)能大大過(guò)濾采集時(shí)的不相關(guān)文章,但是根據(jù)用戶(hù)自己需求,敏感字還需要用戶(hù)多多挖掘和發(fā)現(xiàn)。