指定網(wǎng)站登錄采集內(nèi)容教程
快捷導(dǎo)讀
有很多網(wǎng)站,是需要登錄賬號密碼以后,才能采集到目標數(shù)據(jù)的。有的網(wǎng)站登錄時還會需輸入驗證碼。針對這類網(wǎng)站,本文將詳細講解!
針對需要登錄才能采集的網(wǎng)站,我們打開采集批量管理,點擊新增指定采集任務(wù),如圖所示前往設(shè)置登錄
輸入登錄網(wǎng)址點擊刷新,打開網(wǎng)頁后和用普通瀏覽器訪問網(wǎng)頁完全一樣,只需要輸入賬號密碼登錄。
列表是最常見的網(wǎng)頁樣式,我們可以通過以下2種方式:
(1) 直接輸入列表頁詳細如下圖
(2)通過我們軟件生成列表頁詳細如下圖
以上是舉例說明:
目標站列表頁:http://zb.bbqseo.com/?cate=2&page=6 當(dāng)我們點擊下一頁時網(wǎng)址變化為: http://zb.bbqseo.com/?cate=2&page=7
由此可以分析得出,page=6中的數(shù)字就是分頁碼,且是每次加1遞增。(變化的部分的數(shù)字我們用“[[分頁數(shù)]]”代替)根據(jù)目標站具體列表頁數(shù)生成,需這些網(wǎng)址間有著某種關(guān)系,比如等差遞增的變化。
軟件上填寫:http://zb.bbqseo.com/?cate=2&page=[[分頁數(shù)]] 目標站有多少列表頁就生成多少頁
我們可以根據(jù)自身的需求去點選我們需要采集的字段,我們也可以隨時對這些字段進行修改、刪除!
當(dāng)我們點擊列表頁標題后,軟件會自動識別該網(wǎng)頁下的所有標題,我們只需要點擊預(yù)覽并設(shè)置內(nèi)容 (注:未識別網(wǎng)頁下的所有標題,我們可用CSS選中器來識別網(wǎng)頁下的所有列表標題)
現(xiàn)在,我們已經(jīng)處于登錄狀態(tài),通過正常瀏覽需要登錄才能看見的內(nèi)容,這個時候我們只需要選中內(nèi)容,登錄可見的內(nèi)容也會采集進去。
注:點擊空白處,觀察內(nèi)容是否全部包含。(部分網(wǎng)站不規(guī)范導(dǎo)致點選內(nèi)容不全面或標題內(nèi)容連在一起,我們可用CSS選中器來識別網(wǎng)頁中的標題和內(nèi)容)
批量采集管理任務(wù)找到配置好的任務(wù)點擊開始采集,我們也可以實時預(yù)覽或修改已經(jīng)采集的內(nèi)容
相關(guān)文章:CSS選擇器案例