如果你有寫過爬蟲程式的話,就會知道找 XPath 路徑其實是有點麻煩

尤其是對方一直改版,DOM的架構一直變就很煩

先補充小常識,知道的人可以跳過:

XPath 是一種在 XML 中用來快速尋找節點的一種表達式,他非常的簡單易用

有興趣自己 try try:https://zh.wikipedia.org/wiki/XPath

 

因為網頁元素也是成雙成對,因此有部分元件也可使用 XPath 來取得要抓取的節點內容

而在 Chrome 上要取得 XPath 路徑實在是太簡單了,光光只用開發人員工具即可

而標題提到的 XPath Helper 套件其實除了讓這篇文章標題看起感覺來很專業外

其實它的用途就只有驗證或讓你練習 XPath 而已

首先以一個我最常抓取的網站來當例子

http://www.books.com.tw/web/sys_puballb/books/?pubid=suntriumph&o=1&v=2

假設我現在要抓的區塊是紅框的區塊

首先按 F12 打開 Chrome 的開發人員工具後切到 Elements

然後就點選最左邊的這個符號

然後滑鼠移到要擷取的內容上,網頁區塊就會自動反白,elements 就會直接找到該元素

其實以上都是屁話

相信有在用 Chrome 的應該都比我還熟,但重點是下一步!!

對著剛剛找到的 element 按滑鼠右鍵,會有一個 Copy,沒想到可以直接複製 XPath 啊啊啊啊啊

 

 

再來我們用套件 XPath Helper 來驗證一下抓取

可以來這裡安裝 XPath Helper:

https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl

裝完後到要測試的網站按下 XPath Helper 的工具,會出來如下圖的黑框

直接貼上剛剛複製的 XPath

右邊就會呈現抓取的結果

在你貼的當下,開發人員工具中的 Elements 也會在找到的 DOM 上閃一下,證明是它

 

第一次寫文章寫那麼快,這邊寫 + 想標題 + 截圖大概寫不到20分鐘

抱歉這文簡單到有點廢,把你騙進來真是不好意思

 

End

 

 

arrow
arrow
    全站熱搜

    小雕 發表在 痞客邦 留言(1) 人氣()