如果你有寫過爬蟲程式的話,就會知道找 XPath 路徑其實是有點麻煩
尤其是對方一直改版,DOM的架構一直變就很煩
先補充小常識,知道的人可以跳過:
XPath 是一種在 XML 中用來快速尋找節點的一種表達式,他非常的簡單易用
有興趣自己 try try:https://zh.wikipedia.org/wiki/XPath
因為網頁元素也是成雙成對,因此有部分元件也可使用 XPath 來取得要抓取的節點內容
而在 Chrome 上要取得 XPath 路徑實在是太簡單了,光光只用開發人員工具即可
而標題提到的 XPath Helper 套件其實除了讓這篇文章標題看起感覺來很專業外
其實它的用途就只有驗證或讓你練習 XPath 而已
首先以一個我最常抓取的網站來當例子
http://www.books.com.tw/web/sys_puballb/books/?pubid=suntriumph&o=1&v=2
假設我現在要抓的區塊是紅框的區塊
首先按 F12 打開 Chrome 的開發人員工具後切到 Elements
然後就點選最左邊的這個符號
然後滑鼠移到要擷取的內容上,網頁區塊就會自動反白,elements 就會直接找到該元素
其實以上都是屁話
相信有在用 Chrome 的應該都比我還熟,但重點是下一步!!
對著剛剛找到的 element 按滑鼠右鍵,會有一個 Copy,沒想到可以直接複製 XPath 啊啊啊啊啊
再來我們用套件 XPath Helper 來驗證一下抓取
可以來這裡安裝 XPath Helper:
https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl
裝完後到要測試的網站按下 XPath Helper 的工具,會出來如下圖的黑框
直接貼上剛剛複製的 XPath
右邊就會呈現抓取的結果
在你貼的當下,開發人員工具中的 Elements 也會在找到的 DOM 上閃一下,證明是它
第一次寫文章寫那麼快,這邊寫 + 想標題 + 截圖大概寫不到20分鐘
抱歉這文簡單到有點廢,把你騙進來真是不好意思
End