爬蟲 (crawler) 也被稱為蜘蛛 (spider),是用來自動爬取資料的網路機器人,如果把整個網際網路想像成一張大網,爬蟲的工作就是在網路上爬來爬去獲取它想要的獵物,至於誰是獵物,那就看設計程式的你如何設定囉。
網路機器人看到的網頁和我們人類眼睛看到的不一樣,在網路機器人的世界裡只有原始碼,靠的是演算法和邏輯來擷取網站裡的資訊,不管是文字內容、連結或圖片都難不倒它。
我們每天都會使用的「Google 搜尋」就是一個最經典爬蟲實例,只要鍵入關鍵字,Google 的巨大爬蟲就可以幫我們把網路上所有的相關資訊都找出來,又比如時下盛行的比價網站,也是非常典型的爬蟲應用範例。
時間就是金錢,在資訊爆炸的時代,搜集資料已經成為一項費時費力的工作,這個時候就需要爬蟲程式來幫助我們自動化地做好搜集工作,除了絕不會有漏網之魚,還能解放最寶貴的時間和複製貼上鍵!
老師將講解HTML的架構以及重要的各類型 Tags,有了基礎觀念後再示範如何使用 API HTML DOM Parser 擷取網頁內容
以《方言》中國哲學書電子化計劃網站為例,老師將帶領學員一步步實際操作、演練