網路爬蟲 (Web Crawler) 的應用,最早起源於 Google 搜尋引擎的誕生,算是個古老又貪婪的技術。門檻相當低,只要能送出 HTTP Request 加上正規表示法(Regular Expression) 將網頁原始碼中的資訊解析出來,就算是具備基本的爬蟲功能,所以一個有技術背景的大學生,利用課餘時間就足夠養出一隻爬蟲了。
搜尋引擎以外的爬蟲應用
爬蟲技術所能創造的商機,當然不僅僅是搜尋引擎而已,像 Google 其實還得再加上搜尋技術才算是真正建立起進入門檻。在 Google 確立了搜尋引擎霸主的地位後,網路爬蟲專家們逐一放棄了將網路上所有的資訊爬下來的野心,轉往利基市場如比價系統(FindPrice)、即時資訊、或非web-based的爬蟲 (如 telnet),有的則是站在 Google 巨人的肩膀上,從搜尋結果中再爬出更有價值的資訊,將 search engine 當作是爬蟲中的一個子功能加以利用。
為什麼爬蟲技術如此的吸引人呢? 原因在於它所能帶來的成本節省實在太吸引人了。假想在沒有爬蟲技術的前提下,想建置一個比價網站,你得先接觸到各大EC網站的窗口,談攏彼此能夠利益交換的合作方式,然後彼此再派遣技術人員訂好技術整合機制,開發、測試、上線,以台灣前三大購物網站為目標的話,做好這些少說也要一兩個月。有了網路爬蟲,人生是彩色的,無須再擔心對方的合作意願、技術整合的成本障礙,只要訂好資料規格、抓取機制與儲存環境、三個網站用兩個禮拜來爬綽綽有餘了。
爬蟲技術的目的在於 : "把別人的資料庫都變成我的資料庫"
聽起來這個技術會令資料庫擁有者很不安,因此系統人員也不斷的找出阻擋網路爬蟲的方法,但爬蟲技術總是略勝一籌,你擋IP、我就不定時重新撥號,你把文字內容轉成圖檔、我就用OCR還原,道高一尺 魔高一丈。每當有網站經營者一臉驚慌的問小弟說:"該怎麼防止別人來爬呢???"時,小弟只能拍拍肩膀告訴他: "只要不造成主機的負擔,就別擔心了"。
這麼說來,網站經營者靠著辛辛苦苦培養出來的業務關係所建立起的資料庫,在一夕之間就變成別人的了,聽起來像是一個很可怕的惡夢。當別人的資料庫變成了自己的資料庫後,會再以各種形式提供服務給其他人,進而創造了另一種價值和商機,甚至改變了市場制衡的機制。Google 以搜尋引擎的模式提供給廣大消費者,造成各網站不再阻擋 Google 的爬蟲,反而希望搜尋引擎的爬蟲趕快來把自己的網站爬回去,如同便利超商一樣掌握了終端消費者,上游供應商反過來要求這些便利商店把他們的商品擺到架上。
那網站經營者該如何面對網路爬蟲呢?
擁有爬蟲技術並不能成為競爭門檻,不論在日本或中國都有專門寫爬蟲的公司,台灣目前較傾向於地下化,但已經不在少數。對資料擁有者來說,想必是對於資料庫的價值利用不足,才會有人想來爬你的資料回去,所以資料擁有者該想的是要如何才能和這些來爬你資料的人共創價值,遠比費盡心機阻擋這些爬蟲來的重要多了。
Open Innovation 的概念告訴我們,研發不一定是自己。倘若我們反其道而行,將資料庫開放,告訴爬蟲們 : "別再爬了!! 這裡有 API 給你直接抓回去啦"。原本地下化的爬蟲為了獲得更大的利益,也許因而選擇公開合作,如此全世界就都是網站資料庫應用的開發者了,只要有一個可以像開心農場一樣的成功,獲益最大的相信會是網站本身。
留言列表