爬蟲在爬什麼?
1990 年代初期,網路不像現在這麼豐富,不只網站稀少、資源分散,使用者也需要記住網址、手動瀏覽各個網站,搜尋資訊困難又緩慢。這時,一種自動化的小程式悄然問世──網路爬蟲。
爬蟲是一種能自動訪問網站、下載網頁內容並追蹤其中連結的程式,又被稱為「spiders」。因為它們就像網路上的「蜘蛛」,從一個網頁出發,找出該頁所有的超連結,接著逐一拜訪這些連結的頁面,不斷擴展搜尋範圍,彷彿在網路世界編織出一張龐大的蜘蛛網。
這就是「爬蟲」的工作:自動打開網頁、閱讀內容、蒐集資料,再繼續探索下一個網頁。一隻高效的爬蟲,在幾天內可以拜訪數百萬個網頁,蒐集資訊供日後使用。
不累、不會停的爬蟲
爬蟲之所以重要,是因為它們幫助使用者省下大量搜尋資料的時間。例如,人們每天使用的 Google 搜尋引擎之所以能這麼快找到答案,就是因為爬蟲早已「巡邏」過各大網站,將所有相關內容一一蒐集並整理好,讓使用者只需輸入關鍵字,就能快速找到所需的資訊。
這也形成了一種「互利共生」關係:搜尋引擎為網站帶來流量,而網站也樂於被抓取以提升曝光度,因此大多數網站對爬蟲都持友善態度。
然而,這項技術也帶來了困擾。爬蟲不會停也不會累,會持續抓取網頁內容,可能導致網站負載過重,甚至造成系統癱瘓。正因如此,網路上第一個針對爬蟲的防護協議應運而生:機器人排除協議(Robots Exclusion Protocol, REP)。
機器人排除協議:維持網路秩序的君子協定
1994 年,荷蘭的軟體工程師馬泰恩·科斯特(Martijn Koster)提出了機器人排除協議(robots.txt)的構想。他希望建立一套簡單且高效的機制,於是設計出一個純文字檔案 robots.txt,讓網站擁有者能夠放置於網站根目錄,作為網站對爬蟲的「告示牌」,能夠明確指示爬蟲「哪些區域可以拜訪,哪些不行」。
這套規範有三個關鍵特性:
自願遵守:robots.txt 並沒有法律效力,爬蟲是否遵守,取決於開發者的良心與設計。
機器可讀:格式簡單明確,容易被程式讀懂與解析。
公開透明:任何人都可以查看任何網站的 robots.txt。
科斯特強調他並不討厭爬蟲,也不是要將它們趕盡殺絕。他曾表示:「爬蟲是網路上少數會引發操作問題、帶來困擾的東西之一,但不可否認的是,它們確實能提供有用的服務。」
科斯特提醒大家,與其爭論「網路爬蟲究竟是好是壞」,不如正視一個事實——爬蟲早已存在,且不會消失。他之所以設計出robots.txt,就是希望能「盡可能發揮其正面效益,同時降低潛在風險」。
爬蟲,也是一種益蟲
2000年代初期,Google成為搜尋市場的主導者,爬蟲成為網站曝光與流量的保證。對網站來說,只要允許 Google的爬蟲「Googlebot」抓取內容,就能被納入搜尋結果,有機會獲得更多訪問者。因此,對多數網站而言,robots.txt成了表達「我願意被搜尋引擎看見」的方式。
知名網路創作平台Medium的執行長托尼斯托布勒拜(Tony Stubblebine)就曾公開表示,「Google 是我們最重要的爬蟲。我們讓它抓取所有頁面,作為交換,我們獲得大量流量,這是雙贏的交易。」
根據 Google 2019 年的估計,超過5億個網站使用 robots.txt 管控存取權限。但如今,AI 的出現改變了這個平衡。
生成式 AI 出現,robots.txt還有用嗎?
自 2022 年起,ChatGPT、Claude、Gemini 等生成式 AI 快速崛起。為了訓練這些模型,AI 公司需要使用大量的專業爬蟲,但這也引發了新的問題:AI 爬蟲正在抓取整個網路,但資料的創作者卻從未被徵詢意見,更沒有獲得任何補償。
根據《The Verge》報導,不同於搜尋引擎的爬蟲,AI 公司抓取的資料不會導流回網站,而是直接「內化」讓模型產出新的內容。這種「只拿不給」的行為,被許多內容創作者視為掠奪。原本網路世界與robots.txt之間的默契——彼此尊重的基本協議——很可能無法再維持下去。
根據《資料來源倡議》(Data Provenance Initiative)報告指出,原本廣泛用於訓練大型語言模型的 AI 訓練資料集C4(Colossal Clean Crawled Corpus),2023年至2024年間,已有高達25%的網站明確拒絕 AI 的爬蟲抓取內容。
這代表對那些願意遵守robots.txt的模型來說,其訓練資料的來源正在快速地從高品質的新聞、學術網站、論壇、社群平台,轉向組織網站、個人網站、電商網站與部落格等較不具公信力的資料來源。
沒有等價交換,就別想得到好處
2023年,Medium的執行長托尼公開向AI公司呼籲,在未經許可的情況下,請勿擅自抓取其平台文章用於訓練人工智慧模型。Medium 也隨即更新其網站的 robots.txt 檔案,明確拒絕 OpenAI、Anthropic 等 AI 公司旗下的爬蟲存取其文章。托尼說:
「這些 AI 公司並沒有想與我們等價交換。他們剝奪了寫作者的價值,只為了向讀者散播垃圾內容。」
《資料來源倡議》的首席研究員謝恩朗普雷(Shayne Longpre)形容,現在網路世界的狀況混亂不堪,對任何人來說都是一場危機:
「現有的網路基礎設施,已經無法解決生成式 AI 與內容創作者之間日益加劇的利益衝突。」
明文禁止卻也不具法律效力
根據《路透社》調查,截至2023年底,包括美國、德國、英國等1156間主流新聞網站中,有48%封鎖了OpenAI的「GPTBot」爬蟲。此外,沒有任何一個網站,在決定封鎖後又反悔、重新開放爬蟲的情況。
然而,robots.txt 作為爬蟲的防線,其效果正逐漸受到挑戰。由於robots.txt語法設計相對粗略,無法細緻區分資料使用的目的;加上撰寫與設定具有一定技術門檻,對多數內容創作者而言並不友善。更棘手的是,許多「偽裝爬蟲」不會標示真實身份,讓網站難以辨識與阻擋,進一步削弱了 robots.txt 的實際防護力。
即使網站在 robots.txt 中明確設下禁止條款,仍有不少爬蟲選擇視而不見,持續擅自抓取內容,只因robots.txt 既不具法律效力,也無技術上的強制力,只能仰賴爬蟲方的自律。
事實上,早在 2017 年,全球最大網路保存計畫「Internet Archive」的負責人 Mark Graham 就曾直言,他們不一定會遵守 robots.txt 的規範,因為這與他們「保存網路原貌、為未來世代留存數位記憶」的公共使命有所衝突。
封鎖AI還是丟掉robots.txt?這是值得考慮的問題
根據美國媒體《The Verge》報導,面對生成式 AI 帶來的衝擊,越來越多出版商與網站經營者正面臨選擇:是透過 robots.txt 封鎖 AI 爬蟲以保護內容,還是放棄這項過時機制,尋找更具強制力的新方法?
立陶宛數據收集公司Oxylabs的執行長朱利葉斯(Julius Cerniauskas)認為,
「如果數百萬個網站透過 robots.txt 禁止 AI 爬蟲,並期望這種禁令能被遵守,那基於機器學習的 AI 技術發展將停滯數年。」
過去,Google曾嘗試將robots.txt制定為正式標準,如今他們也逐漸淡化其重要性。2023年,Google 信任與安全副總裁丹妮爾羅曼(Danielle Romain)也改口表示,AI出現之後robots.txt可能已成為不合時宜的產物,
「我們認為現在是時候,與 AI 方共同開發更完善的機器可讀機制,讓網站能夠擁有更多的選擇與控制權。」
誰來制定新規則、執行與監督?
30 年前,科斯特所處的網路環境,普遍相信人人都能自律遵守網路規範;如今這樣的時代已經結束。隨著 AI 再度準備「整頓」網路秩序,一個更根本的問題逐漸浮現:誰有資格制定新規則?又由誰負責執行與監督?
如果由 AI 公司主導,難免會偏重自身利益;若由政府制定,又可能無法即時因應技術變化。《資料來源倡議》的研究員謝恩朗普雷指出,未來勢必要出現能廣泛採納的新標準,讓創作者與平台能夠更有效地保護網路上的內容。
但他也強調,對於學術研究與公益性質的應用,應保留一定的彈性,讓他們能合理使用本來就已經公開、可自由訪問的網站。謝恩朗普雷說:
「不是所有資料都一樣重要,也不是所有用途都該一視同仁。」
因此,如何建立一套既能被機器讀取、又能尊重資料擁有權,並同時兼顧創作者、研究者與開發者利益的資料使用規範,將是未來網路治理中最關鍵也最棘手的課題之一。這不僅是技術問題,更是關於信任、權力與價值分配的難題。