AI橫行，30年前寫給「君子」的robots.txt擋得住今日的爬蟲巨獸嗎？

科技

許家銘 2025-07-08 2025-07-08

近日，台灣法律科技新創「七法公司」(Lawsnote)，因使用網路爬蟲（Web Crawler）程式抓取法學資料庫內容，遭法學資料庫業者「法源資訊公司」提告，指控Lawsnote非法擷取資料用於商業營利，涉嫌侵害著作權與妨害電腦使用。

6月24日，Lawsnote創辦人被判處4年與2年有期徒刑，並須賠償新台幣1億元。這項判決結果，也讓人們再度掀起討論——網路爬蟲是否構成侵權——這個至今依舊沒有標準答案的問題。

近年來，生成式AI如雨後春筍般湧現，資料的可得性、合法性與道德性，已成為社會無法回避的核心議題。而這也正是全球爭論多年的焦點之一：網站內容究竟能否被機器抓取？又該由誰來決定？

全球已有無數網站開始封鎖 AI 爬蟲，而圍繞這場戰爭的核心焦點，是一份看似不起眼的文字檔案：robots.txt。

爬蟲在爬什麼？

1990 年代初期，網路不像現在這麼豐富，不只網站稀少、資源分散，使用者也需要記住網址、手動瀏覽各個網站，搜尋資訊困難又緩慢。這時，一種自動化的小程式悄然問世──網路爬蟲。

爬蟲是一種能自動訪問網站、下載網頁內容並追蹤其中連結的程式，又被稱為「spiders」。因為它們就像網路上的「蜘蛛」，從一個網頁出發，找出該頁所有的超連結，接著逐一拜訪這些連結的頁面，不斷擴展搜尋範圍，彷彿在網路世界編織出一張龐大的蜘蛛網。

這就是「爬蟲」的工作：自動打開網頁、閱讀內容、蒐集資料，再繼續探索下一個網頁。一隻高效的爬蟲，在幾天內可以拜訪數百萬個網頁，蒐集資訊供日後使用。

不累、不會停的爬蟲

爬蟲之所以重要，是因為它們幫助使用者省下大量搜尋資料的時間。例如，人們每天使用的 Google 搜尋引擎之所以能這麼快找到答案，就是因為爬蟲早已「巡邏」過各大網站，將所有相關內容一一蒐集並整理好，讓使用者只需輸入關鍵字，就能快速找到所需的資訊。

這也形成了一種「互利共生」關係：搜尋引擎為網站帶來流量，而網站也樂於被抓取以提升曝光度，因此大多數網站對爬蟲都持友善態度。

然而，這項技術也帶來了困擾。爬蟲不會停也不會累，會持續抓取網頁內容，可能導致網站負載過重，甚至造成系統癱瘓。正因如此，網路上第一個針對爬蟲的防護協議應運而生：機器人排除協議（Robots Exclusion Protocol, REP）。

機器人排除協議：維持網路秩序的君子協定

1994 年，荷蘭的軟體工程師馬泰恩·科斯特（Martijn Koster）提出了機器人排除協議（robots.txt）的構想。他希望建立一套簡單且高效的機制，於是設計出一個純文字檔案 robots.txt，讓網站擁有者能夠放置於網站根目錄，作為網站對爬蟲的「告示牌」，能夠明確指示爬蟲「哪些區域可以拜訪，哪些不行」。

這套規範有三個關鍵特性：

自願遵守：robots.txt 並沒有法律效力，爬蟲是否遵守，取決於開發者的良心與設計。
機器可讀：格式簡單明確，容易被程式讀懂與解析。
公開透明：任何人都可以查看任何網站的 robots.txt。

科斯特強調他並不討厭爬蟲，也不是要將它們趕盡殺絕。他曾表示：「爬蟲是網路上少數會引發操作問題、帶來困擾的東西之一，但不可否認的是，它們確實能提供有用的服務。」

科斯特提醒大家，與其爭論「網路爬蟲究竟是好是壞」，不如正視一個事實——爬蟲早已存在，且不會消失。他之所以設計出robots.txt，就是希望能「盡可能發揮其正面效益，同時降低潛在風險」。

爬蟲，也是一種益蟲

2000年代初期，Google成為搜尋市場的主導者，爬蟲成為網站曝光與流量的保證。對網站來說，只要允許 Google的爬蟲「Googlebot」抓取內容，就能被納入搜尋結果，有機會獲得更多訪問者。因此，對多數網站而言，robots.txt成了表達「我願意被搜尋引擎看見」的方式。

知名網路創作平台Medium的執行長托尼斯托布勒拜（Tony Stubblebine）就曾公開表示，「Google 是我們最重要的爬蟲。我們讓它抓取所有頁面，作為交換，我們獲得大量流量，這是雙贏的交易。」

根據 Google 2019 年的估計，超過5億個網站使用 robots.txt 管控存取權限。但如今，AI 的出現改變了這個平衡。

生成式 AI 出現，robots.txt還有用嗎？

自 2022 年起，ChatGPT、Claude、Gemini 等生成式 AI 快速崛起。為了訓練這些模型，AI 公司需要使用大量的專業爬蟲，但這也引發了新的問題：AI 爬蟲正在抓取整個網路，但資料的創作者卻從未被徵詢意見，更沒有獲得任何補償。

根據《The Verge》報導，不同於搜尋引擎的爬蟲，AI 公司抓取的資料不會導流回網站，而是直接「內化」讓模型產出新的內容。這種「只拿不給」的行為，被許多內容創作者視為掠奪。原本網路世界與robots.txt之間的默契——彼此尊重的基本協議——很可能無法再維持下去。

根據《資料來源倡議》（Data Provenance Initiative）報告指出，原本廣泛用於訓練大型語言模型的 AI 訓練資料集C4（Colossal Clean Crawled Corpus），2023年至2024年間，已有高達25%的網站明確拒絕 AI 的爬蟲抓取內容。

這代表對那些願意遵守robots.txt的模型來說，其訓練資料的來源正在快速地從高品質的新聞、學術網站、論壇、社群平台，轉向組織網站、個人網站、電商網站與部落格等較不具公信力的資料來源。

沒有等價交換，就別想得到好處

2023年，Medium的執行長托尼公開向AI公司呼籲，在未經許可的情況下，請勿擅自抓取其平台文章用於訓練人工智慧模型。Medium 也隨即更新其網站的 robots.txt 檔案，明確拒絕 OpenAI、Anthropic 等 AI 公司旗下的爬蟲存取其文章。托尼說：

「這些 AI 公司並沒有想與我們等價交換。他們剝奪了寫作者的價值，只為了向讀者散播垃圾內容。」

《資料來源倡議》的首席研究員謝恩朗普雷（Shayne Longpre）形容，現在網路世界的狀況混亂不堪，對任何人來說都是一場危機：

「現有的網路基礎設施，已經無法解決生成式 AI 與內容創作者之間日益加劇的利益衝突。」

明文禁止卻也不具法律效力

根據《路透社》調查，截至2023年底，包括美國、德國、英國等1156間主流新聞網站中，有48%封鎖了OpenAI的「GPTBot」爬蟲。此外，沒有任何一個網站，在決定封鎖後又反悔、重新開放爬蟲的情況。

然而，robots.txt 作為爬蟲的防線，其效果正逐漸受到挑戰。由於robots.txt語法設計相對粗略，無法細緻區分資料使用的目的；加上撰寫與設定具有一定技術門檻，對多數內容創作者而言並不友善。更棘手的是，許多「偽裝爬蟲」不會標示真實身份，讓網站難以辨識與阻擋，進一步削弱了 robots.txt 的實際防護力。

即使網站在 robots.txt 中明確設下禁止條款，仍有不少爬蟲選擇視而不見，持續擅自抓取內容，只因robots.txt 既不具法律效力，也無技術上的強制力，只能仰賴爬蟲方的自律。

事實上，早在 2017 年，全球最大網路保存計畫「Internet Archive」的負責人 Mark Graham 就曾直言，他們不一定會遵守 robots.txt 的規範，因為這與他們「保存網路原貌、為未來世代留存數位記憶」的公共使命有所衝突。

封鎖AI還是丟掉robots.txt？這是值得考慮的問題

根據美國媒體《The Verge》報導，面對生成式 AI 帶來的衝擊，越來越多出版商與網站經營者正面臨選擇：是透過 robots.txt 封鎖 AI 爬蟲以保護內容，還是放棄這項過時機制，尋找更具強制力的新方法？

立陶宛數據收集公司Oxylabs的執行長朱利葉斯（Julius Cerniauskas）認為，

「如果數百萬個網站透過 robots.txt 禁止 AI 爬蟲，並期望這種禁令能被遵守，那基於機器學習的 AI 技術發展將停滯數年。」

過去，Google曾嘗試將robots.txt制定為正式標準，如今他們也逐漸淡化其重要性。2023年，Google 信任與安全副總裁丹妮爾羅曼（Danielle Romain）也改口表示，AI出現之後robots.txt可能已成為不合時宜的產物，

「我們認為現在是時候，與 AI 方共同開發更完善的機器可讀機制，讓網站能夠擁有更多的選擇與控制權。」

誰來制定新規則、執行與監督？

30 年前，科斯特所處的網路環境，普遍相信人人都能自律遵守網路規範；如今這樣的時代已經結束。隨著 AI 再度準備「整頓」網路秩序，一個更根本的問題逐漸浮現：誰有資格制定新規則？又由誰負責執行與監督？

如果由 AI 公司主導，難免會偏重自身利益；若由政府制定，又可能無法即時因應技術變化。《資料來源倡議》的研究員謝恩朗普雷指出，未來勢必要出現能廣泛採納的新標準，讓創作者與平台能夠更有效地保護網路上的內容。

但他也強調，對於學術研究與公益性質的應用，應保留一定的彈性，讓他們能合理使用本來就已經公開、可自由訪問的網站。謝恩朗普雷說：

「不是所有資料都一樣重要，也不是所有用途都該一視同仁。」

因此，如何建立一套既能被機器讀取、又能尊重資料擁有權，並同時兼顧創作者、研究者與開發者利益的資料使用規範，將是未來網路治理中最關鍵也最棘手的課題之一。這不僅是技術問題，更是關於信任、權力與價值分配的難題。

單篇文章贊助定期／年度贊助

我們為您在DQ飛行船預留了VIP位子，期待您登船贊助DQ

ai ai爬蟲 google robots.txt 七法台灣生成式ai 法源爬蟲機器人排除協議全球

延伸閱讀

收起全部

參考資料

展開更多