「AI擅自抓內容,我們絕對會追究到底!」
在生成式AI崛起的初期,出版業者是被抓取、被摘要、被AI公司予取予求的角色。但過去兩年裡,這個角色逐漸轉變,出版業者及內容網站開始集結力量、動用法律、擁抱新標準與工具,試圖奪回對內容流量的主導權。
生成式AI的出現,是數位媒體頭一次陷入內容被大規模使用,卻沒有辦法帶來任何回報的窘境,以往提供內容換取流量的商業模式,因為AI而面臨失靈危機。斯萊德透露,金融時報來自搜尋引擎的讀者下滑了25%至30%。
現在用戶能透過ChatGPT、Perplexity等服務輕鬆得到井井有條的問題解答,自然不會在各個網站、文章間尋尋覓覓。更糟糕的是,Google也加入了這股AI浪潮,推出AI Overviews、AI模式等服務,都進一步侵蝕了媒體及內容網站的流量。
新聞集團執行長羅伯特.湯普森(Robert Thomson)便痛斥,AI擅自利用新聞內容的作法,是對創作者及出版業極不尊重的行為,並且將「追究到底」。
法院見!媒體巨擘紛紛提告,要求AI銷毀模型
就如新聞集團執行長的警告,出版業者對AI公司的抗爭並沒有停留在口頭階段。近兩年有至少15至20起由出版業者發起、針對AI公司的訴訟,並涉及至少20多間公司。相對的,被告集中在少數AI公司、科技巨頭。
《IGN》、《CNet》母公司Ziff Davis就控告OpenAI刻意複製其內容,要求法院銷毀相關訓練資料與模型;《日本經濟新聞》、《朝日新聞》則在去年8月向Perplexity提起訴訟,指控其侵權並要求22億日圓損害賠償;《滾石》、《綜藝》母公司Penske Media提告Google,指控對方侵犯權益並造成流量大幅下滑。
這類訴訟正在快速發生,各大媒體希望透過法律行動,將AI公司逼上談判桌。例如OpenAI已經與新聞集團、沃克斯傳媒、康泰納仕等多家公司達成合作協議,為使用內容提供一定程度的費用與補償;Google同樣與美聯社達成AI新聞授權合作。
而過去一年加緊衝刺AI技術的Meta,也在去年12月宣佈與包括《CNN》、《福斯新聞》在內多家新聞業者達成協議,能夠讓聊天機器人連結到新聞網站的文章,從而提供即時的資訊與更新。
這種訴訟策略的威力,也讓AI產業感到前所未有的危機。一宗由3位作者發起,針對Anthropic的版權訴訟,在被法院認定可升級為集體訴訟,潛在原告多達700萬人後,被業界形容可能摧毀整個AI產業。
BREAKING: Anthropic sued to undo the Pentagon decision designating the AI company a “supply chain risk” over its refusal to allow unrestricted military use. https://t.co/TC1dFQwdS2
不過,這啟案件也暴露出訴訟的局限,有人質疑法院能否真正公平處理授權與權利歸屬,顯示出版業者另一條反撲道路的重要性,在依靠訴訟的嚇阻力外,更要嘗試透過標準與制度,重新劃分AI與內容的邊界,找回對流量及收益的主導權。
AI世代不能只靠「君子協定」
出版業者意識到,光是告AI公司並不能從根本解決問題,必須從規則著手,將AI能否使用內容的權力,掌握在自己手中。
由非營利組織RSL Collective制定的RSL網路標準,便是為了解決AI時代下的內容授權與變現難題,希望取代既有的robots.txt機制,讓網站經營者能主動向AI公司收取費用。
【延伸閱讀】AI橫行,30年前寫給「君子」的robots.txt擋得住今日的爬蟲巨獸嗎?
RSL標準全名為Really Simple Licensing,它是一個開放、去中心化的協議,目的是為「AI優先」的網際網路建立一個授權基礎設施。過去網站只能透過robots.txt許可或拒絕爬蟲,但RSL讓網站可以設定更複雜的使用條款與定價,讓內容被AI取用時能獲得補償。
告不過就加入!RSL標準誕生
RSL的運作方式是將授權條款寫入網站的機器可讀程式碼中,讓AI代理或爬蟲在造訪網站時,能自動讀取並遵守這些規則,例如網站擁有者可以設定AI每次爬取資料時都需要付授權費,或者當AI使用該內容生成回答時,支付一定額度的版稅。
如同robots.txt的運作模式,RSL同樣是沒有強制力的「君子協議」,但假如AI巨頭公然違反標準明搶內容,未來可能成為出版業者主張惡意侵權或不正當行為的呈堂證供。
Element: <payment> -> Reddit, Yahoo, Medium, Quora, People, O'Reilly, wikiHow, Ziff Davis, and others adopt the Really Simple Licensing (RSL) standard that sets terms for AI scraping"The RSL Standard builds upon the robots.txt protocol, which has long allowed publishers to… pic.twitter.com/XDr25x1146
目前AI公司往往未經許可爬取內容,直到出版業者提起訴訟才和解、締結合作。RSL讓授權過程自動化,AI公司不必事先與個別網站簽約,只要遵守RSL的規則自動支付費用,大幅降低內容授權的門檻。
請遵守「先付費、再取用」網路新規矩
如今RSL獲得了眾多媒體及出版業者支持,包括雅虎、 Reddit、People Inc、Ziff Davis和Medium等知名公司都已經加入,希望這個標準能為大大小小的內容網站帶來公平的報酬。
除了RSL之外,Cloudflare推出過內容訊號政策(Content Signals Policy),讓網站自己對AI使用清楚說不;網路網路工程任務組也開始討論制定新標準,區分搜尋引擎和AI模型訓練、推理等不同使用。
出版及網站業者正試圖在AI時代建立內容使用的新規則。Medium執行長湯尼.斯塔布拜恩(Tony Stubblebine)表示,「AI運作是建立在盜用的內容上,採用RSL標準我們就能迫使AI公司要不為內容付費,要不停止使用,或者關門大吉。」