維基編輯:「請不要推出AI摘要,汙辱讀者智商」
根據《404 Media》報導,維基媒體基金會在本月稍早宣佈,將對安裝維基百科擴充功能的用戶,實驗性提供AI摘要功能,人工智慧生成的摘要會出現在頁面頂部,旁邊標注「未經驗證的內容」,並且需要用戶主動點擊展開內容才能閱讀。
然而導入AI摘要的計畫,卻引發維基百科編輯們極為強烈的反彈。有兩位編輯直接回覆了「呸,真噁心(Yuck)。」
「Google推出AI摘要功能,不代表我們也得這麼做。我誠心誠意請求不要在行動裝置或任何平台測試這個功能。」還有一位編輯認真回覆,「這會對我們的讀者,以及維基百科作為一個值得信賴、嚴謹資料來源的名聲造成不可逆的傷害。我們不要汙辱讀者的智商,也不要推出華而不實的AI摘要。」
在編輯群起反對的一天後,維基便決定收回AI摘要計畫。
維基百科又臭又長,閱讀難度太高
維基百科導入AI摘要其實已在內部醞釀許久。維基的存檔資料顯示,2024年的維基媒體國際會議上,就開始探討是否導入AI摘要技術。維基媒體基金會認為,目前許多百科的篇幅很長,且閱讀門檻遠高於一般成年人水準,希望可以透過AI摘要幫助讀者快速消化百科內容。
維基百科部份條目過於難閱讀,確實是個受到長時間討論的議題。有軟體開發者便隨機對維基百科條目進行佛萊士—金凱德可讀性測驗,發現維基百科的平均閱讀難度介於「困難」到「非常困難」之間。
Readability scores for English Wikipedia vs. Simple English Wikipedia (from @DataSkeptic podcast episode about Flesch Kincaid Readability Tests: https://t.co/KGZDslss7I - discussion of the Wikipedia example starts around 7m) pic.twitter.com/lJtrrNMCBK
維基媒體基金會解釋,他們一直在探索如何讓全球讀者更容易訪問維基百科,讓不同閱讀能力的讀者都能更容易理解複雜的百科內容,這次的AI摘要是利用Cohere的開源模型Aya生成,希望透過這次實驗「衡量人們對這類功能(AI摘要)的興趣,幫助我們思考合適的社區審核系統,確保人類在決定維基百科上顯示哪些內容仍握有主導權。」
儘管這次維基媒體基金會聽取編輯的建議,暫時收回AI摘要測試,他們強調,並沒有完全放棄為百科導入AI技術,但保證會在編輯的參與下進行。
伺服器流量暴增?不是人類,是AI爬蟲
事實上,在維基百科企圖導入AI,以優化閱讀體驗之前,曾經因為各家生成式AI的爬蟲機器傷透腦筋,甚至因此付出高昂的伺服器成本。
維基百科擁有超過6,000萬條目,可說是渴望訓練資料的AI公司最優質的礦山,因此維基媒體基金會曾在今年4月透露,從2024年1月開始,從維基共享資源下載多媒體內容的流量增長了50%,但原因並非人類求知若渴,而是有大量AI機器人自動爬取資料,當作機器學習的「教科書」。
維基媒體基金會深入研究後發現,在其「成本最高的流量」流量中,有高達65%都來自機器人。至於什麼是成本最高的流量?維基媒體解釋,人類有閱讀傾向,較高閱覽頻率的文章會儲存在用戶附近的資料中心以降低成本並提高讀取速度。
相反的是,機器人往往是大規模爬取內容,包括那些不熱門的頁面,導致核心資料中心負荷上升,進而增加伺服器的負擔,以至於維護成本節節生超。
為了提供用戶良好的使用體驗,維基媒體基金會每年支付超過300萬美元的網路託管費用,以及上千億美元的基礎設施投入。換言之,AI爬蟲增加的流量無疑導致了營運上的困擾。
打不贏就加入!維基宣布與分析平台合作
面對機器人的大舉入侵,維基也不得不舉白旗投降,在公佈流量激增的同月宣佈與Google旗下資料分析平台Kaggle合作,將整理成JSON格式的資料集拱手奉上。他們聲稱這些資料「可立即用於建立模型、基準測試、對齊、微調和探索式分析。」
📢 Big news!Kaggle is teaming up with the @Wikimedia to host Wikipedia datasets on Kaggle. Explore, analyze & build with the structured data from Wikipedia in both English and French. Learn more 👇https://t.co/8d0omRaBcp
至於維基百科為何不像其他公司直接狀告法院,例如迪士尼與環球近日就控告AI製圖工具Midjourney侵權,並求償超過5.9億美元?根據《Mashable》報導,原因在於維基百科本身採用的CC-BY-SA協議,開放使用者在註明來源及同樣分享條件的情況下,可免費使用其內容。
雖然維基對爬取資料的機器人舉白旗,他們也強調「我們的內容是免費的,但基礎設施不是」,並試圖透過新倡議「WE5:負責任使用基礎設施」(WE5: Responsible Use of Infrastructure)尋找應對辦法。