「知識不是免費的!」維基百科與科技巨頭達成合作
維基百科近期迎來25週年。在經歷了四分之一世紀後,它如何從上線時只有100頁的小辭典,發展為人類史上最大的公開知識資料庫?
維基百科中所收錄的海量內容,是現在各家AI巨頭訓練AI所不可或缺的資料庫。也因此官方近期宣佈與微軟、亞馬遜、Meta、Mistral AI和Perplexity達成企業合作。
這些企業可透過Wikimedia Enterprise將維基百科的大量知識整合至自家平台上。維基媒體基金會表示,過往的合作夥伴還包括 Google、Ecosia、Nomic、Pleias、ProRata和Reef Media等公司。
維基百科25歲生日快樂!
為了慶祝25週年,維基百科特別製作了專屬網頁,介紹他們如何走過這趟旅程。官方也為志願編輯們拍攝了短片,向外界強調即使邁入AI時代,知識的累積仍然仰賴人類的付出。
官方也揭露了部分關鍵數據,讓外界得以了解維基百科的現況:
• 每月的瀏覽次數接近150億次。
• 收錄超過6,500萬篇條目,涵蓋300多種語言。
• 全球每月約有25萬名編輯者參與編輯。
• 每月由超過15億個不重複裝置存取。
• 平均每分鐘被編輯324次。
• 在全球造訪量排名前十的網站中,唯一由非營利組織營運的網站。
不仰賴單一權威 相信廣大網友
維基百科的誕生,並非一開始就打算顛覆知識世界。它的前身是2000年推出的Nupedia,這是一個試圖以傳統學術方式打造的線上百科全書計畫,由企業家吉米・威爾斯(Jimmy Wales)與哲學家賴瑞・桑格(Larry Sanger)所主導。
但最初這個概念難以實行,Nupedia的每一篇文章都需通過多重同行評議,運作一年後完成的條目仍屈指可數。直到 2001 年,威爾斯引入由程式設計師沃德·坎寧安(Ward Cunningham)發明的Wiki系統:任何人都可以即時編輯頁面,不需要專業背景,也沒有複雜流程。
2001 年 1 月 15 日,維基百科作為一項實驗正式上線。威爾斯在空無一物的網站上輸入了「Hello World」,這便是維基百科上的第一筆編輯內容。值得一提的是,這一筆編輯在 2021 年以NFT的形式出售,賣得了75萬美元。
維基百科選擇了一條與以往作法截然不同的道路,不倚賴單一權威,而是相信群體能逐步逼近事實。維基百科在20週年網頁上也表示,直到現在這套作法在理論上仍被認為難以實行,然而這卻成為了它們成功的必要支柱。
就算有AI,知識的累積仍離不開人類的貢獻
在揭露與微軟、亞馬遜等公司締結合作時,維基百科便強調:「在AI時代,維基百科內由人類建立及維護的知識,比以往任何時候都更加珍貴。」這些經過編輯討論、協力編纂而成的條目,是AI訓練時極為優質的素材。
維基百科的編輯社群,可說是Web 2.0時代精神的體現:一個去中心化、由用戶主導,並以參與及協作為基石的知識網絡。來自不同背景、觀點及政治傾向的志願編輯,在完全透明的過程中辯論、交換看法,共同編纂條目,所有的更改與編輯紀錄也都公開透明。
甚至維基官方也沒有特權。去年年中,維基百科曾一度想順應潮流,實驗性導入AI摘要功能,然而這個決策最終在編輯們的反對下撤回。儘管維基官方表示,他們仍然希望能用AI技術助力網站發展,但也保證會在編輯的參與下進行。
在慶祝25週年的網頁中,維基百科聲稱,之所以能成為網路上最值得信賴的網站之一,是因為這是一個任何人都能使用、編輯及分發的免費內容平台。而這些經由人力編寫、更新的知識,更是AI訓練的寶庫。
【延伸閱讀】維基百科導入AI摘要功能,上線一天即喊卡 編輯:請不要污辱讀者智商
以人類為核心的維基百科:AI的理想狀態
對大型語言模型而言,維基百科代表著橫跨幾乎所有人類知識領域的「通用語料」,是長期累積且並非為了SEO或點擊率而生的純淨內容。在AI爬蟲四處覓食、高品質公開文本快速枯竭的當下,哪些資料屬於「合法且值得使用」,已成為發展核心。
從AI訓練的角度來看,維基百科條目具備清晰的段落結構,且條目間存在大量連結,這使其非常適合用於訓練AI的檢索與摘要能力,更是檢索增強生成(RAG)的最佳素材。
當前各家媒體開始封鎖AI爬蟲、網路論壇逐漸商業化,且AI生成內容充斥網路,維基百科始終秉持初衷,由人力編寫出有條不紊的知識網頁。其必須附帶來源、保證中立觀點的核心原則,能引導 AI 偏向陳述事實而非表達立場,並學習如何呈現可靠資訊。
簡言之,儘管維基百科是為人類查閱而生,它卻是AI訓練資料的「理想型態」。
儘管現在AI能快速生成文章、答案與圖像,但維基百科強調,許多人並未意識到,這些生成的內容背後,其實都是由人類記錄、激盪並整理出的知識精華。在AI時代,以人為基礎的維基百科反而扮演了更為關鍵的角色。