AI「近親繁殖」可能讓模型中毒 研究:人工智慧生成內容越氾濫,訓練越困難

本文經授權轉載自友站數位時代文/ 陳建鈞 

地球一瞬,世界各地正發生這些大小事。

註:本文為單一事件快訊報導,非深度文章

文章插圖

假如有一天人類全面擁抱人工智慧,開始大量使用生成式AI產出圖像及文字,那麼在未來的史書上,這一天可能會被記載為AI的「末日」。

最近的一項研究指出,當網路上存在越來越多生成式AI產出的內容,最終會導致各個模型被污染、無法正常運轉,只能吐出無意義內容,陷入「模型崩潰」危機。

越生成,越歪樓

模型崩潰(Model collapse)指的是「使用由AI模型生成的內容來訓練AI。」但英國研究團隊在《自然》期刊上發布的研究揭露,這樣的作法會導致模型快速退化,漸漸從產出失真內容惡化到生成無意義的亂碼,最終變得毫無用處。

研究團隊在實驗中,不斷讓AI模型使用上一代模型生成的內容接受訓練,結果不出10代的時間裡,AI模型產出的內容已經從最初輸入的中世紀建築資料,偏離成討論各種大野兔的種類。

文章插圖

「我們發現如果在訓練中不加區分地使用模型產生的內容,會導致模型出現不可逆的缺陷,我們稱之為『模型崩潰』。」團隊在開頭的摘要中提到。

換句話說,隨著生成式AI技術越趨成熟, 越來越多AI生成的內容出現在網路上,AI模型反倒會陷入難以取得合適訓練資料,甚至一不小心誤食「毒物」的窘境 。

這對AI公司可不是好消息,包括ChatGPT在內眾多模型都依靠爬取網路上的資料進行訓練。稍早社群平台Reddit執行長史蒂夫.霍夫曼(Steve Huffman)才公開表示,阻止微軟等AI公司爬取他們的資料是最痛苦的一件事。

文章插圖

AI間「近親繁殖」,如何導致模型崩潰?

為什麼AI生成的內容,對模型本身卻是劇毒?

《TechCrunch》指出,這要回到生成式AI的原理,它們會在訓練資料中學習各種模式(pattern),然後將提示詞與相應的模式進行配對,持續預測最有可能的下個字。

問題是,模型通常會給出最普遍的答案,假如要求生成一隻,那麼模型只會給出黃金獵犬、拉布拉多等常見犬種,不會生成稀有品種出來。

美國杜克大學學者艾蜜莉.溫格(Emily Wenger)就在一篇相關論文中,利用狗狗圖像生成變化解釋了AI模型退化的過程(如下圖)。

圖片中有著各式各樣的犬種,但經由AI訓練生成後,原先比例較高的黃金獵犬會佔據更大比例,而較稀有的犬種如法國鬥牛犬、柯基從中消失。假如利用AI生成的圖像再餵給AI模型,那麼黃金獵犬的比例變得更高,並且最終圖像失真不成犬型。

這也是研究團隊在論文中提到的「早期模型崩潰」,原先在訓練材料中占比較高者會被進一步放大,而少數群體的比例則會減少,變得更為極端化。

而到了「晚期模型崩潰」,模型已經幾乎和原始材料沒有任何相似之處。

文章插圖

人類生成的材料將越來越珍貴

倘若不採取任何手段,那麼隨AI生成內容充斥網路,模型崩潰將註定發生,但要防止模型被AI生成的內容污染,或許不是沒有辦法。溫格指出,科技公司可以在AI生成內容中嵌入浮水印,以將此排除在訓練材料之外,不過這需要各個公司間協調合作,才能避免誤食外部模型生成的內容。

另外,模型崩潰的現象也揭示一件事:人類生成的訓練材料會越來越珍貴。

這意味著建立AI模型可能有著「先驅優勢」,在生成式AI大量誕生前建立的AI模型,可以從網路上取得更純粹、反映現實的訓練材料,後來者將難以取得訓練資源,或者必須花費心力剔除AI生成的內容 。

「隨著時間移轉,我們認為訓練模型會越來越困難。」研究團隊表示,「雖然我們可能有更多資料,但很難找到一批沒有偏見的資料。」

數位時代 logo

數位時代

長期聚焦於全球、台灣與中國等地最新的科技、網路、創業、數位行銷等議題的動態及趨勢。受到企業領袖與新世代菁英的喜愛,更引領台灣社會對「新商業」的關注與討論。