AI「近親繁殖」可能讓模型中毒　研究：人工智慧生成內容越氾濫，訓練越困難

李芸 2024-08-12 2024-08-12

本文經授權轉載自友站數位時代文/ 陳建鈞

地球一瞬，世界各地正發生這些大小事。
註：本文為單一事件快訊報導，非深度文章

假如有一天人類全面擁抱人工智慧，開始大量使用生成式AI產出圖像及文字，那麼在未來的史書上，這一天可能會被記載為AI的「末日」。

最近的一項研究指出，當網路上存在越來越多生成式AI產出的內容，最終會導致各個模型被污染、無法正常運轉，只能吐出無意義內容，陷入「模型崩潰」危機。

越生成，越歪樓

模型崩潰（Model collapse）指的是「使用由AI模型生成的內容來訓練AI。」但英國研究團隊在《自然》期刊上發布的研究揭露，這樣的作法會導致模型快速退化，漸漸從產出失真內容惡化到生成無意義的亂碼，最終變得毫無用處。

研究團隊在實驗中，不斷讓AI模型使用上一代模型生成的內容接受訓練，結果不出10代的時間裡，AI模型產出的內容已經從最初輸入的中世紀建築資料，偏離成討論各種大野兔的種類。

「我們發現如果在訓練中不加區分地使用模型產生的內容，會導致模型出現不可逆的缺陷，我們稱之為『模型崩潰』。」團隊在開頭的摘要中提到。

換句話說，隨著生成式AI技術越趨成熟，越來越多AI生成的內容出現在網路上，AI模型反倒會陷入難以取得合適訓練資料，甚至一不小心誤食「毒物」的窘境。

這對AI公司可不是好消息，包括ChatGPT在內眾多模型都依靠爬取網路上的資料進行訓練。稍早社群平台Reddit執行長史蒂夫．霍夫曼（Steve Huffman）才公開表示，阻止微軟等AI公司爬取他們的資料是最痛苦的一件事。

為什麼AI生成的內容，對模型本身卻是劇毒？

《TechCrunch》指出，這要回到生成式AI的原理，它們會在訓練資料中學習各種模式（pattern），然後將提示詞與相應的模式進行配對，持續預測最有可能的下個字。

問題是，模型通常會給出最普遍的答案，假如要求生成一隻狗，那麼模型只會給出黃金獵犬、拉布拉多等常見犬種，不會生成稀有品種出來。

美國杜克大學學者艾蜜莉．溫格（Emily Wenger）就在一篇相關論文中，利用狗狗圖像生成變化解釋了AI模型退化的過程（如下圖）。

圖片中有著各式各樣的犬種，但經由AI訓練生成後，原先比例較高的黃金獵犬會佔據更大比例，而較稀有的犬種如法國鬥牛犬、柯基從中消失。假如利用AI生成的圖像再餵給AI模型，那麼黃金獵犬的比例變得更高，並且最終圖像失真不成犬型。

這也是研究團隊在論文中提到的「早期模型崩潰」，原先在訓練材料中占比較高者會被進一步放大，而少數群體的比例則會減少，變得更為極端化。

而到了「晚期模型崩潰」，模型已經幾乎和原始材料沒有任何相似之處。

倘若不採取任何手段，那麼隨AI生成內容充斥網路，模型崩潰將註定發生，但要防止模型被AI生成的內容污染，或許不是沒有辦法。溫格指出，科技公司可以在AI生成內容中嵌入浮水印，以將此排除在訓練材料之外，不過這需要各個公司間協調合作，才能避免誤食外部模型生成的內容。

另外，模型崩潰的現象也揭示一件事：人類生成的訓練材料會越來越珍貴。

這意味著建立AI模型可能有著「先驅優勢」，在生成式AI大量誕生前建立的AI模型，可以從網路上取得更純粹、反映現實的訓練材料，後來者將難以取得訓練資源，或者必須花費心力剔除AI生成的內容。

「隨著時間移轉，我們認為訓練模型會越來越困難。」研究團隊表示，「雖然我們可能有更多資料，但很難找到一批沒有偏見的資料。」

我們為您在DQ飛行船預留了VIP位子，期待您登船贊助DQ

長期聚焦於全球、台灣與中國等地最新的科技、網路、創業、數位行銷等議題的動態及趨勢。受到企業領袖與新世代菁英的喜愛，更引領台灣社會對「新商業」的關注與討論。

收起全部