假如有一天人類全面擁抱人工智慧,開始大量使用生成式AI產出圖像及文字,那麼在未來的史書上,這一天可能會被記載為AI的「末日」。
最近的一項研究指出,當網路上存在越來越多生成式AI產出的內容,最終會導致各個模型被污染、無法正常運轉,只能吐出無意義內容,陷入「模型崩潰」危機。
越生成,越歪樓
模型崩潰(Model collapse)指的是「使用由AI模型生成的內容來訓練AI。」但英國研究團隊在《自然》期刊上發布的研究揭露,這樣的作法會導致模型快速退化,漸漸從產出失真內容惡化到生成無意義的亂碼,最終變得毫無用處。
研究團隊在實驗中,不斷讓AI模型使用上一代模型生成的內容接受訓練,結果不出10代的時間裡,AI模型產出的內容已經從最初輸入的中世紀建築資料,偏離成討論各種大野兔的種類。
AI間「近親繁殖」,如何導致模型崩潰?
為什麼AI生成的內容,對模型本身卻是劇毒?
《TechCrunch》指出,這要回到生成式AI的原理,它們會在訓練資料中學習各種模式(pattern),然後將提示詞與相應的模式進行配對,持續預測最有可能的下個字。
問題是,模型通常會給出最普遍的答案,假如要求生成一隻狗,那麼模型只會給出黃金獵犬、拉布拉多等常見犬種,不會生成稀有品種出來。
美國杜克大學學者艾蜜莉.溫格(Emily Wenger)就在一篇相關論文中,利用狗狗圖像生成變化解釋了AI模型退化的過程(如下圖)。
圖片中有著各式各樣的犬種,但經由AI訓練生成後,原先比例較高的黃金獵犬會佔據更大比例,而較稀有的犬種如法國鬥牛犬、柯基從中消失。假如利用AI生成的圖像再餵給AI模型,那麼黃金獵犬的比例變得更高,並且最終圖像失真不成犬型。
這也是研究團隊在論文中提到的「早期模型崩潰」,原先在訓練材料中占比較高者會被進一步放大,而少數群體的比例則會減少,變得更為極端化。
而到了「晚期模型崩潰」,模型已經幾乎和原始材料沒有任何相似之處。
人類生成的材料將越來越珍貴
倘若不採取任何手段,那麼隨AI生成內容充斥網路,模型崩潰將註定發生,但要防止模型被AI生成的內容污染,或許不是沒有辦法。溫格指出,科技公司可以在AI生成內容中嵌入浮水印,以將此排除在訓練材料之外,不過這需要各個公司間協調合作,才能避免誤食外部模型生成的內容。
另外,模型崩潰的現象也揭示一件事:人類生成的訓練材料會越來越珍貴。
這意味著建立AI模型可能有著「先驅優勢」,在生成式AI大量誕生前建立的AI模型,可以從網路上取得更純粹、反映現實的訓練材料,後來者將難以取得訓練資源,或者必須花費心力剔除AI生成的內容 。
「隨著時間移轉,我們認為訓練模型會越來越困難。」研究團隊表示,「雖然我們可能有更多資料,但很難找到一批沒有偏見的資料。」