AI「近親繁殖」可能讓模型中毒 研究:人工智慧生成內容越氾濫,訓練越困難
地球一瞬,世界各地正發生這些大小事。
註:本文為單一事件快訊報導,非深度文章
假如有一天人類全面擁抱人工智慧,開始大量使用生成式AI產出圖像及文字,那麼在未來的史書上,這一天可能會被記載為AI的「末日」。
最近的一項研究指出,當網路上存在越來越多生成式AI產出的內容,最終會導致各個模型被污染、無法正常運轉,只能吐出無意義內容,陷入「模型崩潰」危機。
越生成,越歪樓
模型崩潰(Model collapse)指的是「使用由AI模型生成的內容來訓練AI。」但英國研究團隊在《自然》期刊上發布的研究揭露,這樣的作法會導致模型快速退化,漸漸從產出失真內容惡化到生成無意義的亂碼,最終變得毫無用處。
研究團隊在實驗中,不斷讓AI模型使用上一代模型生成的內容接受訓練,結果不出10代的時間裡,AI模型產出的內容已經從最初輸入的中世紀建築資料,偏離成討論各種大野兔的種類。
若持續以AI生成的資料訓練AI,AI模型將離最初的資料越來越遠,導致模型崩潰。
網友nature近期網路上有多篇研究都指出,若以AI生成資料訓練AI,生成結果將持續退化。
網友IEEEAI間「近親繁殖」,如何導致模型崩潰?
為什麼AI生成的內容,對模型本身卻是劇毒?
《TechCrunch》指出,這要回到生成式AI的原理,它們會在訓練資料中學習各種模式(pattern),然後將提示詞與相應的模式進行配對,持續預測最有可能的下個字。
問題是,模型通常會給出最普遍的答案,假如要求生成一隻狗,那麼模型只會給出黃金獵犬、拉布拉多等常見犬種,不會生成稀有品種出來。
美國杜克大學學者艾蜜莉.溫格(Emily Wenger)就在一篇相關論文中,利用狗狗圖像生成變化解釋了AI模型退化的過程(如下圖)。
圖片中有著各式各樣的犬種,但經由AI訓練生成後,原先比例較高的黃金獵犬會佔據更大比例,而較稀有的犬種如法國鬥牛犬、柯基從中消失。假如利用AI生成的圖像再餵給AI模型,那麼黃金獵犬的比例變得更高,並且最終圖像失真不成犬型。
這也是研究團隊在論文中提到的「早期模型崩潰」,原先在訓練材料中占比較高者會被進一步放大,而少數群體的比例則會減少,變得更為極端化。
而到了「晚期模型崩潰」,模型已經幾乎和原始材料沒有任何相似之處。
美國杜克大學學者艾蜜莉.溫格在一篇相關論文中,以生成狗狗圖像為例,解釋AI模型退化的過程。
網友nature人類生成的材料將越來越珍貴
倘若不採取任何手段,那麼隨AI生成內容充斥網路,模型崩潰將註定發生,但要防止模型被AI生成的內容污染,或許不是沒有辦法。溫格指出,科技公司可以在AI生成內容中嵌入浮水印,以將此排除在訓練材料之外,不過這需要各個公司間協調合作,才能避免誤食外部模型生成的內容。
另外,模型崩潰的現象也揭示一件事:人類生成的訓練材料會越來越珍貴。
這意味著建立AI模型可能有著「先驅優勢」,在生成式AI大量誕生前建立的AI模型,可以從網路上取得更純粹、反映現實的訓練材料,後來者將難以取得訓練資源,或者必須花費心力剔除AI生成的內容 。
「隨著時間移轉,我們認為訓練模型會越來越困難。」研究團隊表示,「雖然我們可能有更多資料,但很難找到一批沒有偏見的資料。」
數位時代
長期聚焦於全球、台灣與中國等地最新的科技、網路、創業、數位行銷等議題的動態及趨勢。受到企業領袖與新世代菁英的喜愛,更引領台灣社會對「新商業」的關注與討論。
延伸閱讀
- 「對AI下毒,讓它把狗認成貓」防止藝術家作品遭侵權,芝加哥大學團隊推出新解方
- AI蟲蟲危機!美國研究:生成式AI蠕蟲即將現身,LLM潛藏資安隱患
- AI生成一張圖,耗能可以充飽一支手機 研究:AI應用的碳排遠遠超過研發
- 讓安迪沃荷「親口」說故事!加拿大新創推語音生成AI,藉聲音浮水印防濫用
- 「真真假假,假假真真的AI時代」劍橋詞典2023年度代表字:Hallucinate
- 一句話生成60秒短片!生成式AI新星Sora厲害在哪?
- 「不忍了!你們這些免費仔」文字工作者集體聯署向生成式AI討版權
- 我們請AI生成「美麗女性」與「普通女性」的圖片,AI:偏見與刻板也是人類教我的
- 「ChatGPT還在新手村」通用人工智慧AGI的養成之路
- 性愛娃娃也要人工智慧 中國工廠帶你看