由芝加哥大學教授趙燕斌(Ben Zhao)所帶領的團隊最近研發出一款新AI工具「Nightshade」,能讓創作者在上傳藝術作品前,對作品的畫素加入肉眼不可見的變動,進一步對AI模型的訓練數據「下毒」,最終導致AI產出與指令不符的結果。
經Nightshade調整後的作品,會讓AI模型判斷錯誤,例如將狗的圖像認成貓、帽子的圖認成是蛋糕,且這些錯誤數據還很難從龐大數據集中找出並刪除。
團隊在Stable Diffusion最新的模型以及自行訓練的AI模型上做實驗,提供模型50張用Nightshade下毒後的作品來訓練,再下指令生成狗的圖像,模型產出的結果會開始扭曲;當提供300張下毒後的訓練數據,生成結果則從狗變為貓。如果指令中有兩個元素,也都會在生成結果中被加以扭曲。
研究人員計畫將Nightshade融入Glaze中,讓藝術家自行選擇是否要對數據下毒,同時他們也會將Nightshade開源,愈多人調整作品畫素對AI模型的影響力即愈大。
專家:AI被攻擊只是早晚的問題
至於像Nightshade等工具是否會被不肖人士運用,趙燕斌承認有這個可能性,但要對市面上大型的模型真正造成影響,需要有數千張被下毒的訓練數據,因此難度並不低。
康乃爾大學教授維塔利(Vitaly Shmatikov)則認為,雖然對AI模型下毒的攻擊還未顯現,但這只是早晚的問題,因此也必須開始想AI模型抵禦下毒的機制了。