最近研究顯示,在軟體工程職位的模擬面試中,進行面試回饋的AI模型對男性評價較低,尤其是那些擁有「英式」名字的男性。
用AI招募,比較沒有偏見?
這項研究是由塞萊斯特(Celeste De Nadai)在瑞典斯德哥爾摩皇家理工學院(KTH)所進行的畢業論文,目的是調查當大型語言模型(LLM)面對性別資料與可進行文化推論的名字時,是否展現偏見。
同時,塞萊斯特也是AI內容公司Monok行銷長。她告訴《The Register》,彭博社曾報導神經網路基於名字會產生偏見的新聞,成為他做題目的靈感。目前很多新創公司都透過AI進行招募,強調沒有偏差,而她質疑這個說法。
塞萊斯特的研究以Google的Gemini-1.5-flash、Mistral AI的Open-Mistral-nemo-2407,以及OpenAI的 GPT4o-mini 為研究對象,在溫度(影響可預測性與隨機性的模型設定)、性別及與文化群體相關的名稱變化的情況下,觀察它們如何對24個求職面試問題的回答進行分類與評分。
最重要的是,為了測試模型,相同答案會使用不同姓名和背景組合。結果發現,具英式(盎格魯-撒克遜)名字的男性,雖然在軟體工程表現更好,但模型會降低其他有利答案的評分。
AI:英國男,下去!
該研究將申請人的名字和性別變換200次,以對應200個離散角色,再細分為100名男性和100名女性,並分為四個不同的文化群體(西非、東亞、中東、盎格魯-撒克遜),主要反映在名字和姓氏上。
結果原本預期男性和西方名字會受青睞,如同過往的偏見研究發現一樣。但結果卻完全不同。研究報告指出,
「這些服務存在固有偏見,在特定研究案例中,男性名字普遍受歧視,尤其是盎格魯-撒克遜(英式)名字。」
不過當包含更詳細問題分級標準和溫度高於1的提示時,Gemini模型表現比其他模型好。
修正一個偏見,誕生另一個偏見
塞萊斯特認為,對英式姓氏男性的偏見,反映在先前研究中,對偏向相反方向的輸出進行過度修正。她建議如果要更公平的話,可提供提示,說明如何為面試問題打分的嚴格、詳細標準。溫度調整可能有幫助,也可能有傷害,視模型而定。
這項研究指出,進行分類或評估時,建議務必遮蔽姓名和混淆性別,確保結果盡可能概括且無偏見,並在系統指示的提示中,提供如何分級的標準。