研究學者在這次的 IQ 測驗中,選用在許多美國的學校普遍使用的魏氏幼兒智力量表(WWPSI),而這個量表主要是設計給幼童作答,並以 5 種類別的題目來衡量幼童的智力,再給 ConceptNet 4 作答前,這些題目也必須經過修改後才好讓它「讀懂」題目在問什麼,類別和範例題型分別是以下 5 種:
知識:「哪裡可以找得到企鵝呢?」
字彙:「房子是什麼東西?」
推理:「給予三個暗示,可以直接看穿、方形、能被打開」
相似:「筆和鉛筆都是…?」
理解:「為什麼人要握手呢?」
測驗後的結果顯示,ConceptNet 4 的智商大約落在 4 歲兒童的平均智商,但低於 5 至 7 歲兒童的平均智商。這個 AI 系統在字彙以及相似這兩類題目中拿下了頗高的分數,知識類則是在同年齡層取得處於平均的分數,但在推理和理解這兩方面則得到極低的分數,也證明了現有的人工智慧還沒辦法有像人類一樣的的複雜的理解與推理能力。
而為什麼 ConceptNet 4 會在推理和理解這兩個方面得到較低的分數呢?這都要歸究於它是怎麼樣「解讀」題目的,舉例來說,題目問:「為什麼我們要握手(shake hands)?」ConceptNet 4 會回答:「因為癲癇發作。」但若研究學者將問題簡化為「握手」,它就會回答較有關連性的答案,像是「調情」、「表達感謝」、「跟朋友見面」等。有時它也會回答的文不對題,像是問它「哪裡可以找得到老師?」,卻得到了「鋼琴」、「樂團」等不合乎邏輯的答案。
研究學者也沒有辦法解釋為什麼 ConceptNet 4 會提出這些不合理的答案,只建議考試的方式可能需要改變一下,像是透過虛擬語音助理 Siri 或 Cortana 轉換自然語言,再輸入問題給 AI 系統回答,這樣的方式可能才會讓它的答題正確率提高。
人工智慧的研究最早可以追溯到 1950 年代,在當時,研究學者將知識庫輸入到電腦中,讓它以邏輯與理解能力解決事情。而在近十幾年,「機器學習」的方法興起,方法是在人工智慧系統中輸入大量的數據,讓它能夠自己學習,而原先「教導」電腦的這個方式也漸漸被「機器學習」取代且超越。研究學者也表示,以上的這兩種方法其實都是有幫助的,但若能將兩種方式做結合,在未來人工智慧的發展中一定會扮演著極重要的角色。