聊天機器人已通過類人智能的關鍵測試。現在怎么辦?
已經有幾個標題過去一周關于 AI 聊天機器人正式通過圖靈測試。
這些新聞報道基于最近的預印本研究由加州大學圣地亞哥分校的兩名研究人員進行,其中四個大型語言模型 (LLM) 通過了圖靈測試。一個模型——OpenAI 的 GPT-4.5——被認為在超過 70% 的時間里與人類沒有區別。
圖靈測試已經普及作為機器智能的最終指標。然而,關于該測試的有效性存在分歧。事實上,它有一段有爭議的歷史,這讓人質疑它在衡量機器智能方面的真正效果。
那么,這對這項新研究的意義意味著什么呢?
研究發現了什么?
認知科學家卡梅隆·瓊斯 (Cameron Jones) 和本杰明·伯根 (Benjamin Bergen) 的預印本研究于 3 月發表,但尚未經過同行評審。它測試了 4 個 LLM:伊麗莎,GPT-4o,LLaMa-3.1-405B和GPT-4.5 的.
測試包括參與者完成八輪對話,在對話中,他們充當審訊者,同時與兩名證人交換短信。一名證人是人類,另一名是法學碩士。大約 284 名參與者被隨機分配為審訊者或證人。
參與者需要通過分屏同時與兩名證人互動 5 分鐘,測試界面模仿傳統消息傳遞界面。在這次互動之后,他們確定了哪個證人是人類,哪個是 AI 聊天機器人。
參與者判斷 GPT-4.5 在 73% 的情況下是人類,在 56% 的情況下判斷 LLaMa-3.1-405B 是人類。其他兩個模型(ELIZA 和 GPT-4o)分別只騙了 23% 和 21% 的參與者。
圖靈測試到底是什么?
圖靈測試的第一次迭代是由英國數學家和計算機科學家艾倫·圖靈在 1948 年的一篇題為”智能機械".它最初被提議為一項實驗,涉及三個人使用稱為造紙機的理論機器下棋,其中兩人是玩家,一名作員。
在 1950 年的出版物”計算機與智能“,圖靈將實驗重新引入”模仿游戲“,并聲稱這是一種確定機器表現出相當于人類的智能行為能力的方法。它涉及三名參與者:參與者 A 是女性,參與者 B 是男性,參與者 C 是任一性別。
通過一系列的問題,參與者 C 需要確定“X 是 A 和 Y 是 B”還是“X 是 B 和 Y 是 A”,X 和 Y 代表兩種性別。
然后提出了一個命題:“當機器在這個游戲中占據 A 的一部分時會發生什么?當游戲以這種方式進行時,審訊者會像在一男一女之間進行游戲時一樣經常做出錯誤的決定嗎?
這些問題旨在取代模棱兩可的問題,“機器能思考嗎?圖靈機聲稱這個問題是模棱兩可的因為它需要理解“機器”和“思考”這兩個術語,而這兩個詞的“正常”使用會導致對問題的回答不充分。
多年來,這個實驗被推廣為圖靈測試。雖然主題各不相同,但測試仍然是對“X 是 A 和 Y 是 B”還是“X 是 B 和 Y 是 A”的審議。
為什么會有爭議?
雖然圖靈測試作為一種測試機器智能的手段而廣受歡迎,但并未被一致接受為一種準確的方法。事實上,該測試經常受到挑戰。
- 行為與思考。一些研究人員認為,“通過”測試的能力是行為問題,而不是智力問題。因此,說機器可以通過模仿游戲,但不能思考,這并不矛盾。
- 大腦不是機器。圖靈斷言大腦是一臺機器,聲稱它可以用純粹機械的術語來解釋。許多學者反駁了這一說法,并以此為基礎質疑該測試的有效性。
- 內部作。由于計算機不是人類,它們得出結論的過程可能無法與人相提并論,這使得測試不充分,因為直接比較不起作用。
- 測試范圍。一些研究人員認為,僅測試一種行為不足以確定智力。
那么 LLM 和人類一樣聰明嗎?
雖然預印本文章聲稱 GPT-4.5 通過了圖靈測試,但它也指出:
圖靈測試是可替代性的衡量標準:一個系統是否可以代替一個真實的人,而 [...]沒有注意到差異。
這意味著研究人員不支持圖靈測試是人類智能的合法指標的觀點。相反,它是對人類智能的模仿——對測試起源的頌歌。
還值得注意的是,該研究的條件并非沒有問題。例如,五分鐘的測試窗口相對較短。
此外,每個 LLM 都被提示采用特定的角色,但目前尚不清楚“角色”的細節和對測試的影響。
目前,可以肯定地說 GPT-4.5 不如人類聰明——盡管它可能會合理地說服一些人。