根據《每日郵報(Daily Mail)》報導,HLE由科技界人士設計,用來檢視AI系統的智能程度,題目共計2500題,精選自約100個不同領域,涵蓋從火箭科學、神話學到生理學等主題;每一題都至少需要博士等級的理解能力,若能取得接近滿分的成績,將被視為「全能專家」。
在2年前OpenAI推出的ChatGPT在這項測驗中只拿到3%,Google、Anthropic等對手表現也差不多,當時測驗緩解外界對AI迅速崛起的擔憂,認為AI仍跟全球的頂尖學者有明顯差距,人工智能不可能超越人類。
然而,這項AI進步的速度遠遠超過人類的想像,Google Gemini在上個月測驗中取得45.9%的高分,且在首次測試後短短幾個月內,成績已從18.8%大幅提升。Claude AI也拿下34.2%,進步速度同樣驚人,可能只要再隔幾個月就可以拿下滿分。負責這項測驗的研究主管張凱文(Calvin Zhang)直言,AI距離滿分已經不遠,「這幾年語言模型的進步真的非常誇張」。
根據測驗設計者的說法,如果AI在這個測驗中拿下滿分,未來將必須改用「連人類都不知道答案的題目」進行測試。值得一提的是,HLE的題目來自全球約50個國家的專家,總共提交了7萬題,再一路篩選到最後的2500題,而且還刻意保密部分內容,避免AI透過網路提前學到答案。雖然AI進步的速度相當神速且驚人,但專家也說,就算AI再強,還是有做不到的事。像是外科手術這類需要實際操作的領域,或是涉及判斷、創造力的能力,目前仍是人類比較有優勢。


