😎👉一图胜千言:各大模型在“人类的最后考试”benchmark 上的得分
一图胜千言:各大模型在“人类的最后考试”benchmark 上的得分 OpenAI deep research 一骑绝尘一飞冲天🚀
6park.com「人類的最後一場考試」是由 Center for AI Safety (CAIS) 和 Scale AI 共同推出的一項新的基準測試 (benchmark),旨在評估大語言模型 (LLMs) 的深度推理能力,並確定專家級人工智慧 (expert-level AI) 何時真正到來。
這項測試共有 3000 道題目,是從 70000 道題目中經過重重篩選而來。題目涵蓋了各個領域,包括科學、人文、歷史、哲學、數學、時事等,而且還包含了大量的多模態問題,比如影片、圖像等等。這些問題不僅需要廣泛的知識儲備,更需要基於知識進行推理、分析、判斷、總結等能力。
這項測試的目的是為了檢驗 AI 是否真正理解了人類的知識,還是僅僅只是在死記硬背。如果 AI 能夠通過這項測試,那就意味著它已經具備了和人類同等的智慧,可以獨立思考和解決問題。
值得一提的是,在最近一次的測試中,所有頂尖 LLM 的通過率都不超過 10%(除了OpenAI deep research),而且模型都表現得過度自信。這也說明了目前的人工智慧技術距離真正的人類智慧還有很大的差距。 6park.com
|