7일(현지시간) 미국 스탠퍼드대 인간중심AI연구소는 이 같은 내용이 담긴 'AI 지수 보고서 2025(AI Index Report 2025)'를 공개했다. 스탠퍼드대는 2017년부터 거의 매년 AI의 기술·정책 동향을 분석하는 보고서를 발간하고 있다.
보고서에 따르면 사용자가 직접 평가하는 AI 챗봇 성능 점수 순위인 '챗봇 아레나 리더보드'에서 2024년 초 기준 1위가 10위보다 12% 높은 점수를 받았지만 2025년 초 기준으로는 1위가 10위보다 5% 높은 점수를 받았다. 상위권 AI 챗봇들 사이의 성능 격차가 줄어 뚜렷한 선두가 없어진 것이다. 언제든 순위가 뒤집힐 수 있을 것이라는 해석이다.
AI 모델의 전반적인 성능은 빠른 속도로 향상되고 있다. 2023년 새로 도입된 벤치마크 기준인 MMMU, GPQA, SWE 등에서 AI 모델들의 점수는 평균 각각 18.8%, 48.9%, 67.3% 상승했다.
MMMU는 다양한 학문 분야에 걸쳐 악보, 화학식 등 텍스트와 이미지를 모두 포함한 전문가 수준의 문제를 풀어야 한다. GPQA는 박사 이상 수준의 과학적 질문을 해석하고 답변해야 해 고도의 추론 능력이 요구된다. SWE는 소프트웨어 엔지니어링으로 실전 문제를 해결하는 능력을 평가한다.
AI 모델 성능 관점에서 미국이 더이상 선두가 아니라는 분석도 나왔다. 일반적인 AI 성능 벤치마크인 MMLU를 기준으로 중국의 주요 모델은 2023년 기준 미국 상위 모델보다 성능 점수가 약 20% 뒤처졌지만 2024년 말 기준 차이가 0.3%로 없다시피 했다. 세계지식재산기구(WIPO) 통계에 따르면 10년간 중국의 생성형 AI 특허 출원 수가 미국의 6배에 달하는 것으로 나타났다.
또 알고리즘과 데이터 등을 공개하는 오픈소스 AI 모델의 수와 성능이 기존 폐쇄형 모델을 따라잡고 있는 것으로 나타났다. 2024년 초 기준 상위권 오픈소스와 폐쇄형 AI 모델의 성능 차이는 8%였지만 2025년 초 기준 1.7%로 좁혀졌다.
최근 AI 업계에 큰 충격을 준 중국 스타트업 딥시크(DeepSeek)의 AI 모델도 오픈소스(개방형) 방식이라는 점이 특징이다. 챗GPT를 개발한 미국 오픈AI는 몇 달 내로 오픈소스 AI 모델을 출시할 계획이다.
학습 데이터 규모와 컴퓨팅 자원이 늘면서 AI 모델 크기도 커지는 추세지만 최적화된 알고리즘 덕분에 작고 뛰어난 소형 AI 모델도 주목할 만한 성과를 냈다. 2024년 38억개의 변수로 만든 AI 모델이 2022년 5400억개의 변수를 사용한 모델과 MMLU 테스트에서 같은 점수를 내기도 했다. 크기가 작은 모델은 학습과 생성이 빠르고 에너지도 더 적게 사용한다.
학계가 중심이었던 과거와 달리 주요 AI 모델 대다수를 산업계에서 만들고 있다는 사실도 확인됐다. 인공신경망과 생성형 AI가 폭발적으로 성장하기 전인 2000년대 초반과는 상황이 뒤집힌 것이다. 2006년 이전에는 주요 AI 모델 중 산업계에서 만든 모델 비율이 20% 미만이었지만 2023년에는 60%, 2024년에는 90%에 이르는 것으로 추정됐다.