스탠포드대학교 인간중심인공지능연구소(HAI) 아홉 번째 연간 보고서를 발표했습니다. AI 지수 보고서 — 전 세계적으로 인공 지능에 대한 가장 포괄적인 데이터 기반 평가입니다.2025년과 2026년 에디션은 변곡점에 있는 산업의 그림을 그립니다. AI 기능은 그 어느 때보다 빠르게 발전하고 있으며, 비용은 급락하고 있으며, 글로벌 경쟁은 거의 동등한 수준에 도달했습니다. 그러나 이 분야는 신뢰, 환경 지속 가능성, 대규모 투자를 통해 얻을 수 있는 진정한 가치에 대한 긴급한 질문에 직면해 있습니다.
1. AI 성능이 기록을 경신하고 있지만 상위권은 점점 붐비고 있습니다.
MMMU(다중 모드 추론), GPQA(졸업생 Q&A), SWE-벤치(실제 코딩)와 같은 엄격한 벤치마크에서 AI 성능이 18.8, 48.9, 67.3% 포인트 단 1년 만에 각각.이제 언어 모델은 시간이 제한된 코딩 작업에서 인간 프로그래머와 동등하거나 그보다 뛰어난 성능을 발휘하며 고품질 비디오 생성이 엄청난 발전을 이루었습니다.
그러나 리더십 격차는 극적으로 줄어들었습니다.2024년 초에는 1위 모델이 10위 모델에 비해 약 12% 우위를 차지했습니다.2025년에는 그 이점이 5%.평탄한 환경은 단일 모델이 오랫동안 지배하지 않는다는 것을 의미합니다. 이는 벤치마크 포화도와 진정한 혁신의 의미에 대한 의문을 제기합니다.
2. 미중 AI 격차가 거의 사라졌다
미국 기관은 2024년에 주목할만한 AI 모델 40개를 생산했지만 중국은 15개를 생산했지만 MMLU 및 HumanEval과 같은 주요 벤치마크의 성능 차이는 2025년 초까지 두 자릿수에서 거의 동등 수준으로 줄었습니다. 2026년 보고서는 더욱 치열한 경쟁을 보여줍니다. 2026년 3월까지 미국의 선두 모델은 2.7% 앞서 최고의 중국 모델 중 최고 위치에 여러 차례 거래가 이루어졌습니다.
미국은 개척 모델 규모와 민간 투자에서 선두를 달리고 있는 반면, 중국은 산업용 로봇 공학(전 세계 설치의 54%)과 연구 성과에서 우위를 점하고 있습니다.경쟁은 벤치마크 점수를 넘어 실제 생산성, 칩 및 에너지 인프라로 옮겨갔습니다.
3. AI 비용이 급락하고 있습니다. 액세스 민주화
GPT-3.5 수준 성능에 대한 추론 비용이 감소했습니다. 280배 이상 — 2022년 11월 토큰 백만 달러당 20달러에서 2024년 10월까지 단 0.07달러로 줄었습니다. 더 작은 모델이 빠르게 따라잡고 있습니다. 2022년에는 MMLU에서 60% 이상의 점수를 받은 가장 작은 모델의 매개변수가 5,400억 개(PaLM)였습니다.2024년까지 Microsoft의 Phi-3-mini는 단 38억 개의 매개변수로 동일한 목표를 달성했습니다. 142× 감소.
하드웨어 비용은 매년 약 30% 감소한 반면, 에너지 효율성은 매년 최대 40% 향상되었습니다.공개 가중치 모델은 비공개 소스 모델과의 격차를 거의 줄여 1년 만에 주요 벤치마크에서 성능 차이를 8%에서 단 1.7%로 줄였습니다.
4. 주류 채택이 급증하고 있지만 ROI는 여전히 파악하기 어렵습니다.
채택률이 급격히 증가했습니다. 조직의 78% 2024년에는 적어도 하나의 비즈니스 기능에서 AI를 사용했는데, 이는 2023년 55%에서 증가한 것입니다. 비즈니스 기능에서 생성적 AI 사용은 두 배 이상 증가했습니다(33% → 71%).그러나 냉정한 현실은 다음과 같습니다. 현재 AI 투자의 95%가 긍정적인 재정적 수익을 창출하지 못하고 있습니다. , 2026년 보고서에 따르면.AI는 고객 서비스에서 +14%, 소프트웨어 개발에서 +26% 등 생산성을 눈에 띄게 향상시키지만 이러한 이득은 광범위한 수익성으로 이어지지 않았습니다.민간 AI 투자는 2024년 전 세계적으로 2,523억 달러(+26% YoY)에 도달했지만 대부분의 기업은 여전히 ROI 공식을 찾고 있습니다.
5. "톱니 지능": 예상치 못한 방식으로 뛰어났지만 실패했습니다.
대조적인 두 가지 예: 선도적인 AI 시스템이 국제 수학 올림피아드(Gemini Deep Think 점수 35/42)에서 금메달을 획득했지만 아날로그 시계를 읽는 데는 실패했습니다. - ClockBench 테스트 정확도는 50.1% 대 인간은 90.1%이다.AI 에이전트는 이제 사이버 보안 문제를 93%의 시간 동안 해결합니다(2024년 15%에서 증가).실제 작업 성공률은 2025년 20%에서 2026년 77.3%로 향상되었습니다. 그러나 물리적 세계는 여전히 장애물로 남아 있습니다. 로봇은 소프트웨어 시뮬레이션에서 89.4%의 성공률을 보였지만 12% 빨래를 개거나 설거지를 할 때.
일부 영역에서는 탁월하지만 다른 영역에서는 당황스러운 이 톱니 패턴은 배포자에게 중요한 경고입니다. AI는 일반적으로 지능적이지 않으며 과도한 신뢰는 여전히 위험합니다.
6. 환경 비용이 걷잡을 수 없이 늘어나고 있다
Grok 4와 같은 모델의 훈련 배출량이 추정치에 도달했습니다. CO2 환산량 72,816톤 — 1년 동안 17,000대의 자동차를 운전하는 것과 비슷합니다.AI 데이터 센터는 현재 뉴욕주의 최대 수요와 동등한 29.6GW의 전력 용량을 소비합니다.GPT-4o의 연간 추론수 사용량만으로도 1,200만 명의 식수 수요를 초과할 수 있습니다.올인원 AI 시스템의 누적 전력 수요는 스위스나 오스트리아의 국가 전력 소비량과 맞먹는다.
7. 대중의 낙관론이 높아지지만, 깊은 지역적 격차는 지속됩니다.
전 세계적으로 AI에 대한 낙관론(해로움보다 이익이 더 많음)은 2022년에서 2024년 사이에 52%에서 55%로 증가했습니다.그러나 지역적 분할은 극명합니다. 83%는 중국 AI가 더 많은 이점을 가져온다고 믿는 반면, 미국에서는 39%, 캐나다에서는 40%만이 동의했습니다.개인 데이터를 보호하는 AI 기업에 대한 신뢰도가 50%에서 47%로 떨어졌습니다.대중은 편견, 개인 정보 보호 및 책임 위험에 대해 점점 더 인식하고 있으며 투명하고 윤리적이며 신뢰할 수 있는 AI 솔루션을 요구하고 있습니다.
8. 책임 있는 AI 및 규제: 더 많은 사건, 새로운 법률
AIAAIC 데이터베이스에서 추적한 AI 사건이 급증했습니다. 2024년 233 — 기록적인 +56.4% YoY.한편, 미국 연방 기관은 2024년에 59개의 AI 관련 규정(2023년의 두 배 이상)과 131개의 새로운 주법을 도입했습니다.AI에 대한 전 세계 입법 언급은 75개국에서 21% 이상 증가했습니다.주요 자금 조달 계획에는 캐나다(24억 달러), 중국(475억 달러 반도체 펀드), 사우디아라비아의 1000억 달러 프로젝트 초월, 인도의 12억 5천만 달러 약속이 포함됩니다.
😀 의사결정자를 위한 주요 시사점
비즈니스 리더의 경우: 이제 AI 채택이 표준이 되었지만 95%는 긍정적인 ROI를 보지 못했습니다.AI가 뛰어난 좁고 가치가 높은 작업(부조종사 코딩, 요약)에 우선 순위를 부여하고 실험적 프론티어 모델에 대한 과도한 투자를 피하세요.규제 복잡성이 증가함에 따라 투명성을 위해 개방형 모델을 사용하십시오.
정책 입안자의 경우: 미국과 중국의 성과 격차가 사실상 해소되었습니다.이제 대규모 인프라 투자는 환경 비용과 국가 안보에 미치는 영향을 고려해야 합니다.표준화된 안전성 평가는 선택사항이 아닌 시급히 필요합니다.
모든 사람에게: GenAI 도구는 불과 3년 만에 전 세계 인구의 53%에 도달했습니다(인터넷이나 PC보다 빠른 속도).그러나 톱니 지능은 이러한 도구가 많은 일상 작업에서 신뢰할 수 없다는 것을 의미합니다.AI 출력을 감사하고 인간의 감독을 유지하는 방법을 배우십시오.
2025~2026년 보고서는 AI가 더 이상 무엇이 가능한지에 대한 이야기가 아니라는 점을 분명히 합니다. AI는 현재 일어나고 있는 일과 우리가 집단적으로 미래를 어떻게 형성하고 있는지에 대한 이야기입니다.데이터가 들어있습니다. 결정은 우리의 것입니다.