2026년 봄, AI 산업은 주요 뉴스로 인해 흔들렸습니다. Reuters에 따르면 Anthropic은 자체 칩 설계 가능성을 모색하고 있습니다.연간 수익이 300억 달러를 초과하고 Claude 모델의 사용자 기반이 급증하고 있는 이 AI 연구소는 컴퓨팅 성능의 소비자에서 컴퓨팅 성능의 정의자로의 진화를 진지하게 고려하고 있습니다.
소식통은 계획이 아직 초기 단계에 있다고 인정합니다.회사는 아직 구체적인 계획을 확정하지 않았거나 전담팀을 구성하지 않았습니다.Anthropic은 궁극적으로 칩을 내부에서 설계하기보다는 구매만 선택할 수도 있습니다.그러나 가능성조차도 많은 것을 말해줍니다.
현재 Anthropic은 Google의 모회사인 Alphabet이 설계한 TPU(Tensor Processor Unit)와 Amazon의 Trainium 칩을 모두 사용하여 Claude를 개발하고 실행합니다.바로 이번 주에 회사는 Google 및 Broadcom과도 장기 계약을 체결했습니다. Broadcom은 Google TPU의 핵심 설계 지원자입니다.내부 개발을 조용히 탐색하면서 수십억 달러 규모의 외부 조달 계약을 체결하는 이 이중 접근 방식은 몇 년 전의 Meta 및 Microsoft와 이상할 정도로 유사합니다. 두 회사 모두 이제 자체 맞춤형 칩을 보유하고 있습니다.
업계에서는 최고 수준의 AI 칩을 설계하는 데 약 5억 달러가 소요될 것으로 추산하고 있지만, 가격보다 더 주목할만한 것은 Anthropic의 움직임을 뒷받침하는 업계 신호입니다.순수 모델 회사가 자체 실리콘 개발을 진지하게 고려하기 시작하면 AI 추론을 위한 하드웨어 전쟁은 실제로 새로운 수준의 강도로 접어들었습니다.
지난 2년 동안 AI 산업은 엄청난 컴퓨팅 파워 수요가 훈련 측면에서 추론 측면으로 빠르게 이동하는 등 극적인 변화를 겪었습니다.
몇 주 또는 몇 달이 걸릴 수 있는 훈련 단계에는 병렬 컴퓨팅을 위한 대규모 GPU 클러스터가 필요하며 이 측면에서 Nvidia의 지배력은 거의 흔들리지 않습니다.하지만 추론은 다릅니다.추론은 모델이 사용자 요청에 응답할 때마다 발생하는 실시간 계산입니다.낮은 대기 시간, 높은 처리량, 낮은 에너지 소비를 추구합니다. 이는 GPU의 뛰어난 기능과 완전히 일치하지 않는 목표입니다.
Barclays의 예측에 따르면 2026년까지 추론 컴퓨팅 수요는 전체 AI 컴퓨팅 전력 수요의 70% 이상을 차지할 것이며, 이는 훈련 수요의 4.5배에 달할 것입니다.미래 AI 칩 시장의 진짜 승부는 추론에 있다고 할 수 있다.
Nvidia는 훈련 끝에 10년의 해자를 구축했지만, 이 해자가 추론 끝까지 확장되지 못하면 전체 산업 구조가 다시 작성될 것입니다.이 때문에 엔비디아는 지난해 말 AI 추론 칩 스타트업 그로크(Groq)와 비독점 라이선스 계약을 발표하는 등 공식적인 움직임을 보였다.Groq의 창립자이자 CEO인 Jonathan Ross, Sonny Madra 사장 및 여러 핵심 엔지니어가 이후 Nvidia에 합류했습니다.외신들은 이번 거래 대가가 약 200억 달러에 달한다고 내부 관계자를 인용해 전했다.
Nvidia의 공식 표현은 조심스럽습니다. 이는 전통적인 인수가 아닌 기술 라이센스와 인재 인수일 뿐임을 강조합니다.그러나 이러한 비정형 인수 방법은 실리콘 밸리에서 매우 일반적입니다. 이를 통해 대상 기술과 핵심 팀을 실질적으로 참여시키는 동시에 번거로운 독점 금지 검토를 피할 수 있습니다.
Groq의 이야기는 원래 꽤 주목할 만했습니다.Ross 창립자는 Google TPU 프로젝트의 핵심 멤버였으며 추론 시나리오에서 GPU 아키텍처의 본질적인 한계, 즉 수천 개의 병렬 컴퓨팅 장치와 극도로 복잡한 메모리 스케줄링 논리를 잘 알고 있었습니다.이러한 기능은 훈련에서는 이점이 있지만 추론에서는 예측할 수 없는 지연 시간 지터를 유발합니다.
이러한 이유로 Groq는 완전히 다른 경로를 선택했습니다. 즉, 하드웨어 수준에서 스케줄러를 완전히 제거하고 대신 컴파일러가 코드 단계에서 모든 데이터 비트의 흐름 경로를 결정하도록 하여 칩이 나노초까지 정확하게 자동화된 조립 라인처럼 작동할 수 있도록 했습니다.이 아키텍처는 LPU(언어 처리 장치)라고 합니다.주류 대형 모델의 추론 테스트에서 단어 생성 속도는 Nvidia GPU보다 10배 이상 빠르며, 토큰당 에너지 소비량은 Nvidia GPU의 10분의 1에 불과합니다.
이러한 극단적인 성과를 통해 Groq는 150만 명 이상의 개발자 사용자를 유치했으며 Cisco, Samsung, BlackRock과 같은 최고 기관으로부터 여러 차례 투자를 받았으며 한때 가치는 69억 달러에 달했습니다.그러나 성공을 이끈 요인도 몰락을 가져왔다.Jensen Huang의 눈에 갇히는 가장 중요한 대상이 된 것은 Groq의 지나치게 눈부신 추론 성능이었습니다.
표면적으로 Nvidia의 Groq 인수는 추론 측면에서 기술 레이아웃을 보완하기 위한 것이지만 더 깊이 말하면 방어적인 통합입니다.Nvidia는 가장 강력한 외부 도전자 중 하나를 생태계에 통합함으로써 자체 칩을 개발할 능력이 없는 2차 클라우드 공급업체 및 AI 소프트웨어 회사로부터 협상 칩을 빼앗습니다.대안으로 Groq이 없으면 Nvidia의 "과세"를 원하지 않는 사람들을 위한 옵션이 갑자기 좁아졌습니다.
그러나 이런 절박한 상황은 오래가지 못할 수도 있다.
실제로 Groq가 부상하기 오래 전에 주요 클라우드 거대 기업은 이미 자체 컴퓨팅 성능 경로를 독립적으로 계획하고 있었습니다.Google에는 TPU가 있고 Amazon에는 Trainium이 있으며 Microsoft에는 Maia가 있습니다. 이제 세 가지 내부 경로 모두 외부에 판매할 수 있는 성숙한 단계에 도달했습니다.
코드명 Ironwood인 Google의 7세대 TPU는 2025년 말 공식 출시 및 출시되었습니다. 이전 세대에 비해 단일 칩 성능이 4배 이상 향상되었으며 단일 클러스터는 최대 9,216개의 칩을 상호 연결할 수 있습니다.Google은 추론 시대의 가장 비용 효율적인 상용 엔진인 이 세대의 제품에 대한 포지셔닝을 숨기지 않았습니다.2015년 내부 컴퓨팅 성능 병목 현상으로 인해 사내 개발을 강요당하는 것부터 2025년 고객의 자체 데이터 센터에 TPU 배포를 개시하는 것까지 Google은 10년에 걸쳐 긴급 프로젝트를 전략 무기로 다듬었습니다.향후 Claude 시리즈의 교육 및 배포에 최대 100만 개의 TPU가 사용될 것이라는 Anthropic의 발표는 Ironwood의 상업적 가치에 대해 시장에서 권위 있는 지지를 제공하게 되었습니다.
아마존은 다른 길을 가고 있다.AWS는 오랫동안 자회사 Annapurna Labs가 자체 개발한 칩에 크게 의존해 왔습니다.Trainium 시리즈는 Nvidia GPU와 대략 비슷하지만 클라우드 인프라 비용을 줄이고 외부 공급업체에 대한 의존도를 줄이는 데 중점을 둡니다.AWS가 최근 Cerebras의 Wafer-Scale Engine(WSE) 칩을 자체 개발한 Trainium 칩과의 병렬 배포를 위해 데이터 센터에 도입하기 위해 Cerebras와 다년 협력 계약을 체결한 것은 내부 개발의 우선 순위를 정하고 외부 조달로 보완하는 이러한 논리를 구체적으로 표현한 것입니다.
AWS의 목표는 매우 분명합니다. Trainium을 사용하여 저속, 저비용 추론 요구를 수행하고 Cerebras 칩을 사용하여 지연 시간에 극도로 민감하고 속도에 대한 프리미엄을 기꺼이 지불할 의향이 있는 고급 고객을 확보하는 것입니다.
추론 칩의 경우 단기적인 속도를 추구하는 트레이닝 칩과 달리 장기적인 에너지 효율성에 더 중점을 둡니다.Nvidia GPU는 약 700와트를 소비하는 반면, 동등한 컴퓨팅 성능을 갖춘 전용 추론 칩은 200와트 내에서 전력 소비를 제어할 수 있습니다.수십만 개의 추론 칩이 필요한 초대형 애플리케이션의 경우 이러한 격차로 인해 매년 수억 달러의 비용 절감 효과를 얻을 수 있습니다.이는 Google, Amazon, Meta와 같은 거대 클라우드 기업이 ASIC 전용 칩에 투자하기 위해 경쟁하는 핵심 이유 중 하나입니다.
최신 뉴스에 따르면 Meta는 Broadcom과 1Gw 훈련 및 추론 칩 협력 계약을 체결했으며, 이는 이미 "혼란스러운" 추론 칩 시장에 새로운 촉매제를 가져올 것입니다.
클라우드 거대 기업의 사내 R&D 경로가 충분한 리소스가 보장되는 장기적인 투자라면 Intel과 SambaNova의 동맹은 또 다른 보다 현실적인 돌파구를 제시합니다.
2026년 SambaNova는 사전 채우기용 GPU, 주요 제어 및 실행 CPU인 Intel Xeon 6 프로세서, 에이전트 AI 워크로드를 위해 특별히 설계된 디코딩용 SambaNova RDU의 3계층 아키텍처를 채택하는 Intel과 함께 이기종 하드웨어 추론 솔루션 출시를 발표했습니다.이 솔루션은 2026년 하반기에 기업, 클라우드 서비스 제공업체 및 주권 AI 프로젝트에 공개될 예정입니다.
SambaNova는 순수 GPU 시스템이 병렬화된 사전 채우기 링크에 능숙하지만, 프로덕션 환경의 추론 작업에서는 CPU의 도구 스케줄링과 전용 추론 가속기의 디코딩 효율성이 전체 속도와 비용을 결정하는 핵심 변수라고 지적했습니다.
테스트 데이터에 따르면 Intel Xeon 6 프로세서의 LLVM 컴파일 속도는 Arm 아키텍처 기반 서버 CPU보다 50% 이상 빠르며 벡터 데이터베이스 성능은 최대 70% 더 빠릅니다.이 두 가지 지표는 코드 에이전트 워크플로의 핵심 성능 병목 현상을 정확히 파악합니다.
이번 협력에서 인텔의 역할은 매우 흥미롭습니다.한때 PC 패권자였지만 GPU 시대에는 AI 칩 주요 전장에서 거의 소외됐다.이제 Xeon 6의 CPU 제어 및 스케줄링 이점을 통해 이종 추론 솔루션의 기반을 다시 찾고 있습니다.데이터센터 소프트웨어 생태계는 x86 아키텍처를 기반으로 하며, 이는 인텔을 다시 AI 무대의 중심으로 끌어올렸습니다.
Cerebras는 별도로 쓸 가치가 있는 또 다른 이름입니다.
웨이퍼 스케일 AI 칩에 주력하는 이 스타트업은 2024년 IPO 신청을 제출했다가 철회해 자본시장 전망에 대한 의구심이 컸다.그러나 나중에 OpenAI는 ChatGPT에 컴퓨팅 성능을 제공하기 위해 Cerebras와 100억 달러 이상의 협력 계약을 체결했습니다.이 소식은 Cerebras를 대중의 관심으로 다시 불러일으켰고 기다려 왔던 기관들이 그 기술적 가치를 재검토하게 만들었습니다.2026년 2월 Cerebras는 총 26억 달러의 자금 조달과 약 230억 달러의 투자 후 가치 평가로 10억 달러의 새로운 자금 조달 라운드를 완료했습니다.
Cerebras의 핵심 기술은 웨이퍼 스케일 엔진(WSE)으로, 전체 웨이퍼를 단일 칩으로 사용하여 기존 칩의 물리적 절단 한계를 깨고 특정 추론 작업에서 매우 뛰어난 대기 시간 성능을 제공합니다.Cerebras에 따르면 추론 디코딩 링크의 칩 속도는 Nvidia GPU의 최대 25배에 달할 수 있습니다.
AWS는 최근 AI 추론을 위해 WSE 칩을 데이터 센터에 도입하기 위해 Cerebras와 다년간의 협력 계약을 발표했습니다. 이는 이 스타트업이 자금 조달 이야기에서 세계 최대 클라우드 플랫폼 공급업체로의 주요 ID 전환을 의미합니다.
AWS가 Cerebras를 선택한 것은 OpenAI와 동일한 논리를 기반으로 합니다. 프로그래밍 지원 및 에이전트 작업과 같이 응답 속도에 매우 민감한 시나리오의 경우 지연 시간 감소의 모든 밀리초는 사용자 경험 및 상업적 가치와 직접적으로 일치하며 이것이 바로 GPU의 약점입니다.
Cerebras의 경우 점점 더 어려워지는 문제를 해결하기 위해 AI를 사용하는 사람들이 늘어나면서 속도에 대한 요구도 더욱 커질 것입니다.속도 자체가 제품 가치라면 속도에 대해 프리미엄을 지불하는 것은 자연스러운 상업적 행동입니다.이 논리는 점점 더 많은 기업에서 받아들여지고 있습니다.
컴퓨팅 파워 전쟁의 이면에는 인프라 공급 측면의 구조조정이 있다.이를 위해 CoreWeave의 역할이 점점 더 중요해지고 있습니다.
2025년에는 Meta가 CoreWeave와 공급 계약을 체결하는 데 앞장섰고, 2031년까지 142억 달러 규모의 AI 컴퓨팅 파워를 구매하기로 합의했습니다.최근 SEC에 제출된 문서에 따르면 Meta는 2032년까지 AI 컴퓨팅 성능에 210억 달러를 추가로 구매하기로 합의하면서 계약을 추가했습니다. 이 새로운 계약의 추가로 CoreWeave의 주문 잔고는 878억 달러로 늘어났으며, 이 중 Meta가 약 40%를 차지합니다.
CoreWeave의 부상은 GPU 컴퓨팅 성능이 희소한 상품에서 인프라로 진화하는 축소판입니다.순수한 컴퓨팅 성능 임대자로서 모델 기능을 제공하는 것이 아니라 모델을 실행할 수 있는 기본 지원을 제공합니다.3대 클라우드 거대 기업 외에도 AI 기업에는 플랫폼 생태계에 얽매이지 않는 컴퓨팅 성능 옵션이 필요하며 CoreWeave는 이러한 격차를 메울 뿐입니다.
2025년 코어위브는 전년 대비 약 170% 증가한 51억 3천만 달러의 매출을 달성했다.데이터 센터 규모는 43개로 확장되었으며 사용 전력 용량은 850MW입니다.이 회사는 Nvidia H100과 H200을 중심으로 약 60만 개의 GPU를 탑재하고 있으며 Blackwell 시리즈의 비중이 지속적으로 증가하고 있습니다.계약된 총 전력 용량은 현재 사용 용량의 4배가 넘는 3,500MW에 달했습니다.
하지만 CoreWeave의 확장 논리는 가장 큰 구조적 압박이기도 합니다.데이터 센터 확장 비용을 충당하기 위해 회사는 최근 47억 5천만 달러 규모의 채권을 사모 발행한다고 발표했습니다.보유 현금이 40억 달러 미만인 상태에서 2026년에 300억~350억 달러의 자본 지출을 완료한다는 것은 고속 확장을 유지하기 위해 외부 자금 조달에 의존해야 함을 의미합니다.CoreWeave의 투자자들은 컴퓨팅 성능 수요가 장기적으로 계속 높은 비율로 증가할 것이라는 핵심 판단에 분명히 베팅하고 있습니다.
Anthropic의 자체 칩 설계 탐구, Nvidia의 200억 달러 규모의 Groq 인수, TPU를 벤치마크 제품으로 전환하려는 Google의 10년 간의 노력, 차별화된 추론 포트폴리오를 구축하기 위해 자체 데이터 센터에 Cerebras를 도입한 Amazon, 이종 추론 시장에서 점유율을 놓고 경쟁하기 위한 Intel과 SambaNova의 제휴 등, 겉보기에 흩어져 있는 이러한 이벤트는 모두 추론을 새로운 전쟁터로 가리킵니다.
점점 더 많은 사람들이 AI의 초점이 더 나은 모델을 훈련하는 방법에서 더 낮은 비용과 더 빠른 속도로 더 많은 요청을 추론하는 방법으로 이동하고 있다는 것을 깨닫고 있습니다.이러한 변화는 이전 GPU 중심 컴퓨팅 파워 시스템에 엄청난 변화를 가져왔습니다.
이번 대회는 CPU를 GPU로 조기 교체하는 것과는 다르다.그것은 오래된 제품보다 새로운 제품을 일방적으로 선호하는 방식이었습니다.오늘날 추론 칩을 두고 벌이는 싸움은 복잡한 생태계 내에서의 노동 분업 구조 조정에 가깝습니다.단일 아키텍처가 모든 시나리오를 지배할 수는 없으며 이기종 조합이 주류가 되고 있습니다.GPU는 고도로 병렬적인 사전 채우기를 처리하고, 전용 추론 칩은 디코딩을 담당하고, CPU는 클라우드와 에지 엔드에 서로 다른 초점을 두고 스케줄링 및 조정을 담당하며, 각 링크에서 여러 플레이어가 경쟁합니다.
결과가 아직 결정되지 않았다는 뜻이다.
Anthropic의 경우 사내 칩 설계를 탐구하는 것은 컴퓨팅 성능 자율성을 적극적으로 추구하는 것이며 업스트림 공급업체에 의해 인질로 잡히는 것을 방지하기 위한 보험 정책입니다.그러나 칩 R&D에 대한 긴 주기와 높은 투자로 인해 이 길이 쉽지는 않을 것입니다.Nvidia의 경우 CUDA 생태계 해자는 여전히 깊지만 추론 측에서 점점 더 명백해지는 성능-비용 격차는 모든 잠재적 도전자들에게 공통적인 획기적인 목표가 되고 있습니다.Groq과 같은 다른 기술 경쟁업체의 경우 기술 리더십이 반드시 상업적 성공으로 이어지는 것은 아니며 인수 가능성은 지속적으로 증가하고 있습니다.
전투선은 그려졌고, 참가자 목록은 계속 늘어나고 있습니다.이 AI 추론 컴퓨팅 파워 난투는 이제 막 가장 강렬한 장에 들어섰습니다.