Taalas는 전체 AI 모델을 실리콘에 직접 내장하여 기존 칩 설계에 도전합니다.
완전히 다른 프로세서 설계는 전체 AI 모델을 실리콘에 내장하여 차세대 추론 워크로드에 매우 빠른 속도와 성능을 제공합니다.
Taalas의 새로운 AI 프로세서 아키텍처는 전체 AI 모델을 실리콘에 직접 내장하여 기존 칩 설계에 도전하고 추론 성능과 효율성을 획기적으로 향상시킵니다. 이 접근 방식을 사용하면 기존 소프트웨어 구현 계층이 필요하지 않으므로 즉각적인 대응이 가능하고 운영 비용이 크게 절감됩니다.
유연성을 우선시하는 범용 GPU 및 AI 가속기와 달리 이 아키텍처는 단일 모델 전문화를 위해 구축되었습니다. 각 칩은 특정 AI 모델을 위해 맞춤 설계되었으며 해당 매개변수와 무게를 실리콘 자체에 고정 배선합니다. 이러한 변화로 인해 기존 솔루션에 비해 성능이 1~2배 향상되었습니다.
주요 기능은 다음과 같습니다:
완전한 AI 모델(가중치 + 매개변수)을 실리콘에 직접 연결합니다.
GPU보다 10~100배 더 높은 추론 성능을 제공합니다.
초당 14,000개 이상의 토큰으로 밀리초 미만의 지연 시간
추론 워크로드에 대한 토큰당 비용 최대 100배 절감
빠른 칩 개발 주기(모델당 최대 2개월)**
프로세서는 모델 출시 후 2개월 이내에 개발될 수 있으므로 최적화된 하드웨어를 신속하게 배포할 수 있습니다. 초기 시연에서는 자국어 모델에서 밀리초 미만의 대기 시간과 초당 14,000개 이상의 토큰 처리량을 보여주어 출력이 거의 즉각적으로 나타납니다.
이러한 성능 향상은 또한 주요 경제적 이익으로 이어집니다. 추론 비용은 GPU 기반 시스템보다 훨씬 낮은 백만 개의 토큰당 1%로 절감되므로 잠재적으로 클라우드 공급자가 더 저렴한 비용으로 더 많은 요청을 처리할 수 있습니다.
그러나 디자인에는 장단점이 있습니다. 단일 모델에 집중함으로써 칩은 프로그래밍 가능성을 희생하고 다른 작업 부하에 사용할 수 없습니다. 제한된 유연성으로 인해 광범위한 채택이 제한될 수 있지만 아키텍처는 AI 하드웨어의 극도의 전문화를 향한 중요한 단계입니다.
이러한 개발은 성능과 효율성 향상이 범용 컴퓨팅의 필요성보다 더 중요한 영역별 실리콘으로 업계가 점점 더 변화하고 있음을 나타냅니다. 널리 사용된다면 이 모델 기반 접근 방식은 특히 대용량 추론 워크로드의 경우 AI 인프라를 재구성할 수 있습니다.