AI 최적화 스토리지 아키텍처
AI 시스템이 대규모 컨텍스트 메모리와 다중 턴 추론을 처리할 수 있도록 설계된 차세대 스토리지 인프라는 대규모 추론 워크로드가 지원되는 방식을 재구성할 예정입니다.
현대 AI 워크로드의 가장 까다로운 과제 중 하나인 추론 중에 방대한 양의 컨텍스트 데이터를 효율적으로 관리하고 공유하는 새로운 차원의 AI 지향 스토리지 기술이 NVIDIA에서 등장했습니다.AI의 특정 요구 사항이 아닌 일반 컴퓨팅을 위해 구축된 기존 스토리지 및 메모리 계층은 모델이 지속적인 대용량 컨텍스트 메모리가 필요한 다중 에이전트, 다중 회전 추론 시스템으로 성장함에 따라 이를 따라잡는 데 어려움을 겪습니다.
개발의 핵심은 GPU 메모리를 확장하고 높은 대역폭과 예측 가능한 대기 시간으로 클러스터 전체에서 키-값(KV) 추론 캐시를 공유하는 새로 발표된 AI 기반 스토리지 아키텍처를 뒷받침하는 특수 데이터 프로세서입니다.이러한 변화는 AI가 단일 프롬프트 처리에서 지속적이고 긴 상황의 추론으로 전환함에 따라 이루어지며, 응답성과 정확성을 위해서는 대규모 공유 메모리가 필수적입니다.
주요 기능은 다음과 같습니다.
긴 컨텍스트 추론을 위해 클러스터 규모의 키-값 캐시 용량으로 GPU 메모리를 확장합니다.
기존 스토리지에 비해 초당 토큰 처리량이 최대 5배 더 높습니다.
하드웨어 가속 KV 캐시 배치는 메타데이터 오버헤드와 데이터 이동을 줄입니다.
고성능 이더넷을 통해 노드 간 컨텍스트를 효율적으로 공유합니다.
기존 스토리지 아키텍처에 비해 전력 효율성이 최대 5배 향상됩니다.
주요 스토리지 및 시스템 공급업체를 포함한 업계 파트너는 이미 지원 플랫폼을 구축하고 있으며 2026년 하반기 가용성을 계획하고 있습니다. 초기 벤치마크 및 예측에서는 신속한 컨텍스트 액세스 및 공유에 의존하는 추론 워크로드에 대한 상당한 성능 및 효율성 향상을 강조합니다.새로운 인프라는 기본 성능 외에도 AI 워크로드가 급증함에 따라 데이터 센터를 괴롭히는 두 가지 제약인 확장성과 에너지 효율성을 해결합니다.호스트 CPU에서 스토리지 서비스를 분리하고 키-값 캐시 데이터의 하드웨어 가속 배치를 가능하게 함으로써 이 아키텍처는 비슷한 부하를 받는 기존 스토리지 시스템에 비해 초당 처리되는 토큰 및 전력 효율성이 최대 5배 향상될 것을 약속합니다.
또한 이 설계는 고성능 네트워킹, 메모리 및 스토리지 기능 간의 보다 긴밀한 통합을 제공하고 고급 이더넷 패브릭을 활용하여 서버 전반에 걸쳐 대기 시간이 짧은 원격 직접 메모리 액세스를 제공합니다.그 결과 메모리 지속성과 노드 간 컨텍스트 공유가 중요한 진화하는 추론 패러다임에 더 잘 부합하는 기반이 됩니다.AI 인프라가 발전함에 따라 이 스토리지 계층은 차세대 AI 서비스의 핵심 원동력이 되어 지연 시간과 에너지 비용을 낮추는 동시에 보다 복잡한 추론 작업을 대규모로 지원할 수 있습니다.