추론(Inference) 병목의 구조 — 왜 지금이 전환점인가
메모리 월, KV 캐시, HBM 공급난, SRAM-HBM 계층 아키텍처 전쟁의 전모
요약
AI 추론의 진짜 병목은 거리(Latency 40ms)가 아니라 메모리 대역폭이다. Oracle 어닝콜에서 확인된 이 판단의 물리적 근거부터, NVIDIA $200억 Groq 인수의 전략적 의미, 그리고 HBM-SRAM-HBF-ICMS 4계층 메모리 아키텍처의 투자 함의까지 — 2026년 AI 인프라 최대 전환점을 심층 분석한다.
1핵심 요약: 3줄 결론
첫째, 추론 병목은 거리(Latency 40ms)가 아니라 메모리 대역폭이 맞다. Oracle 경영진의 판단은 기술적으로 정확하다. 그러나 이 병목은 하드웨어 세대교체로 지속적으로 이동하며 영구히 해소되지 않는다.
둘째, SRAM(Groq LPU)과 HBM(GPU)은 대체재가 아니라 계층화된 메모리 구조의 서로 다른 층이다. NVIDIA가 Groq를 $200억에 인수한 것은 단일 아키텍처로는 추론 시장 전체를 커버할 수 없다는 시장 구조의 승인이다.
셋째, 진짜 병목은 2027년까지 HBM 자체의 물리적 공급 제약이다. SK하이닉스, Micron, TSMC는 AI 병목의 직접 수혜자이며, 이 공급 제약이 HBM 가격과 마진을 지지하는 구조는 최소 2026~2027년까지 지속된다.
21장. 병목의 물리학: 왜 메모리가 한계인가
Oracle Q3 FY2026 어닝콜(2026.3.10)에서 공동 CEO Clay Magouyrk가 언급한 '진짜 병목은 하드웨어 아키텍처'라는 말의 물리적 근거부터 풀어야 합니다.
LLM 추론의 연산 구조는 훈련과 근본적으로 다릅니다. 훈련은 동일한 가중치(Weight)에 수천 개의 배치를 병렬로 처리하므로 GPU의 대규모 병렬 코어가 최적입니다. 반면 추론은 토큰을 순차적으로 하나씩 생성합니다. 매 토큰을 생성할 때마다 모델의 전체 가중치를 메모리에서 불러와야 합니다.
GPT-4급 모델(~1.8조 파라미터 추정)을 BF16 정밀도로 올리면 약 3.6TB의 메모리가 필요합니다. 현재 NVIDIA H200의 HBM3E 용량은 141GB입니다. 따라서 단일 칩에 탑재 불가능하고, 수십 개의 GPU를 NVLink로 연결해 분산 추론해야 합니다.
핵심 지표인 산술 강도(Arithmetic Intensity: FLOP per byte)를 보면:
- LLM 추론에서 이 값은 매우 낮습니다
- 모델이 가중치를 메모리에서 읽어 아주 적은 연산만 하고 버립니다
- 이런 workload를 Memory-Bound라고 하며, FLOPS가 아니라 메모리 대역폭(GB/s)이 성능을 결정합니다
Google DeepMind의 David Patterson(튜링상 수상자)과 Xiaoyu Ma의 공동 논문(arXiv 2601.05047, IEEE Computer 2026 게재 예정)은 이를 정량적으로 입증합니다: NVIDIA GPU 64비트 FLOPS는 2012~2022년 80배 성장했지만, 메모리 대역폭은 같은 기간 17배만 성장했습니다. 이 격차가 바로 '메모리 월(Memory Wall)'의 수치적 정의입니다.
세대별 HBM 스펙 비교:
- H100: HBM3, 80GB, 3.35 TB/s
- H200: HBM3E, 141GB, 4.8 TB/s
- Rubin R100: HBM4, 288GB, 22 TB/s
Rubin GPU는 HBM4를 최초로 탑재해 GPU당 22 TB/s의 대역폭을 달성했으며, 이는 Blackwell 대비 약 2.8배 향상된 수치입니다. 이것이 단순 성능 개선이 아니라 메모리 벽 자체를 허무는 시도입니다.
그런데 여기서 역설이 있습니다. HBM 용량과 대역폭이 늘어날 때마다 모델 개발자들은 더 큰 파라미터, 더 긴 컨텍스트, 더 큰 KV 캐시로 그 공간을 즉시 채워버립니다. DeepSeek-V3처럼 256개 Expert를 사용하는 MoE 모델은 메모리 풋프린트를 폭발적으로 증가시킵니다. 더 나은 HBM이 공급되면 모델이 그에 맞게 커지므로, 메모리는 항상 다음 세대의 병목으로 남습니다.
32장. KV 캐시 — 추론을 지배하는 숨겨진 메모리 괴물
Transformer 모델은 Attention 메커니즘을 통해 이전에 생성한 모든 토큰을 '기억'하며 다음 토큰을 예측합니다. 이 기억의 실체가 KV 캐시(Key-Value Cache)입니다.
KV 캐시가 왜 문제인가:
- 컨텍스트 길이가 길어질수록 KV 캐시 크기가 폭발적으로 증가
- 100만 토큰 컨텍스트의 KV 캐시는 수십~수백 GB에 달하며, 이는 모델 가중치 자체보다 커질 수 있음
- KV 캐시 병목 = 서비스 수익화의 직접적 상한선 (동시 처리 요청 수 제한)
NVIDIA의 해법 — ICMS (Inference Context Memory Storage Platform):
NVIDIA는 CES 2026에서 BlueField-4 DPU를 활용한 KV 캐시 전용 스토리지 인프라를 공개했습니다:
- 기존 대비 초당 토큰 처리량 5배
- TCO 대비 성능 5배
- 전력 효율 5배
- 첫 토큰 응답 시간(TTFT) 20배 개선
- GPU당 최대 16TB 컨텍스트 메모리 지원
- 단일 SuperPod(1,152 Rubin GPU)에서 최대 18,432TB 처리 가능
NVIDIA Dynamo — KV 캐시 지능형 관리:
GTC 2025에서 공개된 오픈소스 추론 프레임워크 Dynamo는 KV 캐시 문제를 소프트웨어로 해결합니다:
- KV Cache Manager: GPU HBM → CPU DRAM → NVMe SSD → 네트워크 스토리지 계층별 오프로딩
- Smart Router: 요청과 캐시 블록 간 오버랩 스코어 계산, 캐시 재사용 극대화
- NIXL: 노드 간 KV 캐시 전송 가속 라이브러리
- DeepSeek-R1 671B 서빙 시 기존 대비 최대 30배 처리량 향상 (GB200 NVL72 기준)
이것은 단순한 캐싱 기술이 아닙니다. KV 캐시 문제가 해결되기 전까지는 컨텍스트 창을 아무리 늘려도 메모리 부족으로 동시 처리 가능한 요청 수가 제한됩니다.
43장. HBM 공급망 — 병목의 물리적 실체
글로벌 HBM 시장 현황 (2025~2026):
| 지표 | 수치 | 출처 | |------|------|------| | 2025 시장 규모 | $38B | TrendForce | | 2026 시장 규모 | $54.6B (+58% YoY) | BofA | | SK하이닉스 점유율 | Q2 62% → Q3 57% | Counterpoint | | Micron 점유율 | 21% (삼성 추월) | Counterpoint | | Samsung 점유율 | 17% → Q3 22% 회복 | Counterpoint |
공급 현황 — 사실상 완판:
- SK하이닉스 CFO: "2026년 전체 HBM 물량이 이미 완판"
- Micron CEO: "2025~2026년 HBM 캐파가 완전히 예약" (연간 ~$8B 규모)
- TSMC CoWoS 패키징: 2026년 중반까지 완판 (월 13만 장 목표, NVIDIA가 50%+ 점유)
가격 동향:
- HBM3E(12-hi): 20% 가격 인상 (삼성·SK하이닉스 모두, 2026년 납품분)
- HBM4: NVIDIA향 mid-$500s/스택 — HBM3E 대비 40~50% 프리미엄
- 삼성은 NVIDIA에 기존 HBM3E 가격의 2배 이상 청구 예정 (NotebookCheck)
- 2026년 믹스: HBM4 ~55% / HBM3E ~45%
HBM 제조의 구조적 어려움:
- HBM은 DRAM 칩을 TSV(Through-Silicon Via)로 수직 적층하는 구조
- DDR4: mm²당 0.296 Gb vs HBM3: 0.16 Gb/mm² — 밀도가 절반 이하
- 이 밀도 패널티가 HBM 공급이 단기간에 증설될 수 없는 근본 이유
- HBM 생산 증가 → 범용 DRAM 공급 감소 (제로섬)
생산 캐파 확장:
- SK하이닉스: HBM4 양산 2026년 2월 전진 배치 (당초 하반기 예정)
- 삼성: 2026년 HBM 생산능력 50% 확대 (월 25만 장 목표)
- Micron: HBM4 샘플 11 Gbps 달성, 2026 전량 완판 예정
SK하이닉스 연간 영업이익 47.2조원 — 사상 최초로 삼성(43.6조원) 추월 (2025년 실적, CNBC)
54장. SRAM 대 HBM — 아키텍처 전쟁의 본질
Oracle 어닝콜의 핵심 화두로 돌아옵니다: Groq가 NVIDIA에 $200억에 인수된 이유는 무엇인가?
SRAM vs HBM 기술 비교:
| 지표 | Groq LPU (SRAM) | NVIDIA Rubin (HBM4) | |------|----------------|---------------------| | 메모리 대역폭 | 80 TB/s+ (온칩) | 22 TB/s | | 칩당 용량 | 230 MB | 288 GB | | 지연시간 | 극저지연 (결정론적) | 동적 스케줄링 | | 70B 모델 구동 | 수백 개 칩 필요 | 2~4개 GPU | | 용량 대비 | 1개 Rubin = ~1,280배 | - |
Groq LPU는 온칩 SRAM을 캐시가 아닌 주 가중치 저장소로 사용합니다. 컴파일러가 전체 실행 그래프를 클럭 단위까지 사전 계획한 정적 스케줄링으로, GPU의 동적 스케줄링에서 비롯되는 비결정적 지연을 완전히 제거합니다. Llama-2 70B에서 300+ tokens/sec — H100 대비 10배 빠른 속도를 달성했습니다.
그러나 SRAM의 치명적 한계:
- SRAM은 HBM보다 물리적으로 훨씬 큰 면적을 차지
- 전력 밀도와 메모리 용량에서 근본적 트레이드오프
- 대형 모델 서빙에는 비용 효율성이 크게 떨어짐
NVIDIA $200억 Groq 인수 (2025.12.24, CNBC):
- Groq 마지막 사모 밸류에이션 $69억 → 2.9배 프리미엄 지불
- NVIDIA 역사상 최대 규모 인수 (Mellanox $69억 대비 3배)
- Groq CEO Jonathan Ross, President Sunny Madra NVIDIA 합류
- 직원 ~90% NVIDIA 합류 (기존 주식 현금 정산, 미확정 주식 NVIDIA 주식 전환)
- 구조: 전체 자산 인수 (클라우드 사업 제외)
- Groq 측 공식 발표는 "non-exclusive inference technology licensing agreement"로 프레이밍
결론: SRAM과 HBM은 대체재가 아니라 상호보완적 계층 구조입니다. NVIDIA의 Groq 인수는 GPU의 원시 처리능력만으로는 충분하지 않다는 것을 인정한 것이며, 추론에 최적화된 결정론적 아키텍처가 GPU 생태계의 필수 보완재임을 확인한 신호입니다. 업계 분석가들은 2026년 Vera Rubin 플랫폼이 GPU와 LPU를 결합한 하이브리드 설계를 채택할 것으로 예상하고 있습니다.
65장. 차세대 메모리 계층 지도 — HBF와 PIM의 등장
HBF (High-Bandwidth Flash) — SK하이닉스의 차세대 메모리:
SK하이닉스와 SanDisk가 공동으로 HBF 글로벌 표준화를 추진 중입니다 (2026.2.25 공식 발표):
- 목표 대역폭: 최대 1.6 TB/s (HBM4 수준)
- 목표 용량: 512 GB/스택 (HBM4 64GB의 8배)
- 아키텍처: 16층 NAND 스태킹, 병렬 서브어레이
- 소켓 호환: HBM4 폼팩터와 물리적 호환 설계
- 성능 효율: 기존 대비 2.69배 와트당 성능 (SK하이닉스 2026.2 발표)
- 타임라인: 샘플 2H 2026 → 상용 제품 2027년
이는 읽기 전용으로 변하지 않는 모델 가중치를 Flash에 오프로드하고, 비싼 HBM을 KV 캐시처럼 동적으로 변하는 데이터에 집중시키는 분리 아키텍처입니다.
PIM (Processing-in-Memory) — 메모리 내부 연산:
- SK하이닉스 AiM (Accelerator-in-Memory): HBM 로직 다이에 연산 유닛 내장, 실제 배포 단계
- 삼성 LPDDR5X-PIM: 온디바이스 AI용 모바일 DRAM 내 연산 통합
- 에너지 효율: 기존 아키텍처 대비 ~70% 절감 (삼성 수치)
- SK하이닉스-삼성 공동 LPDDR6-PIM JEDEC 표준화 추진 중
- HBM4-PIM 양산 목표: 2027년
2026~2029년 AI 가속기 메모리 계층 재편:
| 계층 | 기술 | 용량 | 대역폭 | 용도 | |------|------|------|--------|------| | 1계층 (최고속) | SRAM | 수백 MB | 80 TB/s | LPU 방식, 극저지연 디코드 | | 2계층 (고속) | HBM4/4E | 288GB~ | 22 TB/s | GPU 온보드, 가중치+KV캐시 | | 3계층 (중속) | HBF/DRAM | 수 TB | ~1.6 TB/s | KV 캐시 확장, 가중치 오프로드 | | 4계층 (대용량) | NVMe SSD (ICMS) | 수십 PB | ~수 GB/s | KV 캐시 장기 오프로드 |
NVIDIA는 이 4계층 메모리 구조를 Vera Rubin 플랫폼에 구현했으며, Dynamo 소프트웨어가 Prefill/Decode 분리, KV 캐시 스마트 라우팅, 계층별 스토리지 오프로드를 통합 관리합니다.
76장. 투자 함의 — 누가 이 병목에서 돈을 버는가
Tier 1 — HBM 직접 수혜 (최대 수혜):
SK하이닉스 (000660.KS)
- HBM 시장 점유율 62%(Q2 2025)의 절대 강자
- NVIDIA Rubin의 HBM4 독점 공급 파트너
- 2026년 HBM 물량 사실상 완판 — 가격 협상력 극대화
- 연간 영업이익 47.2조원 — 사상 최초 삼성 추월 (2025)
- HBM4 양산 2026.2월 전진 배치
- 핵심 모니터링: HBM4 수율, HBM4E 개발 진행, 2027 가격 재협상
Micron Technology (MU)
- HBM 점유율 21%, 삼성 추월로 확고한 2위
- 2026년 HBM 연간 매출 런레이트 ~$8B
- 2025~2026년 전량 예약 완판
- HBM4 샘플 11 Gbps 달성
- 핵심 모니터링: HBM4 양산 일정, NVIDIA 외 고객 다각화
Samsung (005930.KS) — 상대적 지연, HBM4 반전 시도
- HBM 점유율 17% → Q3 22% 회복 중
- 2026년 HBM 캐파 50% 확대 (월 25만 장)
- HBM4에서 NVIDIA 가격 기존의 2배 이상 청구 예정
- HBM4에서의 반전이 핵심 — 단기 모멘텀 불리
Tier 2 — AI 인프라 수혜:
NVIDIA (NVDA)
- Vera Rubin NVL72: 3.6 EFLOPS, 토큰당 비용 Blackwell 대비 1/10
- Groq $200억 인수로 SRAM/LPU 기술 확보
- Jensen Huang CES 2026: "지난 10년의 ~$10조 컴퓨팅 인프라가 현대화될 것"
- 핵심 모니터링: GTC 2026(3/16~19) 발표, LPU 통합 일정
TSMC (TSM)
- CoWoS 패키징 2026년 말까지 완판 (월 13만 장 목표)
- NVIDIA가 2026 CoWoS 캐파의 50%+ 점유
- 상위 4사(NVIDIA, AMD, Broadcom, Google)가 85%+ 점유
- FOPLP 차세대 패키징 2H 2026 파일럿
Tier 3 — 조건부 수혜:
Oracle (ORCL)
- Clay Magouyrk: 추론 지연시간은 지리적 위치가 아니라 하드웨어 아키텍처 문제
- AI 인프라 매출 243% YoY 성장, 10GW+ 전력 확보
- 리스크: Rubin이 Blackwell 대비 성능 5배/비용 1/10 달성 시, Blackwell 기반 OCI 클러스터 경제성 급속 희석
---
Sources:
- [SK hynix 2026 Market Outlook](https://news.skhynix.com/2026-market-outlook-focus-on-the-hbm-led-memory-supercycle/)
- [SK hynix HBM 62% — Counterpoint/Astute Group](https://www.astutegroup.com/news/general/sk-hynix-holds-62-of-hbm-micron-overtakes-samsung-2026-battle-pivots-to-hbm4/)
- [NVIDIA Vera Rubin NVL72 — NVIDIA Official](https://www.nvidia.com/en-us/data-center/vera-rubin-nvl72/)
- [NVIDIA Groq $20B Deal — CNBC](https://www.cnbc.com/2025/12/24/nvidia-buying-ai-chip-startup-groq-for-about-20-billion-biggest-deal.html)
- [NVIDIA ICMS Platform — Developer Blog](https://developer.nvidia.com/blog/introducing-nvidia-bluefield-4-powered-inference-context-memory-storage-platform-for-the-next-frontier-of-ai/)
- [Patterson & Ma: LLM Inference Hardware — arXiv 2601.05047](https://arxiv.org/abs/2601.05047)
- [Oracle Q3 FY2026 Earnings — CNBC](https://www.cnbc.com/2026/03/10/oracle-orcl-q3-earnings-report-2026.html)
- [TSMC CoWoS Capacity — Fusion Worldwide](https://info.fusionww.com/blog/inside-the-ai-bottleneck-cowos-hbm-and-2-3nm-capacity-constraints-through-2027)
- [HBF Standardization — SK Hynix Official](https://news.skhynix.com/sk-hynix-and-sandisk-begin-global-standardization-ofnext-generation-memory-hbf/)
- [Samsung HBM4 Pricing — NotebookCheck](https://www.notebookcheck.net/Nvidia-may-raise-prices-as-it-pays-Samsung-double-for-future-HBM4-AI-memory-modules-with-3-3-TB-s-bandwidth.1172580.0.html)
광고