테마 심층

추론(Inference) 병목의 구조 — 왜 지금이 전환점인가

메모리 월, KV 캐시, HBM 공급난, SRAM-HBM 계층 아키텍처 전쟁의 전모

해랑달2026년 3월 11일읽기 18분HBM, 메모리월, 추론병목, KV캐시, Groq, VeraRubin, SK하이닉스, HBF, PIM

Reader's Brief — 30초 요약

고급

한 줄 결론

AI 추론의 진짜 병목은 네트워크 거리가 아닌 메모리 대역폭이며, HBM 수요는 추론 수요 폭발로 사이클적이 아닌 구조적 성장 궤도에 진입했다.

왜 지금

Oracle 어닝콜에서 AI 추론 병목이 메모리 대역폭에 있음이 확인됐고, NVIDIA의 $200억 Groq 인수가 이 명제를 전략적으로 뒷받침했다.

수혜·피해

수혜 가능성이 큰 카테고리 — HBM 공급사(SK하이닉스·삼성·마이크론), HBM-SRAM 계층 아키텍처 설계사, 추론 특화 칩 개발사. 압박 — KV 캐시 압축 기술(TurboQuant 류)로 수요 대체를 기대하는 투자자, 기존 CPU 기반 추론 인프라 기업.

모니터링

분기마다 대형 LLM 서비스 업체(OpenAI·Anthropic·Google)의 추론 인프라 용량 증설 발표 — 메모리 대역폭 수요의 선행지표.

핵심 용어 (5)펼치기 ↓

HBM(고대역폭 메모리): — High Bandwidth Memory. AI GPU 옆에 직접 적층하는 고성능 메모리로, 일반 DRAM 대비 10배 이상 빠른 데이터 전송 속도를 제공. AI 추론의 핵심 병목 자원.
KV 캐시: — AI 언어모델이 이전 문맥(Key-Value)을 저장하는 메모리 구조. 컨텍스트 길이·모델 파라미터가 증가할수록 필요한 메모리가 기하급수적으로 증가.
메모리 월: — CPU·GPU 연산 속도 대비 메모리 대역폭이 따라가지 못하는 구조적 병목. AI 추론에서는 연산 속도보다 데이터 공급 속도가 더 큰 제약이 됨.
SRAM: — 정적 램(Static Random Access Memory). DRAM보다 훨씬 빠르지만 비싸고 용량이 작아, HBM과 함께 AI 칩 내 다계층 메모리 계층 구조를 형성.
추론(Inference): — 학습이 완료된 AI 모델이 실제 질문·요청에 답변을 생성하는 과정. 학습(Training)보다 빈도가 훨씬 높고, 실시간 응답이 요구되어 메모리 대역폭 수요가 더 민감.

핵심 요약: 3줄 결론

첫째**, 추론 병목은 거리(Latency 40ms)가 아니라 **메모리 대역폭**이 맞다. Oracle 경영진의 판단은 기술적으로 정확하다. 그러나 이 병목은 하드웨어 세대교체로 지속적으로 이동하며 **영구히 해소되지 않는다.

둘째, SRAM(Groq LPU)과 HBM(GPU)은 대체재가 아니라 계층화된 메모리 구조의 서로 다른 층이다. NVIDIANVDA가 Groq를 $200억에 인수한 것은 단일 아키텍처로는 추론 시장 전체를 커버할 수 없다는 시장 구조의 승인이다.

셋째, 진짜 병목은 2027년까지 HBM 자체의 물리적 공급 제약이다. SK하이닉스000660, MicronMU, TSMCTSM는 AI 병목의 직접 수혜자이며, 이 공급 제약이 HBM 가격과 마진을 지지하는 구조는 최소 2026~2027년까지 지속된다.

AI 추론 메모리 계층 구조 — SRAM → HBM4 → HBF → ICMS

1장. 병목의 물리학: 왜 메모리가 한계인가

Key Points

—NVIDIA GPU 64비트 FLOPS는 2012~2022년 80배 성장했지만, 메모리 대역폭은 같은 기간 17배만 성장
—더 나은 HBM이 공급되면 모델이 그에 맞게 커지므로, 메모리는 항상 다음 세대의 병목으로 남습니다.

Oracle Q3 FY2026 어닝콜(2026.3.10)에서 공동 CEO Clay Magouyrk가 언급한 '진짜 병목은 하드웨어 아키텍처'라는 말의 물리적 근거부터 풀어야 합니다.

LLM 추론의 연산 구조는 훈련과 근본적으로 다릅니다. 훈련은 동일한 가중치(Weight)에 수천 개의 배치를 병렬로 처리하므로 GPU의 대규모 병렬 코어가 최적입니다. 반면 추론은 토큰을 순차적으로 하나씩 생성합니다. 매 토큰을 생성할 때마다 모델의 전체 가중치를 메모리에서 불러와야 합니다.

GPT-4급 모델(~1.8조 파라미터 추정)을 BF16 정밀도로 올리면 약 3.6TB의 메모리가 필요합니다. 현재 NVIDIANVDA H200의 HBM3E 용량은 141GB입니다. 따라서 단일 칩에 탑재 불가능하고, 수십 개의 GPU를 NVLink로 연결해 분산 추론해야 합니다.

특성	훈련 (Training)	추론 (Inference)
연산 타입	동일 가중치에 수천 배치 병렬 처리	토큰을 순차적으로 하나씩 생성
메모리 사용	가중치 + 그래디언트 + 옵티마이저 상태	가중치 + KV 캐시 (컨텍스트 비례 증가)
병목	GPU 병렬 코어 (Compute-Bound)	메모리 대역폭 (Memory-Bound)
핵심 지표	FLOPS (연산 처리량)	GB/s (메모리 대역폭)
산술 강도	높음 (연산 집약적)	매우 낮음 (읽기 집약적)

특성

연산 타입

훈련 (Training): 동일 가중치에 수천 배치 병렬 처리
추론 (Inference): 토큰을 순차적으로 하나씩 생성

특성

메모리 사용

훈련 (Training): 가중치 + 그래디언트 + 옵티마이저 상태
추론 (Inference): 가중치 + KV 캐시 (컨텍스트 비례 증가)

특성

병목

훈련 (Training): GPU 병렬 코어 (Compute-Bound)
추론 (Inference): 메모리 대역폭 (Memory-Bound)

특성

핵심 지표

훈련 (Training): FLOPS (연산 처리량)
추론 (Inference): GB/s (메모리 대역폭)

특성

산술 강도

훈련 (Training): 높음 (연산 집약적)
추론 (Inference): 매우 낮음 (읽기 집약적)

핵심 지표인 산술 강도(Arithmetic Intensity: FLOP per byte)를 보면:

LLM 추론에서 이 값은 매우 낮습니다
모델이 가중치를 메모리에서 읽어 아주 적은 연산만 하고 버립니다
이런 workload를 Memory-Bound라고 하며, FLOPS가 아니라 메모리 대역폭(GB/s)이 성능을 결정합니다

GoogleGOOGL DeepMind의 David Patterson(튜링상 수상자)과 Xiaoyu Ma의 공동 논문(arXiv 2601.05047, IEEE Computer 2026 게재 예정)은 이를 정량적으로 입증합니다: NVIDIANVDA GPU 64비트 FLOPS는 2012~2022년 80배 성장했지만, 메모리 대역폭은 같은 기간 17배만 성장했습니다. 이 격차가 바로 '메모리 월(Memory Wall)'의 수치적 정의입니다.

세대별 HBM 스펙 비교:

H100: HBM3, 80GB, 3.35 TB/s
H200: HBM3E, 141GB, 4.8 TB/s
Rubin R100: HBM4, 288GB, 22 TB/s

Rubin GPU는 HBM4를 최초로 탑재해 GPU당 22 TB/s의 대역폭을 달성했으며, 이는 Blackwell 대비 약 2.8배 향상된 수치입니다. 이것이 단순 성능 개선이 아니라 메모리 벽 자체를 허무는 시도입니다.

그런데 여기서 역설이 있습니다. HBM 용량과 대역폭이 늘어날 때마다 모델 개발자들은 더 큰 파라미터, 더 긴 컨텍스트, 더 큰 KV 캐시로 그 공간을 즉시 채워버립니다. DeepSeek-V3처럼 256개 Expert를 사용하는 MoE 모델은 메모리 풋프린트를 폭발적으로 증가시킵니다. 더 나은 HBM이 공급되면 모델이 그에 맞게 커지므로, 메모리는 항상 다음 세대의 병목으로 남습니다.

2장. KV 캐시 — 추론을 지배하는 숨겨진 메모리 괴물

Transformer 모델은 Attention 메커니즘을 통해 이전에 생성한 모든 토큰을 '기억'하며 다음 토큰을 예측합니다. 이 기억의 실체가 KV 캐시(Key-Value Cache)입니다.

KV 캐시가 왜 문제인가:

컨텍스트 길이가 길어질수록 KV 캐시 크기가 폭발적으로 증가
100만 토큰 컨텍스트의 KV 캐시는 수십~수백 GB에 달하며, 이는 모델 가중치 자체보다 커질 수 있음
KV 캐시 병목 = 서비스 수익화의 직접적 상한선 (동시 처리 요청 수 제한)

NVIDIA의 해법 — ICMS (Inference Context Memory Storage Platform):

NVIDIANVDA는 CES 2026에서 BlueField-4 DPU를 활용한 KV 캐시 전용 스토리지 인프라를 공개했습니다:

ICMS 성능 지표	수치	비고
초당 토큰 처리량	기존 대비 5배	BlueField-4 DPU 활용
TCO 대비 성능	5배	전용 스토리지 인프라
전력 효율	5배	—
첫 토큰 응답 시간 (TTFT)	20배 개선	—
GPU당 컨텍스트 메모리	최대 16TB	—
단일 SuperPod (1,152 Rubin GPU)	최대 18,432TB	—

ICMS 성능 지표

초당 토큰 처리량

수치: 기존 대비 5배
비고: BlueField-4 DPU 활용

ICMS 성능 지표

TCO 대비 성능

수치: 5배
비고: 전용 스토리지 인프라

ICMS 성능 지표

전력 효율

수치: 5배
비고: —

ICMS 성능 지표

첫 토큰 응답 시간 (TTFT)

수치: 20배 개선
비고: —

ICMS 성능 지표

GPU당 컨텍스트 메모리

수치: 최대 16TB
비고: —

ICMS 성능 지표

단일 SuperPod (1,152 Rubin GPU)

수치: 최대 18,432TB
비고: —

기존 대비 초당 토큰 처리량 5배
TCO 대비 성능 5배
전력 효율 5배
첫 토큰 응답 시간(TTFT) 20배 개선
GPU당 최대 16TB 컨텍스트 메모리 지원
단일 SuperPod(1,152 Rubin GPU)에서 최대 18,432TB 처리 가능

NVIDIA Dynamo — KV 캐시 지능형 관리:

GTC 2025에서 공개된 오픈소스 추론 프레임워크 Dynamo는 KV 캐시 문제를 소프트웨어로 해결합니다:

KV Cache Manager: GPU HBM → CPU DRAM → NVMe SSD → 네트워크 스토리지 계층별 오프로딩
Smart Router: 요청과 캐시 블록 간 오버랩 스코어 계산, 캐시 재사용 극대화
NIXL: 노드 간 KV 캐시 전송 가속 라이브러리
DeepSeek-R1 671B 서빙 시 기존 대비 최대 30배 처리량 향상 (GB200 NVL72 기준)

이것은 단순한 캐싱 기술이 아닙니다. KV 캐시 문제가 해결되기 전까지는 컨텍스트 창을 아무리 늘려도 메모리 부족으로 동시 처리 가능한 요청 수가 제한됩니다.

3장. HBM 공급망 — 병목의 물리적 실체

Key Points

—"2025~2026년 HBM 캐파가 완전히 예약"

글로벌 HBM 시장 현황 (2025~2026):

지표	수치	출처
2025 시장 규모	$38B	TrendForce
2026 시장 규모	$54.6B (+58% YoY)	BofA
SK하이닉스000660 점유율	Q2 62% → Q3 57%	Counterpoint
MicronMU 점유율	21% (삼성 추월)	Counterpoint
Samsung 점유율	17% → Q3 22% 회복	Counterpoint

지표

2025 시장 규모

수치: $38B
출처: TrendForce

지표

2026 시장 규모

수치: $54.6B (+58% YoY)
출처: BofA

지표

SK하이닉스000660 점유율

수치: Q2 62% → Q3 57%
출처: Counterpoint

지표

MicronMU 점유율

수치: 21% (삼성 추월)
출처: Counterpoint

지표

Samsung 점유율

수치: 17% → Q3 22% 회복
출처: Counterpoint

공급 현황 — 사실상 완판:

SK하이닉스000660 CFO: "2026년 전체 HBM 물량이 이미 완판"
MicronMU CEO: "2025~2026년 HBM 캐파가 완전히 예약" (연간 ~$8B 규모)
TSMCTSM CoWoS 패키징: 2026년 중반까지 완판 (월 13만 장 목표, NVIDIANVDA가 50%+ 점유)

가격 동향:

HBM3E(12-hi): 20% 가격 인상 (삼성·SK하이닉스000660 모두, 2026년 납품분)
HBM4: NVIDIANVDA향 mid-$500s/스택 — HBM3E 대비 40~50% 프리미엄
삼성은 NVIDIANVDA에 기존 HBM3E 가격의 2배 이상 청구 예정 (NotebookCheck)
2026년 믹스: HBM4 ~55% / HBM3E ~45%

HBM 제조의 구조적 어려움:

HBM은 DRAM 칩을 TSV(Through-Silicon Via)로 수직 적층하는 구조
DDR4: mm²당 0.296 Gb vs HBM3: 0.16 Gb/mm² — 밀도가 절반 이하
이 밀도 패널티가 HBM 공급이 단기간에 증설될 수 없는 근본 이유
HBM 생산 증가 → 범용 DRAM 공급 감소 (제로섬)

생산 캐파 확장:

SK하이닉스000660: HBM4 양산 2026년 2월 전진 배치 (당초 하반기 예정)
삼성: 2026년 HBM 생산능력 50% 확대 (월 25만 장 목표)
MicronMU: HBM4 샘플 11 Gbps 달성, 2026 전량 완판 예정

SK하이닉스000660 연간 영업이익 47.2조원 — 사상 최초로 삼성(43.6조원) 추월 (2025년 실적, CNBC)

4장. SRAM 대 HBM — 아키텍처 전쟁의 본질

Key Points

—Groq가 NVIDIA에 $200억에 인수된 이유는 무엇인가?
—Vera Rubin 플랫폼이 GPU와 LPU를 결합한 하이브리드 설계

Oracle 어닝콜의 핵심 화두로 돌아옵니다: Groq가 NVIDIANVDA에 $200억에 인수된 이유는 무엇인가?

SRAM vs HBM 기술 비교:

지표	Groq LPU (SRAM)	NVIDIANVDA Rubin (HBM4)
메모리 대역폭	80 TB/s+ (온칩)	22 TB/s
칩당 용량	230 MB	288 GB
지연시간	극저지연 (결정론적)	동적 스케줄링
70B 모델 구동	수백 개 칩 필요	2~4개 GPU
용량 대비	1개 Rubin = ~1,280배	-

지표

메모리 대역폭

Groq LPU (SRAM): 80 TB/s+ (온칩)
NVIDIANVDA Rubin (HBM4): 22 TB/s

지표

칩당 용량

Groq LPU (SRAM): 230 MB
NVIDIANVDA Rubin (HBM4): 288 GB

지표

지연시간

Groq LPU (SRAM): 극저지연 (결정론적)
NVIDIANVDA Rubin (HBM4): 동적 스케줄링

지표

70B 모델 구동

Groq LPU (SRAM): 수백 개 칩 필요
NVIDIANVDA Rubin (HBM4): 2~4개 GPU

지표

용량 대비

Groq LPU (SRAM): 1개 Rubin = ~1,280배
NVIDIANVDA Rubin (HBM4): -

Groq LPU는 온칩 SRAM을 캐시가 아닌 주 가중치 저장소로 사용합니다. 컴파일러가 전체 실행 그래프를 클럭 단위까지 사전 계획한 정적 스케줄링으로, GPU의 동적 스케줄링에서 비롯되는 비결정적 지연을 완전히 제거합니다. Llama-2 70B에서 300+ tokens/sec — H100 대비 10배 빠른 속도를 달성했습니다.

그러나 SRAM의 치명적 한계:

SRAM은 HBM보다 물리적으로 훨씬 큰 면적을 차지
전력 밀도와 메모리 용량에서 근본적 트레이드오프
대형 모델 서빙에는 비용 효율성이 크게 떨어짐

NVIDIANVDA $200억 Groq 인수 (2025.12.24, CNBC):

Groq 마지막 사모 밸류에이션 $69억 → 2.9배 프리미엄 지불
NVIDIANVDA 역사상 최대 규모 인수 (Mellanox $69억 대비 3배)
Groq CEO Jonathan Ross, President Sunny Madra NVIDIANVDA 합류
직원 ~90% NVIDIANVDA 합류 (기존 주식 현금 정산, 미확정 주식 NVIDIANVDA 주식 전환)
구조: 전체 자산 인수 (클라우드 사업 제외)
Groq 측 공식 발표는 "non-exclusive inference technology licensing agreement"로 프레이밍

결론: SRAM과 HBM은 대체재가 아니라 상호보완적 계층 구조입니다. NVIDIANVDA의 Groq 인수는 GPU의 원시 처리능력만으로는 충분하지 않다는 것을 인정한 것이며, 추론에 최적화된 결정론적 아키텍처가 GPU 생태계의 필수 보완재임을 확인한 신호입니다. 업계 분석가들은 2026년 Vera Rubin 플랫폼이 GPU와 LPU를 결합한 하이브리드 설계를 채택할 것으로 예상하고 있습니다.

5장. 차세대 메모리 계층 지도 — HBF와 PIM의 등장

Key Points

—AiM (Accelerator-in-Memory)

HBF (High-Bandwidth Flash) — SK하이닉스의 차세대 메모리:

SK하이닉스000660와 SanDisk가 공동으로 HBF 글로벌 표준화를 추진 중입니다 (2026.2.25 공식 발표):

목표 대역폭: 최대 1.6 TB/s (HBM4 수준)
목표 용량: 512 GB/스택 (HBM4 64GB의 8배)
아키텍처: 16층 NAND 스태킹, 병렬 서브어레이
소켓 호환: HBM4 폼팩터와 물리적 호환 설계
성능 효율: 기존 대비 2.69배 와트당 성능 (SK하이닉스000660 2026.2 발표)
타임라인: 샘플 2H 2026 → 상용 제품 2027년

이는 읽기 전용으로 변하지 않는 모델 가중치를 Flash에 오프로드하고, 비싼 HBM을 KV 캐시처럼 동적으로 변하는 데이터에 집중시키는 분리 아키텍처입니다.

PIM (Processing-in-Memory) — 메모리 내부 연산:

SK하이닉스000660 AiM (Accelerator-in-Memory): HBM 로직 다이에 연산 유닛 내장, 실제 배포 단계
삼성 LPDDR5X-PIM: 온디바이스 AI용 모바일 DRAM 내 연산 통합
에너지 효율: 기존 아키텍처 대비 ~70% 절감 (삼성 수치)
SK하이닉스000660-삼성 공동 LPDDR6-PIM JEDEC 표준화 추진 중
HBM4-PIM 양산 목표: 2027년

2026~2029년 AI 가속기 메모리 계층 재편:

계층	기술	용량	대역폭	용도
1계층 (최고속)	SRAM	수백 MB	80 TB/s	LPU 방식, 극저지연 디코드
2계층 (고속)	HBM4/4E	288GB~	22 TB/s	GPU 온보드, 가중치+KV캐시
3계층 (중속)	HBF/DRAM	수 TB	~1.6 TB/s	KV 캐시 확장, 가중치 오프로드
4계층 (대용량)	NVMe SSD (ICMS)	수십 PB	~수 GB/s	KV 캐시 장기 오프로드

계층

1계층 (최고속)

기술: SRAM
용량: 수백 MB
대역폭: 80 TB/s
용도: LPU 방식, 극저지연 디코드

계층

2계층 (고속)

기술: HBM4/4E
용량: 288GB~
대역폭: 22 TB/s
용도: GPU 온보드, 가중치+KV캐시

계층

3계층 (중속)

기술: HBF/DRAM
용량: 수 TB
대역폭: ~1.6 TB/s
용도: KV 캐시 확장, 가중치 오프로드

계층

4계층 (대용량)

기술: NVMe SSD (ICMS)
용량: 수십 PB
대역폭: ~수 GB/s
용도: KV 캐시 장기 오프로드

NVIDIANVDA는 이 4계층 메모리 구조를 Vera Rubin 플랫폼에 구현했으며, Dynamo 소프트웨어가 Prefill/Decode 분리, KV 캐시 스마트 라우팅, 계층별 스토리지 오프로드를 통합 관리합니다.

6장. 투자 함의 — 누가 이 병목에서 돈을 버는가

Key Points

—Samsung (005930.KS) — 상대적 지연, HBM4 반전 시도

Tier 1 — HBM 직접 수혜 (최대 수혜):

종목	HBM 점유율	HBM4 일정	주요 실적/전망	핵심 모니터링
SK하이닉스000660 (000660.KS)	62% (Q2 2025)	2026.2월 양산	영업이익 47.2조원 (2025)	HBM4 수율, HBM4E 개발, 2027 가격 재협상
MicronMU (MUMU)	21%	HBM4 샘플 11Gbps	HBM 연간매출 런레이트 ~$8B	양산 일정, NVIDIANVDA 외 고객 다각화
Samsung (005930.KS)	17% → 22% 회복 중	HBM4 반전 시도	2026 캐파 50% 확대 (월 25만 장)	HBM4 가격 2배+ 청구 전략

종목

SK하이닉스000660 (000660.KS)

HBM 점유율: 62% (Q2 2025)
HBM4 일정: 2026.2월 양산
주요 실적/전망: 영업이익 47.2조원 (2025)
핵심 모니터링: HBM4 수율, HBM4E 개발, 2027 가격 재협상

종목

MicronMU (MUMU)

HBM 점유율: 21%
HBM4 일정: HBM4 샘플 11Gbps
주요 실적/전망: HBM 연간매출 런레이트 ~$8B
핵심 모니터링: 양산 일정, NVIDIANVDA 외 고객 다각화

종목

Samsung (005930.KS)

HBM 점유율: 17% → 22% 회복 중
HBM4 일정: HBM4 반전 시도
주요 실적/전망: 2026 캐파 50% 확대 (월 25만 장)
핵심 모니터링: HBM4 가격 2배+ 청구 전략

SK하이닉스000660 (000660.KS)

HBM 시장 점유율 62%(Q2 2025)의 절대 강자
NVIDIANVDA Rubin의 HBM4 독점 공급 파트너
2026년 HBM 물량 사실상 완판 — 가격 협상력 극대화
연간 영업이익 47.2조원 — 사상 최초 삼성 추월 (2025)
HBM4 양산 2026.2월 전진 배치
핵심 모니터링: HBM4 수율, HBM4E 개발 진행, 2027 가격 재협상

MicronMU Technology (MUMU)

HBM 점유율 21%, 삼성 추월로 확고한 2위
2026년 HBM 연간 매출 런레이트 ~$8B
2025~2026년 전량 예약 완판
HBM4 샘플 11 Gbps 달성
핵심 모니터링: HBM4 양산 일정, NVIDIANVDA 외 고객 다각화

Samsung (005930.KS) — 상대적 지연, HBM4 반전 시도

HBM 점유율 17% → Q3 22% 회복 중
2026년 HBM 캐파 50% 확대 (월 25만 장)
HBM4에서 NVIDIANVDA 가격 기존의 2배 이상 청구 예정
HBM4에서의 반전이 핵심 — 단기 모멘텀 불리

Tier 2 — AI 인프라 수혜:

NVIDIANVDA (NVDANVDA)

Vera Rubin NVL72: 3.6 EFLOPS, 토큰당 비용 Blackwell 대비 1/10
Groq $200억 인수로 SRAM/LPU 기술 확보
Jensen Huang CES 2026: "지난 10년의 ~$10조 컴퓨팅 인프라가 현대화될 것"
핵심 모니터링: GTC 2026(3/16~19) 발표, LPU 통합 일정

TSMCTSM (TSMTSM)

CoWoS 패키징 2026년 말까지 완판 (월 13만 장 목표)
NVIDIANVDA가 2026 CoWoS 캐파의 50%+ 점유
상위 4사(NVIDIANVDA, AMDAMD, BroadcomAVGO, GoogleGOOGL)가 85%+ 점유
FOPLP 차세대 패키징 2H 2026 파일럿

Tier 3 — 조건부 수혜:

Oracle (ORCL)

Clay Magouyrk: 추론 지연시간은 지리적 위치가 아니라 하드웨어 아키텍처 문제
AI 인프라 매출 243% YoY 성장, 10GW+ 전력 확보
리스크: Rubin이 Blackwell 대비 성능 5배/비용 1/10 달성 시, Blackwell 기반 OCI 클러스터 경제성 급속 희석

---

Sources:

[SK hynix 2026 Market Outlook](https://news.skhynix.com/2026-market-outlook-focus-on-the-hbm-led-memory-supercycle/)
[SK hynix HBM 62% — Counterpoint/Astute Group](https://www.astutegroup.com/news/general/sk-hynix-holds-62-of-hbm-micron-overtakes-samsung-2026-battle-pivots-to-hbm4/)
[NVIDIANVDA Vera Rubin NVL72 — NVIDIANVDA Official](https://www.nvidia.com/en-us/data-center/vera-rubin-nvl72/)
[NVIDIANVDA Groq $20B Deal — CNBC](https://www.cnbc.com/2025/12/24/nvidia-buying-ai-chip-startup-groq-for-about-20-billion-biggest-deal.html)
[NVIDIANVDA ICMS Platform — Developer Blog](https://developer.nvidia.com/blog/introducing-nvidia-bluefield-4-powered-inference-context-memory-storage-platform-for-the-next-frontier-of-ai/)
[Patterson & Ma: LLM Inference Hardware — arXiv 2601.05047](https://arxiv.org/abs/2601.05047)
[Oracle Q3 FY2026 Earnings — CNBC](https://www.cnbc.com/2026/03/10/oracle-orcl-q3-earnings-report-2026.html)
[TSMCTSM CoWoS Capacity — Fusion Worldwide](https://info.fusionww.com/blog/inside-the-ai-bottleneck-cowos-hbm-and-2-3nm-capacity-constraints-through-2027)
[HBF Standardization — SK Hynix Official](https://news.skhynix.com/sk-hynix-and-sandisk-begin-global-standardization-ofnext-generation-memory-hbf/)
[Samsung HBM4 Pricing — NotebookCheck](https://www.notebookcheck.net/Nvidia-may-raise-prices-as-it-pays-Samsung-double-for-future-HBM4-AI-memory-modules-with-3-3-TB-s-bandwidth.1172580.0.html)

해랑달 인사이트: AI 인프라 밸류체인

AI 학습·추론 인프라의 반도체→전력→냉각→네트워킹 전체 밸류체인 투자 기회. GPU/HBM에서 변압기/냉각까지 12개 세부 테마를 하나의 관점으로 분석.

추론(Inference) 병목의 구조 — 왜 지금이 전환점인가

메모리 월, KV 캐시, HBM 공급난, SRAM-HBM 계층 아키텍처 전쟁의 전모

해랑달2026년 3월 11일읽기 18분HBM, 메모리월, 추론병목, KV캐시, Groq, VeraRubin, SK하이닉스, HBF, PIM

Reader's Brief — 30초 요약

고급

한 줄 결론

AI 추론의 진짜 병목은 네트워크 거리가 아닌 메모리 대역폭이며, HBM 수요는 추론 수요 폭발로 사이클적이 아닌 구조적 성장 궤도에 진입했다.

왜 지금

Oracle 어닝콜에서 AI 추론 병목이 메모리 대역폭에 있음이 확인됐고, NVIDIA의 $200억 Groq 인수가 이 명제를 전략적으로 뒷받침했다.

수혜·피해

모니터링

분기마다 대형 LLM 서비스 업체(OpenAI·Anthropic·Google)의 추론 인프라 용량 증설 발표 — 메모리 대역폭 수요의 선행지표.

핵심 용어 (5)펼치기 ↓

HBM(고대역폭 메모리): — High Bandwidth Memory. AI GPU 옆에 직접 적층하는 고성능 메모리로, 일반 DRAM 대비 10배 이상 빠른 데이터 전송 속도를 제공. AI 추론의 핵심 병목 자원.
KV 캐시: — AI 언어모델이 이전 문맥(Key-Value)을 저장하는 메모리 구조. 컨텍스트 길이·모델 파라미터가 증가할수록 필요한 메모리가 기하급수적으로 증가.
메모리 월: — CPU·GPU 연산 속도 대비 메모리 대역폭이 따라가지 못하는 구조적 병목. AI 추론에서는 연산 속도보다 데이터 공급 속도가 더 큰 제약이 됨.
SRAM: — 정적 램(Static Random Access Memory). DRAM보다 훨씬 빠르지만 비싸고 용량이 작아, HBM과 함께 AI 칩 내 다계층 메모리 계층 구조를 형성.
추론(Inference): — 학습이 완료된 AI 모델이 실제 질문·요청에 답변을 생성하는 과정. 학습(Training)보다 빈도가 훨씬 높고, 실시간 응답이 요구되어 메모리 대역폭 수요가 더 민감.

핵심 요약: 3줄 결론

1장. 병목의 물리학: 왜 메모리가 한계인가

Key Points

—NVIDIA GPU 64비트 FLOPS는 2012~2022년 80배 성장했지만, 메모리 대역폭은 같은 기간 17배만 성장
—더 나은 HBM이 공급되면 모델이 그에 맞게 커지므로, 메모리는 항상 다음 세대의 병목으로 남습니다.

Oracle Q3 FY2026 어닝콜(2026.3.10)에서 공동 CEO Clay Magouyrk가 언급한 '진짜 병목은 하드웨어 아키텍처'라는 말의 물리적 근거부터 풀어야 합니다.

특성	훈련 (Training)	추론 (Inference)
연산 타입	동일 가중치에 수천 배치 병렬 처리	토큰을 순차적으로 하나씩 생성
메모리 사용	가중치 + 그래디언트 + 옵티마이저 상태	가중치 + KV 캐시 (컨텍스트 비례 증가)
병목	GPU 병렬 코어 (Compute-Bound)	메모리 대역폭 (Memory-Bound)
핵심 지표	FLOPS (연산 처리량)	GB/s (메모리 대역폭)
산술 강도	높음 (연산 집약적)	매우 낮음 (읽기 집약적)

특성

연산 타입

훈련 (Training): 동일 가중치에 수천 배치 병렬 처리
추론 (Inference): 토큰을 순차적으로 하나씩 생성

특성

메모리 사용

훈련 (Training): 가중치 + 그래디언트 + 옵티마이저 상태
추론 (Inference): 가중치 + KV 캐시 (컨텍스트 비례 증가)

특성

병목

훈련 (Training): GPU 병렬 코어 (Compute-Bound)
추론 (Inference): 메모리 대역폭 (Memory-Bound)

특성

핵심 지표

훈련 (Training): FLOPS (연산 처리량)
추론 (Inference): GB/s (메모리 대역폭)

특성

산술 강도

훈련 (Training): 높음 (연산 집약적)
추론 (Inference): 매우 낮음 (읽기 집약적)

핵심 지표인 산술 강도(Arithmetic Intensity: FLOP per byte)를 보면:

LLM 추론에서 이 값은 매우 낮습니다
모델이 가중치를 메모리에서 읽어 아주 적은 연산만 하고 버립니다
이런 workload를 Memory-Bound라고 하며, FLOPS가 아니라 메모리 대역폭(GB/s)이 성능을 결정합니다

세대별 HBM 스펙 비교:

H100: HBM3, 80GB, 3.35 TB/s
H200: HBM3E, 141GB, 4.8 TB/s
Rubin R100: HBM4, 288GB, 22 TB/s

2장. KV 캐시 — 추론을 지배하는 숨겨진 메모리 괴물

KV 캐시가 왜 문제인가:

컨텍스트 길이가 길어질수록 KV 캐시 크기가 폭발적으로 증가
100만 토큰 컨텍스트의 KV 캐시는 수십~수백 GB에 달하며, 이는 모델 가중치 자체보다 커질 수 있음
KV 캐시 병목 = 서비스 수익화의 직접적 상한선 (동시 처리 요청 수 제한)

NVIDIA의 해법 — ICMS (Inference Context Memory Storage Platform):

NVIDIANVDA는 CES 2026에서 BlueField-4 DPU를 활용한 KV 캐시 전용 스토리지 인프라를 공개했습니다:

ICMS 성능 지표	수치	비고
초당 토큰 처리량	기존 대비 5배	BlueField-4 DPU 활용
TCO 대비 성능	5배	전용 스토리지 인프라
전력 효율	5배	—
첫 토큰 응답 시간 (TTFT)	20배 개선	—
GPU당 컨텍스트 메모리	최대 16TB	—
단일 SuperPod (1,152 Rubin GPU)	최대 18,432TB	—

ICMS 성능 지표

초당 토큰 처리량

수치: 기존 대비 5배
비고: BlueField-4 DPU 활용

ICMS 성능 지표

TCO 대비 성능

수치: 5배
비고: 전용 스토리지 인프라

ICMS 성능 지표

전력 효율

수치: 5배
비고: —

ICMS 성능 지표

첫 토큰 응답 시간 (TTFT)

수치: 20배 개선
비고: —

ICMS 성능 지표

GPU당 컨텍스트 메모리

수치: 최대 16TB
비고: —

ICMS 성능 지표

단일 SuperPod (1,152 Rubin GPU)

수치: 최대 18,432TB
비고: —

기존 대비 초당 토큰 처리량 5배
TCO 대비 성능 5배
전력 효율 5배
첫 토큰 응답 시간(TTFT) 20배 개선
GPU당 최대 16TB 컨텍스트 메모리 지원
단일 SuperPod(1,152 Rubin GPU)에서 최대 18,432TB 처리 가능

NVIDIA Dynamo — KV 캐시 지능형 관리:

GTC 2025에서 공개된 오픈소스 추론 프레임워크 Dynamo는 KV 캐시 문제를 소프트웨어로 해결합니다:

KV Cache Manager: GPU HBM → CPU DRAM → NVMe SSD → 네트워크 스토리지 계층별 오프로딩
Smart Router: 요청과 캐시 블록 간 오버랩 스코어 계산, 캐시 재사용 극대화
NIXL: 노드 간 KV 캐시 전송 가속 라이브러리
DeepSeek-R1 671B 서빙 시 기존 대비 최대 30배 처리량 향상 (GB200 NVL72 기준)

3장. HBM 공급망 — 병목의 물리적 실체

Key Points

—"2025~2026년 HBM 캐파가 완전히 예약"

글로벌 HBM 시장 현황 (2025~2026):

지표	수치	출처
2025 시장 규모	$38B	TrendForce
2026 시장 규모	$54.6B (+58% YoY)	BofA
SK하이닉스000660 점유율	Q2 62% → Q3 57%	Counterpoint
MicronMU 점유율	21% (삼성 추월)	Counterpoint
Samsung 점유율	17% → Q3 22% 회복	Counterpoint

지표

2025 시장 규모

수치: $38B
출처: TrendForce

지표

2026 시장 규모

수치: $54.6B (+58% YoY)
출처: BofA

지표

SK하이닉스000660 점유율

수치: Q2 62% → Q3 57%
출처: Counterpoint

지표

MicronMU 점유율

수치: 21% (삼성 추월)
출처: Counterpoint

지표

Samsung 점유율

수치: 17% → Q3 22% 회복
출처: Counterpoint

공급 현황 — 사실상 완판:

SK하이닉스000660 CFO: "2026년 전체 HBM 물량이 이미 완판"
MicronMU CEO: "2025~2026년 HBM 캐파가 완전히 예약" (연간 ~$8B 규모)
TSMCTSM CoWoS 패키징: 2026년 중반까지 완판 (월 13만 장 목표, NVIDIANVDA가 50%+ 점유)

가격 동향:

HBM3E(12-hi): 20% 가격 인상 (삼성·SK하이닉스000660 모두, 2026년 납품분)
HBM4: NVIDIANVDA향 mid-$500s/스택 — HBM3E 대비 40~50% 프리미엄
삼성은 NVIDIANVDA에 기존 HBM3E 가격의 2배 이상 청구 예정 (NotebookCheck)
2026년 믹스: HBM4 ~55% / HBM3E ~45%

HBM 제조의 구조적 어려움:

HBM은 DRAM 칩을 TSV(Through-Silicon Via)로 수직 적층하는 구조
DDR4: mm²당 0.296 Gb vs HBM3: 0.16 Gb/mm² — 밀도가 절반 이하
이 밀도 패널티가 HBM 공급이 단기간에 증설될 수 없는 근본 이유
HBM 생산 증가 → 범용 DRAM 공급 감소 (제로섬)

생산 캐파 확장:

SK하이닉스000660: HBM4 양산 2026년 2월 전진 배치 (당초 하반기 예정)
삼성: 2026년 HBM 생산능력 50% 확대 (월 25만 장 목표)
MicronMU: HBM4 샘플 11 Gbps 달성, 2026 전량 완판 예정

SK하이닉스000660 연간 영업이익 47.2조원 — 사상 최초로 삼성(43.6조원) 추월 (2025년 실적, CNBC)

4장. SRAM 대 HBM — 아키텍처 전쟁의 본질

Key Points

—Groq가 NVIDIA에 $200억에 인수된 이유는 무엇인가?
—Vera Rubin 플랫폼이 GPU와 LPU를 결합한 하이브리드 설계

Oracle 어닝콜의 핵심 화두로 돌아옵니다: Groq가 NVIDIANVDA에 $200억에 인수된 이유는 무엇인가?

SRAM vs HBM 기술 비교:

지표	Groq LPU (SRAM)	NVIDIANVDA Rubin (HBM4)
메모리 대역폭	80 TB/s+ (온칩)	22 TB/s
칩당 용량	230 MB	288 GB
지연시간	극저지연 (결정론적)	동적 스케줄링
70B 모델 구동	수백 개 칩 필요	2~4개 GPU
용량 대비	1개 Rubin = ~1,280배	-

지표

메모리 대역폭

Groq LPU (SRAM): 80 TB/s+ (온칩)
NVIDIANVDA Rubin (HBM4): 22 TB/s

지표

칩당 용량

Groq LPU (SRAM): 230 MB
NVIDIANVDA Rubin (HBM4): 288 GB

지표

지연시간

Groq LPU (SRAM): 극저지연 (결정론적)
NVIDIANVDA Rubin (HBM4): 동적 스케줄링

지표

70B 모델 구동

Groq LPU (SRAM): 수백 개 칩 필요
NVIDIANVDA Rubin (HBM4): 2~4개 GPU

지표

용량 대비

Groq LPU (SRAM): 1개 Rubin = ~1,280배
NVIDIANVDA Rubin (HBM4): -

그러나 SRAM의 치명적 한계:

SRAM은 HBM보다 물리적으로 훨씬 큰 면적을 차지
전력 밀도와 메모리 용량에서 근본적 트레이드오프
대형 모델 서빙에는 비용 효율성이 크게 떨어짐

NVIDIANVDA $200억 Groq 인수 (2025.12.24, CNBC):

Groq 마지막 사모 밸류에이션 $69억 → 2.9배 프리미엄 지불
NVIDIANVDA 역사상 최대 규모 인수 (Mellanox $69억 대비 3배)
Groq CEO Jonathan Ross, President Sunny Madra NVIDIANVDA 합류
직원 ~90% NVIDIANVDA 합류 (기존 주식 현금 정산, 미확정 주식 NVIDIANVDA 주식 전환)
구조: 전체 자산 인수 (클라우드 사업 제외)
Groq 측 공식 발표는 "non-exclusive inference technology licensing agreement"로 프레이밍

5장. 차세대 메모리 계층 지도 — HBF와 PIM의 등장

Key Points

—AiM (Accelerator-in-Memory)

HBF (High-Bandwidth Flash) — SK하이닉스의 차세대 메모리:

SK하이닉스000660와 SanDisk가 공동으로 HBF 글로벌 표준화를 추진 중입니다 (2026.2.25 공식 발표):

목표 대역폭: 최대 1.6 TB/s (HBM4 수준)
목표 용량: 512 GB/스택 (HBM4 64GB의 8배)
아키텍처: 16층 NAND 스태킹, 병렬 서브어레이
소켓 호환: HBM4 폼팩터와 물리적 호환 설계
성능 효율: 기존 대비 2.69배 와트당 성능 (SK하이닉스000660 2026.2 발표)
타임라인: 샘플 2H 2026 → 상용 제품 2027년

PIM (Processing-in-Memory) — 메모리 내부 연산:

SK하이닉스000660 AiM (Accelerator-in-Memory): HBM 로직 다이에 연산 유닛 내장, 실제 배포 단계
삼성 LPDDR5X-PIM: 온디바이스 AI용 모바일 DRAM 내 연산 통합
에너지 효율: 기존 아키텍처 대비 ~70% 절감 (삼성 수치)
SK하이닉스000660-삼성 공동 LPDDR6-PIM JEDEC 표준화 추진 중
HBM4-PIM 양산 목표: 2027년

2026~2029년 AI 가속기 메모리 계층 재편:

계층	기술	용량	대역폭	용도
1계층 (최고속)	SRAM	수백 MB	80 TB/s	LPU 방식, 극저지연 디코드
2계층 (고속)	HBM4/4E	288GB~	22 TB/s	GPU 온보드, 가중치+KV캐시
3계층 (중속)	HBF/DRAM	수 TB	~1.6 TB/s	KV 캐시 확장, 가중치 오프로드
4계층 (대용량)	NVMe SSD (ICMS)	수십 PB	~수 GB/s	KV 캐시 장기 오프로드

계층

1계층 (최고속)

기술: SRAM
용량: 수백 MB
대역폭: 80 TB/s
용도: LPU 방식, 극저지연 디코드

계층

2계층 (고속)

기술: HBM4/4E
용량: 288GB~
대역폭: 22 TB/s
용도: GPU 온보드, 가중치+KV캐시

계층

3계층 (중속)

기술: HBF/DRAM
용량: 수 TB
대역폭: ~1.6 TB/s
용도: KV 캐시 확장, 가중치 오프로드

계층

4계층 (대용량)

기술: NVMe SSD (ICMS)
용량: 수십 PB
대역폭: ~수 GB/s
용도: KV 캐시 장기 오프로드

6장. 투자 함의 — 누가 이 병목에서 돈을 버는가

Key Points

—Samsung (005930.KS) — 상대적 지연, HBM4 반전 시도

Tier 1 — HBM 직접 수혜 (최대 수혜):

종목	HBM 점유율	HBM4 일정	주요 실적/전망	핵심 모니터링
SK하이닉스000660 (000660.KS)	62% (Q2 2025)	2026.2월 양산	영업이익 47.2조원 (2025)	HBM4 수율, HBM4E 개발, 2027 가격 재협상
MicronMU (MUMU)	21%	HBM4 샘플 11Gbps	HBM 연간매출 런레이트 ~$8B	양산 일정, NVIDIANVDA 외 고객 다각화
Samsung (005930.KS)	17% → 22% 회복 중	HBM4 반전 시도	2026 캐파 50% 확대 (월 25만 장)	HBM4 가격 2배+ 청구 전략

종목

SK하이닉스000660 (000660.KS)

HBM 점유율: 62% (Q2 2025)
HBM4 일정: 2026.2월 양산
주요 실적/전망: 영업이익 47.2조원 (2025)
핵심 모니터링: HBM4 수율, HBM4E 개발, 2027 가격 재협상

종목

MicronMU (MUMU)

HBM 점유율: 21%
HBM4 일정: HBM4 샘플 11Gbps
주요 실적/전망: HBM 연간매출 런레이트 ~$8B
핵심 모니터링: 양산 일정, NVIDIANVDA 외 고객 다각화

종목

Samsung (005930.KS)

HBM 점유율: 17% → 22% 회복 중
HBM4 일정: HBM4 반전 시도
주요 실적/전망: 2026 캐파 50% 확대 (월 25만 장)
핵심 모니터링: HBM4 가격 2배+ 청구 전략

SK하이닉스000660 (000660.KS)

HBM 시장 점유율 62%(Q2 2025)의 절대 강자
NVIDIANVDA Rubin의 HBM4 독점 공급 파트너
2026년 HBM 물량 사실상 완판 — 가격 협상력 극대화
연간 영업이익 47.2조원 — 사상 최초 삼성 추월 (2025)
HBM4 양산 2026.2월 전진 배치
핵심 모니터링: HBM4 수율, HBM4E 개발 진행, 2027 가격 재협상

MicronMU Technology (MUMU)

HBM 점유율 21%, 삼성 추월로 확고한 2위
2026년 HBM 연간 매출 런레이트 ~$8B
2025~2026년 전량 예약 완판
HBM4 샘플 11 Gbps 달성
핵심 모니터링: HBM4 양산 일정, NVIDIANVDA 외 고객 다각화

Samsung (005930.KS) — 상대적 지연, HBM4 반전 시도

HBM 점유율 17% → Q3 22% 회복 중
2026년 HBM 캐파 50% 확대 (월 25만 장)
HBM4에서 NVIDIANVDA 가격 기존의 2배 이상 청구 예정
HBM4에서의 반전이 핵심 — 단기 모멘텀 불리

Tier 2 — AI 인프라 수혜:

NVIDIANVDA (NVDANVDA)

Vera Rubin NVL72: 3.6 EFLOPS, 토큰당 비용 Blackwell 대비 1/10
Groq $200억 인수로 SRAM/LPU 기술 확보
Jensen Huang CES 2026: "지난 10년의 ~$10조 컴퓨팅 인프라가 현대화될 것"
핵심 모니터링: GTC 2026(3/16~19) 발표, LPU 통합 일정

TSMCTSM (TSMTSM)

CoWoS 패키징 2026년 말까지 완판 (월 13만 장 목표)
NVIDIANVDA가 2026 CoWoS 캐파의 50%+ 점유
상위 4사(NVIDIANVDA, AMDAMD, BroadcomAVGO, GoogleGOOGL)가 85%+ 점유
FOPLP 차세대 패키징 2H 2026 파일럿

Tier 3 — 조건부 수혜:

Oracle (ORCL)

Clay Magouyrk: 추론 지연시간은 지리적 위치가 아니라 하드웨어 아키텍처 문제
AI 인프라 매출 243% YoY 성장, 10GW+ 전력 확보
리스크: Rubin이 Blackwell 대비 성능 5배/비용 1/10 달성 시, Blackwell 기반 OCI 클러스터 경제성 급속 희석

---

Sources:

[SK hynix 2026 Market Outlook](https://news.skhynix.com/2026-market-outlook-focus-on-the-hbm-led-memory-supercycle/)
[SK hynix HBM 62% — Counterpoint/Astute Group](https://www.astutegroup.com/news/general/sk-hynix-holds-62-of-hbm-micron-overtakes-samsung-2026-battle-pivots-to-hbm4/)
[NVIDIANVDA Vera Rubin NVL72 — NVIDIANVDA Official](https://www.nvidia.com/en-us/data-center/vera-rubin-nvl72/)
[NVIDIANVDA Groq $20B Deal — CNBC](https://www.cnbc.com/2025/12/24/nvidia-buying-ai-chip-startup-groq-for-about-20-billion-biggest-deal.html)
[NVIDIANVDA ICMS Platform — Developer Blog](https://developer.nvidia.com/blog/introducing-nvidia-bluefield-4-powered-inference-context-memory-storage-platform-for-the-next-frontier-of-ai/)
[Patterson & Ma: LLM Inference Hardware — arXiv 2601.05047](https://arxiv.org/abs/2601.05047)
[Oracle Q3 FY2026 Earnings — CNBC](https://www.cnbc.com/2026/03/10/oracle-orcl-q3-earnings-report-2026.html)
[TSMCTSM CoWoS Capacity — Fusion Worldwide](https://info.fusionww.com/blog/inside-the-ai-bottleneck-cowos-hbm-and-2-3nm-capacity-constraints-through-2027)
[HBF Standardization — SK Hynix Official](https://news.skhynix.com/sk-hynix-and-sandisk-begin-global-standardization-ofnext-generation-memory-hbf/)
[Samsung HBM4 Pricing — NotebookCheck](https://www.notebookcheck.net/Nvidia-may-raise-prices-as-it-pays-Samsung-double-for-future-HBM4-AI-memory-modules-with-3-3-TB-s-bandwidth.1172580.0.html)

해랑달 인사이트: AI 인프라 밸류체인

AI 학습·추론 인프라의 반도체→전력→냉각→네트워킹 전체 밸류체인 투자 기회. GPU/HBM에서 변압기/냉각까지 12개 세부 테마를 하나의 관점으로 분석.

추론(Inference) 병목의 구조 — 왜 지금이 전환점인가

Reader's Brief — 30초 요약

핵심 요약: 3줄 결론

1장. 병목의 물리학: 왜 메모리가 한계인가

2장. KV 캐시 — 추론을 지배하는 숨겨진 메모리 괴물

3장. HBM 공급망 — 병목의 물리적 실체

4장. SRAM 대 HBM — 아키텍처 전쟁의 본질

5장. 차세대 메모리 계층 지도 — HBF와 PIM의 등장

6장. 투자 함의 — 누가 이 병목에서 돈을 버는가

해랑달 인사이트: AI 인프라 밸류체인

관련 ETF

댓글

추론(Inference) 병목의 구조 — 왜 지금이 전환점인가

Reader's Brief — 30초 요약

핵심 요약: 3줄 결론

1장. 병목의 물리학: 왜 메모리가 한계인가

2장. KV 캐시 — 추론을 지배하는 숨겨진 메모리 괴물

3장. HBM 공급망 — 병목의 물리적 실체

4장. SRAM 대 HBM — 아키텍처 전쟁의 본질

5장. 차세대 메모리 계층 지도 — HBF와 PIM의 등장

6장. 투자 함의 — 누가 이 병목에서 돈을 버는가

해랑달 인사이트: AI 인프라 밸류체인

관련 ETF

댓글

추론(Inference) 병목의 구조 — 왜 지금이 전환점인가

Reader's Brief — 30초 요약

핵심 요약: 3줄 결론

1장. 병목의 물리학: 왜 메모리가 한계인가

2장. KV 캐시 — 추론을 지배하는 숨겨진 메모리 괴물

3장. HBM 공급망 — 병목의 물리적 실체

4장. SRAM 대 HBM — 아키텍처 전쟁의 본질

5장. 차세대 메모리 계층 지도 — HBF와 PIM의 등장

6장. 투자 함의 — 누가 이 병목에서 돈을 버는가

피어 비교 분석

SK하이닉스 vs 삼성전자 vs MU 비교

NVIDIA vs AVGO 비교

밸류에이션 민감도

SK하이닉스 핵심 변수별 목표가 민감도

NVIDIA 핵심 변수별 목표가 민감도

삼성전자 핵심 변수별 목표가 민감도

관련 투자 아이디어

SK하이닉스 — HBM 글로벌 1위, 메모리 슈퍼사이클 최대 수혜

NVIDIA — AI 가속기 절대 강자, B200/B300 사이클 본격화

삼성전자 — 역대급 Q1 실적으로 메모리 슈퍼사이클 확인

TSMC — CPO 패키징의 플랫폼, COUPE로 표준 장악

해랑달 인사이트: AI 인프라 밸류체인

관련 ETF

댓글

추론(Inference) 병목의 구조 — 왜 지금이 전환점인가

Reader's Brief — 30초 요약

핵심 요약: 3줄 결론

1장. 병목의 물리학: 왜 메모리가 한계인가

2장. KV 캐시 — 추론을 지배하는 숨겨진 메모리 괴물

3장. HBM 공급망 — 병목의 물리적 실체

4장. SRAM 대 HBM — 아키텍처 전쟁의 본질

5장. 차세대 메모리 계층 지도 — HBF와 PIM의 등장

6장. 투자 함의 — 누가 이 병목에서 돈을 버는가

피어 비교 분석

SK하이닉스 vs 삼성전자 vs MU 비교

NVIDIA vs AVGO 비교

밸류에이션 민감도

SK하이닉스 핵심 변수별 목표가 민감도

NVIDIA 핵심 변수별 목표가 민감도

삼성전자 핵심 변수별 목표가 민감도

관련 투자 아이디어

SK하이닉스 — HBM 글로벌 1위, 메모리 슈퍼사이클 최대 수혜

NVIDIA — AI 가속기 절대 강자, B200/B300 사이클 본격화

삼성전자 — 역대급 Q1 실적으로 메모리 슈퍼사이클 확인

TSMC — CPO 패키징의 플랫폼, COUPE로 표준 장악

해랑달 인사이트: AI 인프라 밸류체인

관련 ETF

댓글