NewMoneyMoves
해랑달의 시각리서치마켓게시판
관점
통찰본인 시각관점을 더하다맥락논거해석전망
››테마 심층
EDITORIAL VIEW

추론(Inference) 병목의 구조 — 왜 지금이 전환점인가

메모리 월, KV 캐시, HBM 공급난, SRAM-HBM 계층 아키텍처 전쟁의 전모

해해랑달·Founder Analyst2026년 3월 11일읽기 18분HBM, 메모리월, 추론병목, KV캐시, Groq, VeraRubin, SK하이닉스, HBF, PIM
뉴머니무브스

테마로 읽는 글로벌 투자

콘텐츠

테마아이디어리포트실적

둘러보기

ETF해랑달의 시각텔레그램 주요글NVIDIA 포트폴리오주간 리뷰신용 및 레버리지 현황

커뮤니티

데일리 뉴스

법적 고지

개인정보처리방침이용약관면책 고지

© 2026 뉴머니무브스. All rights reserved.

Reader's Brief — 30초 요약

고급
한 줄 결론

AI 추론의 진짜 병목은 네트워크 거리가 아닌 메모리 대역폭이며, HBM 수요는 추론 수요 폭발로 사이클적이 아닌 구조적 성장 궤도에 진입했다.

왜 지금

Oracle 어닝콜에서 AI 추론 병목이 메모리 대역폭에 있음이 확인됐고, NVIDIA의 $200억 Groq 인수가 이 명제를 전략적으로 뒷받침했다.

수혜·피해

수혜 가능성이 큰 카테고리 — HBM 공급사(SK하이닉스·삼성·마이크론), HBM-SRAM 계층 아키텍처 설계사, 추론 특화 칩 개발사. 압박 — KV 캐시 압축 기술(TurboQuant 류)로 수요 대체를 기대하는 투자자, 기존 CPU 기반 추론 인프라 기업.

모니터링

분기마다 대형 LLM 서비스 업체(OpenAI·Anthropic·Google)의 추론 인프라 용량 증설 발표 — 메모리 대역폭 수요의 선행지표.

1장. 병목의 물리학: 왜 메모리가 한계인가

Oracle Q3 FY2026 어닝콜(2026.3.10)에서 공동 CEO Clay Magouyrk가 언급한 '진짜 병목은 하드웨어 아키텍처'라는 말의 물리적 근거부터 풀어야 합니다.

LLM 추론의 연산 구조는 훈련과 근본적으로 다릅니다. 훈련은 동일한 가중치(Weight)에 수천 개의 배치를 병렬로 처리하므로 GPU의 대규모 병렬 코어가 최적입니다. 반면 추론은 토큰을 순차적으로 하나씩 생성합니다. 매 토큰을 생성할 때마다 모델의 전체 가중치를 메모리에서 불러와야 합니다.

GPT-4급 모델(~1.8조 파라미터 추정)을 BF16 정밀도로 올리면 약 3.6TB의 메모리가 필요합니다. 현재 NVIDIA H200의 HBM3E 용량은 141GB입니다. 따라서 단일 칩에 탑재 불가능하고, 수십 개의 GPU를 NVLink로 연결해 분산 추론해야 합니다.

특성훈련 (Training) (Inference)
연산 타입동일 가중치에 수천 배치 병렬 처리토큰을 순차적으로 하나씩 생성
메모리 사용가중치 + 그래디언트 + 옵티마이저 상태가중치 + (컨텍스트 비례 증가)
병목GPU 병렬 코어 (Compute-Bound)메모리 대역폭 (Memory-Bound)
핵심 지표FLOPS (연산 처리량)GB/s (메모리 대역폭)
산술 강도높음 (연산 집약적)매우 낮음 (읽기 집약적)
특성
연산 타입
훈련 (Training)
동일 가중치에 수천 배치 병렬 처리
추론 (Inference)
토큰을 순차적으로 하나씩 생성
특성
메모리 사용
훈련 (Training)
가중치 + 그래디언트 + 옵티마이저 상태
추론 (Inference)
가중치 + KV 캐시 (컨텍스트 비례 증가)
특성
병목
훈련 (Training)
GPU 병렬 코어 (Compute-Bound)
추론 (Inference)
메모리 대역폭 (Memory-Bound)
특성
핵심 지표
훈련 (Training)
FLOPS (연산 처리량)
추론 (Inference)
GB/s (메모리 대역폭)
특성
산술 강도
훈련 (Training)
높음 (연산 집약적)
추론 (Inference)
매우 낮음 (읽기 집약적)

핵심 지표인 산술 강도(Arithmetic Intensity: FLOP per byte)를 보면:

  • LLM 추론에서 이 값은 매우 낮습니다
  • 모델이 가중치를 메모리에서 읽어 아주 적은 연산만 하고 버립니다
  • 이런 workload를 Memory-Bound라고 하며, FLOPS가 아니라 메모리 대역폭(GB/s)이 성능을 결정합니다

Google DeepMind의 David Patterson(튜링상 수상자)과 Xiaoyu Ma의 공동 논문(arXiv 2601.05047, IEEE Computer 2026 게재 예정)은 이를 정량적으로 입증합니다: NVIDIA GPU 64비트 FLOPS는 2012~2022년 80배 성장했지만, 메모리 대역폭은 같은 기간 17배만 성장했습니다. 이 격차가 바로 '메모리 월(Memory Wall)'의 수치적 정의입니다.

세대별 스펙 비교:

  • H100: HBM3, 80GB, 3.35 TB/s
  • H200: HBM3E, 141GB, 4.8 TB/s
  • Rubin R100: HBM4, 288GB, 22 TB/s

Rubin GPU는 HBM4를 최초로 탑재해 GPU당 22 TB/s의 대역폭을 달성했으며, 이는 Blackwell 대비 약 2.8배 향상된 수치입니다. 이것이 단순 성능 개선이 아니라 메모리 벽 자체를 허무는 시도입니다.

그런데 여기서 역설이 있습니다. HBM 용량과 대역폭이 늘어날 때마다 모델 개발자들은 더 큰 파라미터, 더 긴 컨텍스트, 더 큰 KV 캐시로 그 공간을 즉시 채워버립니다. DeepSeek-V3처럼 256개 Expert를 사용하는 MoE 모델은 메모리 풋프린트를 폭발적으로 증가시킵니다. 더 나은 HBM이 공급되면 모델이 그에 맞게 커지므로, 메모리는 항상 다음 세대의 병목으로 남습니다.

이 리포트의 본문은 🥉 브론즈 등급부터 열람 가능합니다

Google 계정으로 로그인하면 등급 확인 후 자동으로 열람 권한이 부여됩니다.

Google로 로그인

광고 모델로 운영되는 비영리 사이트입니다. 등업제는 활동 기여를 인정하기 위한 시스템입니다.

댓글

본 리포트는 정보 제공 목적으로 작성되었으며, 특정 금융상품의 매수 또는 매도를 권유하지 않습니다. 투자 결정은 본인의 판단과 책임 하에 이루어져야 하며, 본 콘텐츠에 포함된 분석과 의견은 작성 시점의 정보를 바탕으로 한 것으로, 향후 변경될 수 있습니다.

전체 리포트 목록
홈
본인 시각
개별기업
매크로
테마