Insight
안녕하세요, 에너자이 사업개발팀 우성민입니다. 최근 중국의 AI 스타트업 딥시크(DeepSeek)가 개발한 AI 기반 챗봇이 화제가 되고 있는데요. 해당 제품은 딥시크가 자체적으로 개발한 거대 언어 모델(Large Language Model, 이하 LLM) 기반으로 구현된 제품으로, 해당 모델이 OpenAI의 GPT, Meta의 Llama 등 시중에 나와 있는 주요 LLM 대비 현저히 낮은 비용으로 학습되었다는 사실이 공개되면서 시장의 주목을 받고 있습니다.딥시크가 왜 이토록 시장의 주목을 받고 있는지, 딥시크는 어떻게 적은 비용으로 뛰어난 성능의 LLM을 구현할 수 있었는지에 대해서 알아보도록 하겠습니다.
Sungmin Woo
2025년 2월 20일
안녕하세요, 에너자이 사업개발팀 우성민(Sungmin Woo)입니다. 최근 중국의 AI 스타트업 딥시크(DeepSeek)가 개발한 AI 기반 챗봇이 화제가 되고 있는데요. 해당 제품은 딥시크가 자체적으로 개발한 거대 언어 모델(Large Language Model, 이하 LLM) 기반으로 구현된 제품으로, 해당 모델이 OpenAI의 GPT, Meta의 Llama 등 시중에 나와 있는 주요 LLM 대비 현저히 낮은 비용으로 학습되었다는 사실이 공개되면서 시장의 주목을 받고 있습니다.
이번 게시물에서는 딥시크가 왜 이토록 시장의 주목을 받고 있는지, 딥시크는 어떻게 적은 비용으로 뛰어난 성능의 LLM을 구현할 수 있었는지에 대해서 알아보도록 하겠습니다.
딥시크란?
딥시크는 원래 Trading을 위한 AI 알고리즘 연구에 집중하던 중국 헤지펀드 High-Flyer가 설립한 Gen-AI Lab에서 출발한 기업으로, 2023년에 High-Flyer의 공동 창업자 량원펑에 의해 창립되었습니다. 2023년 11월 발표한 DeepSeek Coder를 시작으로 DeepSeek LLM, V2, V3 등 꾸준히 새로운 모델을 발표하고 있으며, 모든 모델의 코드, 가중치, 학습 기법 등을 오픈소스로 공개하여 더욱 화제가 되고 있는데요.
특히 지난 1월 20일 DeekSeek-V3 기반의 AI 챗봇 앱이 출시되면서 딥시크에 대한 관심은 폭발적으로 늘어나고 있습니다. 해당 앱은 논리 추론, 실시간 문제 해결 등을 지원하는 AI 어시스턴트로, 특히 수학 문제 해결, 코드 작성 등에 강점을 보인다고 합니다. 해당 모델은 시중에 공개된 OpenAI의 GPT-4o, Meta의 Llama 3.1 등의 모델들과 동등한 수준의 성능을 낼 수 있는 것으로 알려져 있는데요. 놀라운 점은 학습에 사용된 비용이 유사한 수준의 다른 LLM들에 비해 10배 이상 적다는 부분입니다.
딥시크 측에서 공개한 바에 의하면, DeepSeek-V3는 NVIDIA H800 GPU 2,000대 만을 사용하여 55일의 짧은 기간 내에 학습된 모델로, 학습에 사용된 비용은 겨우 557만 6,000달러(약 80억 원)에 불과하다고 하는데요. 2023년 출시된 OpenAI의 GPT-4를 학습하는데 1억 달러 이상이 사용되었음을 고려하면 딥시크가 이토록 뜨거운 화두가 되고 있는 이유를 짐작하실 수 있습니다. 실제로 딥시크의 AI 챗봇 앱은 출시된 지 일주일 만에 미국 iOS 앱스토어에서 ChatGPT를 제치고 최다 다운로드 횟수를 기록했습니다(무료 앱 기준).

딥시크에 대한 주목은 기존 AI 기업들의 경쟁력에 대한 의문으로까지 이어지고 있는데요. 지난 1월 27일 미국 증시에서는 NVIDIA의 주가가 전일 대비 16.84% 폭락하며, 약 6,000억 달러의 기업 가치가 사라졌습니다. 그 외에도 AI 분야에 큰 금액을 투자하고 있던 Broadcom(18.15%), Oracle(13.39%), Arm(10.19%) 등의 빅테크 기업들과 세계 최대의 반도체 기업인 TSMC(13.33%)의 주가가 급락한 것으로 확인됩니다.
딥시크 측에서 공개한 성능 벤치마크나 학습 비용 등의 자료에 대해서는 추가적인 검증이 필요한 상황이지만, 딥시크가 현 시점의 AI 시장에 큰 충격을 안겨다 주었다는 사실은 부정하기 어려워 보입니다.
핵심 기술: 무엇이 딥시크를 특별하게 만드는가?
딥시크는 2023년 11월 DeepSeek Coder를 최초로 공개한 이후, DeepSeek LLM, V2, V3를 거쳐 올해 1월 20일 R1 시리즈를 출시하였습니다. R1 시리즈는 DeepSeek-V3-Base 모델에 강화 학습만 적용하여 추론 성능을 개선한 DeepSeek-R1-Zero, R1 Zero 모델을 Fine-tuning하여 추가적으로 성능을 높인 DeepSeek-R1, Llama/Qwen 등의 오픈소스 LLM을 Distill하여 구현된 DeepSeek-R1-Distill로 구성되어 있습니다. 결국 오늘날 화제가 되고 있는 R1 모델은 기존의 V3 모델과 동일한 아키텍처를 공유한다고 볼 수 있는데요. DeepSeek-R1이 보유하고 있는 파라미터 수는 6,710억 개로 , 지금까지 공개된 오픈소스 AI 모델 중 가장 큰 모델인 것으로 알려져 있습니다.
딥시크 측에서 공개한 자료에 의하면, 딥시크의 언어 모델(V3 or R1 기준)들은 Llama 3.1, GPT-4o 등 기존 언어 모델들에 비해 현저히 낮은 비용으로 학습되었음에도 불구하고, 동등하거나 더욱 뛰어난 수준의 성능을 보여주고 있는데요.


실제로 대부분의 Benchmark에서 우수한 성능을 보이고 있으며, 특히 수학적 추론과 코딩 분야에서 탁월한 모습입니다.
그렇다면, 딥시크는 어떻게 LLM 학습에 소모되는 막대한 비용을 획기적으로 절감할 수 있었을까요? 지금부터는 딥시크의 언어 모델(R1)이 어떻게 학습되었는지, 그 과정에서 어떤 기술들이 적용되었는지 조금 더 자세히 알아보도록 하겠습니다.
DeepSeek-R1 학습 원리
일반적으로, LLM은 아래와 같은 세 단계 과정을 거쳐 학습됩니다.

Source: https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
Language modeling: 방대한 양의 텍스트 데이터(책, 문서, 웹페이지 등)를 사용하여 문장 구조/단어 이해, 문맥 파악 등의 언어 이해 능력을 습득한 Base 모델을 구현하는 과정. 문장 중간에 누락된 단어를 채우거나(Auto-encoding), 주어진 단어들로부터 다음 단어를 예측하게 하는 방식(Auto-regressive)으로 학습 진행.
Supervised Fine-Tuning (SFT): 사용자의 Instruction을 올바르게 이해하고 적절한 해답을 도출할 수 있도록 Base 모델에 추가 학습을 진행하는 과정.
Preference Tuning: 모델이 도출한 해답이 Human preference에 부합할 수 있도록 추가적으로 조정하는 과정. Human preference가 반영된 Reward 모델을 사용하여 강화 학습 진행
위 내용을 바탕으로 DeepSeek-R1의 학습 원리에 대해 살펴보겠습니다.

DeepSeek-R1은 DeepSeek-V3 Base 모델을 Fine-tuning하여 구현된 모델로, 동일한 아키텍처를 공유한다고 설명 드린 바 있는데요. R1은 V3 Base 모델에 약 600,000개의 Reasoning 데이터(ex. 수학, 코딩)와 약 200,000개의 Non-reasoning 데이터(ex. 글쓰기, 번역)를 추가로 학습한 모델이며, 학습 프로세스는 크게 SFT 단계와 강화 학습 단계로 구분할 수 있습니다.
Supervised Fine-tuning(SFT)
SFT 단계에서 주목할 만한 부분은 사용된 약 800,000개의 데이터가 사람의 힘으로 수집된 Labeled 데이터가 아니라, 딥시크의 다른 AI 모델을 통해 생성된 데이터라는 점입니다. Non-reasoning 데이터의 경우 DeepSeek-V3, Reasoning 데이터의 경우 별도의 Reasoning 모델을 통해 생성되었으며, 이 Reasoning 모델(위 그림 기준 Interim reasoning model)을 구현하는데도 별도의 SFT 및 강화 학습 프로세스가 필요했는데요.
딥시크가 이러한 방식을 채택한 이유는 수천 개의 Reasoning 데이터(Instruction과 Output의 Pair로 구성된 Labeled 데이터)로 약 600,000개의 Reasoning 데이터를 생성할 수 있는 모델을 만드는 것이 가능했기 때문입니다. 이 부분은 R1 Zero 모델의 학습 과정과도 밀접한 연관이 있는데요. 관련 내용은 아래에서 강화 학습 관련 내용을 다룰 때 다시 한 번 말씀드리도록 하겠습니다.

Reinforcement Learning
R1 학습에 적용된 강화 학습 기법의 핵심은 **GRPO(Group Relative Policy Optimization)**로, R1 Zero 모델 또한 GRPO를 통해 별도의 SFT 없이도 Reasoning task에 대해 뛰어난 성능을 확보할 수 있었다고 하는데요.

GRPO란 Value 모델을 통해 생성된 답변 평가 후 Reward 모델로 피드백을 제공하는 기존의 강화 학습 구조(Proximal Policy Optimization, 이하 PPO)와는 달리, Value 모델을 사용하지 않는 방식입니다. GRPO는 동일한 Input에 대해 생성된 복수의 Output을 모아 그룹을 만들고, Reward 모델로 측정한 그룹 내 Output들의 평균값을 Baseline으로 설정하여 학습을 진행하며, Value 모델이 없기 때문에 메모리 사용량을 대폭 절감할 수 있는 것이 장점입니다. R1부터는 Reward 또한 사전에 설정된 규칙 기반으로 제공하는 Rule-based 방식으로 변경되면서, Reward 모델까지 사용하지 않게 되어 사실상 학습 과정에서 인간이 개입하는 부분은 거의 사라졌습니다.
아래의 간단한 예시를 통해 어떤 식으로 학습이 이루어지는지 간단히 살펴보도록 하겠습니다.

위 예시는 특정 조건을 충족하는 Python 코드 작성을 요청하는 프롬프트를 입력한 뒤, 아래와 같은 규칙을 설정하여 학습을 진행한 예시인데요.
Python 문법에 맞게 작성된 코드인가?
정상적으로 동작하는 코드인가?
Unit test에 통과했는가? (다른 LLM 사용해 테스트 생성)
동일한 프롬프트에 대하여 생성된 4개의 답변들 중 네 번째 답변이 가장 높은 점수를 기록한 것을 확인할 수 있으며, 이러한 결과를 반영하여 모델이 높은 점수의 결과물을 생성할 수 있도록 업데이트하는 것이 GRPO의 핵심이라고 말씀드릴 수 있습니다.
위의 SFT 파트에서 언급되었던 Interim reasoning model 또한 이러한 방식으로 학습된 모델이라고 볼 수 있습니다.

구체적으로는 R1 Zero 모델을 통해 생성한 수천 개의 Cold-start Reasoning 데이터를 기반으로 V3 Base 모델을 Fine-tuning한 다음, 강화 학습을 진행하여 구현한 모델인데요. 여기에는 R1 Zero의 성능적 한계로 지적되었던 낮은 가독성과 Language mixing 이슈를 해결하는 것을 목적으로 한 Cold-start 데이터에 대한 후처리 작업도 포함되었습니다. 딥시크는 이렇게 학습된 모델을 활용하여 R1 모델의 학습에 필요했던 600,000개의 Reasoning 데이터를 비교적 손쉽게 확보할 수 있었습니다.
결과적으로, R1에 적용된 강화 학습 과정은 아래 그림과 같이 요약될 수 있습니다.

Reasoning: 별도의 Interim reasoning model로 생성된 데이터로 SFT 진행 후 Rule-based 강화 학습 진행
Non-reasoning: V3에서 생성된 데이터로 SFT 진행 후 일반적인 방식의 강화 학습 진행 (Llama와 유사한 방식으로, Safety reward & Helpfulness reward 모델 활용)
아키텍처
MoE(Mixture-of-Experts)
MoE란 하나의 모델이 모든 Task를 처리하는 것이 아니라, 분야별 Task를 담당하는 Expert를 설정하고, Input이 입력되었을 때 관련된 Expert만 활성화될 수 있도록 설계된 구조를 뜻하는데요. LLM에서는 주로 Token에 따라 Expert가 구분되며, Input이 입력되면 Router에 의해 할당된 Expert들을 거치며 Output이 도출되게 됩니다.


실제로 R1의 파라미터 수는 약 6,710억 개이지만, 질문이 들었을 때 활성화되는 파라미터의 수는 340억 개 정도에 불과한 것으로 알려져 있는데요. 딥시크의 MoE 아키텍처는 하나의 Expert가 더욱 세분화된 영역의 지식을 집중적으로 학습하도록 설계되었으며(Fine-grained expert segmentation), 일부 Expert를 항상 활성화되어 기본 지식을 처리하는 Shared expert로 지정한 것이 특징입니다. 이러한 처리 방식으로 인해 딥시크의 LLM은 기존 모델들에 비해 더 적은 메모리를 사용하면서, 빠르고 효율적으로 요청된 결과를 도출할 수 있다고 합니다.
MLA(Multi-Head Latent Attention)
MLA란 Attention 연산이 수행될 때 참조하는 KV 캐시(Key-value cache) 내 정보를 Latent space로 압축하여 저장함으로써 메모리 사용량을 대폭 절감하고 응답 속도를 대폭 향상시키는 기법입니다.
언어 모델의 추론 단계에서 Decoder가 답변을 생성할 때 Attention 함수는 토큰마다 Query 값은 업데이트하지만, Key와 Value는 캐시에 저장되어 있는 정보를 재사용하게 되는데요. Key와 Value가 저장되어 있는 캐시를 KV 캐시라고 부릅니다. KV 캐시는 언어 모델의 추론 속도(답변 생성 속도)를 가속화하는데 크게 기여할 수 있지만, Context window size(언어 모델이 예측을 위해 참조할 수 있는 최대 토큰 수)가 클수록 KV 캐시가 사용하는 메모리 또한 커지기 때문에 LLM에서 Memory bottleneck을 초래할 수 있다는 단점 또한 존재합니다.

MLA는 2024년 5월에 출시된 DeepSeek-V2에서 처음 소개된 개념으로, 딥시크 측에서 발표한 바에 따르면 MLA를 통해 Standard attention 대비 93.3%의 KV 캐시 메모리를 절감하는데 성공했다고 알려져 있습니다.
Implications
다리오 아모데이 앤트로픽 CEO는 2024년 7월 진행한 인터뷰에서 현재 시중에 존재하는 GPT-4o의 학습에는 1억 달러 정도의 비용이 사용되었을 것이라고 예상했습니다. 아모데이 CEO는 현재 개발 중인 LLM의 경우 그 10배인 10억 달러를 학습에 사용하고 있으며, LLM 학습에 투입되는 비용은 향후 3년 내에 1,000억 달러에 달할 것으로 예상했는데요.
오늘날 AI가 점점 더 다양한 Application에 빠르게 도입되고, AI의 성능에 대한 기대 수준 또한 올라가면서 AI 모델의 학습 및 추론에 소모되는 비용 또한 기하급수적으로 증가하고 있습니다. 막대한 개발 및 유지 비용이 AI 연구 및 대중화에 걸림돌로 작용했던 것은 자명하지만, 이러한 비용 부담은 그동안 높은 성능을 확보하기 위해 필연적으로 감수해야 할 요인으로 간주되어 왔는데요.
이러한 상황에서 등장한 딥시크에 대한 시장의 반응은 성능에만 초점을 두었던 AI 시장의 패러다임이 합리적인 수준의 비용으로 우수한 성능을 확보하는 방향으로 변화하고 있음을 시사합니다. 특히, 딥시크가 R1 모델의 소스 코드를 오픈소스로 공개하면서, 추후 성능 및 비용 효율성을 모두 충족할 수 있는 AI 모델을 개발하기 위한 연구가 더욱 활발히 진행될 것으로 전망됩니다.
Optimization for AI: Training → Inference
딥시크의 언어 모델들에도 추론 성능 개선에 기여할 수 있는 기술들이 일부 적용되어 있지만(ex. MLA), 딥시크 기술 경쟁력의 핵심은 학습 단계 최적화를 통한 비용 절감입니다. 반면에, 에너자이의 Optimium은 추론 단계에서의 최적화를 통한 가속화 및 비용 절감을 목표로 하는 AI 추론 엔진인데요.
오늘날 LLM의 학습에 천문학적 비용이 사용되고 있기 때문에 상대적으로 학습 분야가 많은 주목을 받고 있지만, AI 기반 제품 또는 서비스를 제공하는 기업들의 입장에서 결국 승패를 좌우하는 것은 대상 하드웨어 환경 내 추론 성능과 지속적으로 발생하는 추론 비용입니다.
에너자이 팀에서 개발 중인 Optimium은 시중 추론 엔진들 대비 추론 성능 및 유연성 측면에서 명확한 경쟁 우위를 보유하고 있는 제품인데요. 학습된 AI 모델의 정확도를 보존하면서 대상 하드웨어 환경 내 추론 속도를 극대화할 수 있으며, 하나의 제품으로 다양한 하드웨어에 최적화된 형태로 모델을 배포할 수 있도록 지원합니다.
Optimium은 현재 베타 테스트 진행 중으로, 베타 버전에서는 CPU 대상 CNN 계열 모델의 추론 최적화를 지원하고 있으며, 올해 중으로 하드웨어 Side에서는 GPU, 모델 Side에서는 Transformer로 지원 범위를 확장해나갈 계획입니다. AI 모델의 추론 속도 가속화 또는 추론 비용 절감에 대한 니즈가 있으시다면 아래 링크를 통해 신청 부탁드립니다!