AI 모델을 위한 위고비 💉 — 1.58-bit 양자화에 대하여

Optimium

Solution

Company

Resources

Contact

Select Language

Optimium

Solution

Company

Resources

Contact

Select Language

Technology

AI 모델을 위한 위고비 💉 — 1.58-bit 양자화에 대하여

에너자이는 직접 1.58-bit로 주요 AI 모델을 양자화(Quantization-Aware Training)한 뒤, 자체 추론 엔진과 프로그래밍 언어인 Optimium과 Nadya를 활용하여 1.58-bit 전용 커널을 최적 구현하여 배포하는 프로젝트를 적극 추진하고 있습니다. 이번 글에서는Whisper(Small) 모델의 정확도 손실을 최소화하면서 메모리 사용량은 1/4 이하로 줄이고 처리 속도는 2배 이상 향상시킨 프로젝트에 대해 소개합니다.

Hanhim Chang

July 25, 2025

안녕하세요, 에너자이 대표 장한힘입니다. 제가 속한 에너자이는 그 누구보다도 Edge AI에 진심인 팀입니다. 서버나 데이터센터와 비교하면 너무나도 척박한 Edge 디바이스의 컴퓨팅 환경에서도 우리 삶을 이롭게 하는 고성능 AI 기술을 구현하여 “모든 이들이 모든 사물을 통해 최고의 AI를 경험을 할 수 있도록” 하는 것이 저희 비전입니다.

이러한 배경에서 저희 최근 블로그 글에서는 “우리의 삶을 이롭게하는” 대표적인 음성 인식 모델인 Whisper에 대해 소개드린 바 있습니다:

Whisper, 음성 인식 AI의 혁신

해당 글 말미에는 저희가 극단적인 저비트 양자화(Quantization)를 적용한 1.58-bit Whisper 모델을 전시회에서 시연했다는 소식도 전해드렸는데요. 이와 관련하여, 가장 최근 게시물에서는 Edge AI에 필수적인 양자화에 대해 더욱 깊이 들여다보기도 했습니다:

Quantization, ‘가벼운’ AI 모델 구현을 위한 핵심 기술

위의 글에서도 저희가 Sub-4-bit 혹은 극저비트(Extreme Low-bit) 모델들에 집중하고 있다는 이야기로 글을 마무리 했었네요. 이 배경에서 시계를 조금만 더 돌려보면, 저희가 자체 개발한 AI 추론 백엔드인 Optimium에 대해 여러차례 연재한 적도 있습니다!

Optimium 탐구(1): 추론 최적화 기법

Optimium 탐구(8)-Nadya Optimizing Compiler

오늘은 이 세 가지 주제를 하나로 엮어서 현재 저희 팀이 가장 집중하고 있는 1.58-bit 추론 모델에 대한 Why와 How에 대해 이야기해보려 합니다.

요약

음성 인식, 번역 모델 등 대형 언어 모델들의 활용도가 높아지면서, 이러한 모델들을 Edge 디바이스에서도 구현하려는 시도가 많아지고 있습니다.
하지만, Edge 디바이스의 메모리, 전력 그리고 연산 제약을 고려하면 이러한 대형 모델들을 있는 그대로(32-bit, 16-bit) 탑재하는 것은 비현실적입니다. 이에 메모리, 전력 사용량을 최소화할 수 있는 4-bit 미만의 극단적인 저비트(Extreme Low-bit) 양자화의 필요성이 대두되고 있습니다.
그러나 모델의 정확도 손실을 최소화하면서 4-bit 미만으로 양자화하는 것은 기술적으로 매우 어려운 작업입니다. 설령 성공적인 극저비트 양자화를 수행했다고해도 이토록 특수한 정밀도의 모델을 실제 배포할 수 있는 추론 백엔드가 부재하여 많이 활용되고 있지는 못하는 상황입니다.
에너자이는 직접 1.58-bit로 주요 AI 모델을 양자화(Quantization-Aware Training)한 뒤, 자체 추론 엔진과 프로그래밍 언어인 Optimium과 Nadya를 활용하여 1.58-bit 전용 커널을 최적 구현하여 배포하는 프로젝트를 적극 추진하고 있습니다.이번 글에서는Whisper(Small) 모델의 정확도 손실을 최소화하면서 메모리 사용량은 1/4 이하로 줄이고 처리 속도는 2배 이상 향상시킨 프로젝트에 대해 소개합니다.1.58-bit 등 극저비트 추론 기술을 통해 최소한의 메모리와 전력으로 대형 모델을 Edge에서 활용하고 싶은 분들은 언제든 주저없이 저희 팀에 연락 부탁드립니다!

배경

아마 이 글을 읽고 계신 대부분의 분들이 ChatGPT를 비롯한 생성형 AI 서비스들을 거의 매일 사용하고 계실 것이라고 예상합니다. 저 또한 식사 메뉴를 고르는 단순한 고민이나 화가 난 배우자에게 사과하는 방법 등 사소한 영역에서까지 대화형 인공지능 서비스의 힘을 빌리고 있는데요. 그만큼 인공지능 기술은 이미 우리 삶 깊숙이 들어와 있다는 점은 부정할 수 없겠습니다.

이같은 생성형 AI 서비스들은 일반적으로 풍부한 전력과 대규모 연산 자원이 확보된 데이터센터에서 구동됩니다. 연산량이 많은 대규모 언어 모델이나 멀티모달 모델을 실시간으로 제공하기 위해서는 안정적이고 강력한 서버 환경이 필요하기 때문입니다.

하지만 조금만 시선을 돌려보면, 우리가 훨씬 자주 마주하는 인공지능 기술들은 오히려 우리 주변을 둘러싼 기기들에서 작동하는 경우가 많습니다. 스마트폰을 켤 때마다 사용하는 안면 인식이나 음성 비서 모델들, 차량 주행의 편의를 제공하는 운전자 지원 시스템 등은 대부분 서버가 아닌 디바이스 수준에서 동작합니다. 즉, 이러한 모델들은 ‘클라우드 너머’가 아니라 ‘내 손 안의 기기’에서 실행되고 있는 것이죠. 하지만 이 작디 작은 디바이스에서 거대한 데이터센터를 통해 제공되는 ‘최고의 AI 경험’을 재현하는 일은 기술적으로 굉장히 어려운 숙제입니다.

최근에는 기존의 CNN 기반 비전 모델에 국한되지 않고, 생성형 AI 기반의 언어 모델까지 디바이스 환경에서 동작시키려는 시도가 활발하게 이뤄지고 있습니다. 하지만, 디바이스에서는 CPU, GPU, DRAM 등 하드웨어 자원이 제한적이기 때문에 이러한 대규모 모델의 효율적인 실행에는 여러 한계가 존재하는 상황입니다. 클라우드 환경에서는 고성능 서버를 통해 수십 GB 이상의 메모리와 다수의 병렬 연산 장치를 활용할 수 있지만, 온디바이스 환경에서는 메모리 용량 및 대역폭, 전력 소비, 실시간성 등의 제약이 큽니다. 특히, 기존의 CNN 모델과 달리 대형 언어 모델(LLM: Large Language Model)은 메모리 사용량이 크고 데이터 이동량도 많아서 메모리 I/O 병목이 전체 연산 속도의 주요 제한 요소로 작용하고 있습니다.

뿐만 아니라, 단일 AI 워크로드를 위한 전용 시스템이 아닌 멀티태스킹 환경에서 작동해야하기 때문에 어떠한 경우에는 8-bit, 4-bit 등 일반적인 수준의 양자화로는 부족한 경우도 많습니다. 이에 극단적인 경량화와 최적화는 성공적인 Edge AI 구현을 위한 필수적인 과제로 부상하고 있습니다.

이러한 배경에서 에너자이는 1.58-bit 양자화 기술을 Edge AI 프로젝트에 적극 활용하고 있습니다. 이번 글에서는 다소 생소할 수 있는 1.58-bit로 주요 AI 모델을 양자화한 뒤, 자체 추론 엔진과 프로그래밍 언어인 Optimium과 Nadya를 활용해 1.58-bit 전용 커널을 최적 구현하여 배포한 프로젝트 사례를 소개합니다. 또, 왜 에너자이만이 이러한 극한의 효율성을 가진 모델을 제공할 수 있는지에 대해 설명합니다.

1.58-bit 양자화(Quantization)

양자화(Quantization)는 신경망 모델의 가중치(Weight)와 활성값(Activation)을 정밀도가 낮은 숫자 표현으로 변환하여 모델의 크기와 연산량을 줄이는 기술입니다. 일반적으로 AI 모델의 학습과 추론은 32-bit 부동소수점(Floating Point)으로 표현된 값을 이용하는데 이를 8-bit 정수(int8) 혹은 그 이하의 정수로 변환함으로써, 메모리 사용량을 줄이고 연산 속도를 높이며, 전력 소모도 감소시킬 수 있습니다. 이는 특히나 Memory-bound의 성격을 가지는 LLM에 있어서 크게 효과적입니다. 양자화에 대한 자세한 내용은 저희 이전 블로그 글에서도 소개된 적이 있습니다.

해당 게시물에서는 사후 양자화(PTQ: Post-Training Quantization)와 양자화 인식 학습(QAT: Quantization-Aware Training)을 비교한 내용도 존재합니다. 다시 한 번 요약하면 PTQ는 학습이 완료된 후에 모델을 양자화하는 방식이고 QAT는 양자화를 고려하여 학습 자체를 진행하는 방식입니다. PTQ는 구현이 간단하고 빠르게 적용할 수 있는 장점이 있으나 정확도 손실이 상대적으로 클 수 있으며, QAT는 양자화 오차를 학습 과정에서 보정할 수 있어서 정확도 유지에 유리한 부분이 있습니다.

오늘 다룰 1.58-bit 양자화는 가중치를 {-1, 0, 1}의 세 가지 값으로 근사하여 표현하는 극한의 저비트 양자화 방식입니다. 일반적인 int8 또는 int4 양자화에서는 256 또는 16 개의 정수 표현 범위를 사용하지만, 1.58-bit 양자화에서 단 3개의 정수 값만을 사용하여 Weight을 근사합니다. 이로 인해 모델의 압축률은 극대화되며, 특히 연산 시 부호 기반의 간단한 연산 구조로 대체가 가능하기 때문에 하드웨어 구현 측면에서도 이점이 존재합니다.

여기서 1.58이라는 표현은 실제 비트 수를 의미하기보다는, log₂(3) ≈ 1.58 이라는 정보 이론적인 관점에서의 표현 능력을 나타냅니다. 실제 구현에서는 각 weight를 -1, 0, 1 중 하나로 정규화된 값으로 근사하게 되며, 이때 사용하는 수식은 다음과 같습니다:

저희는 Edge AI 어플리케이션에 실제 활용하기 위하여 OpenAI가 개발한 Transformer 기반의 음성 인식 모델인 Whisper 모델에 양자화 인식 학습(QAT)을 수행했습니다. 그리고 이 과정을 통해 QAT는 단순한 PTQ보다 훨씬 정교한 접근 방식으로 학습 중에 양자화 효과를 시뮬레이션하여 모델이 양자화 오차에 적응하는 것을 확인할 수 있었습니다.

Whisper는 아래 표와 같이 다양한 크기의 변형 모델로 제공됩니다:

Source: https://huggingface.co/openai/whisper-large-v3

다양한 종류의 음성 인식 Whisper 모델을 2-bit PTQ 했을 때 단어 에러율(WER: Word Error Rate, %)은 다음과 같았습니다. 참고로 WER은 단어 단위의 에러율을 측정하는 지표로, 하나의 단어라도 오탐지되면 에러로 간주되며 수치가 낮을수록 성능이 높음을 의미합니다:

비어 있는 칸의 경우 무한히 반복되는 문장을 생성하는 등 에러율을 구할 수 없을 정도로 성능이 저하된 경우입니다.

이러한 성능 저하는 낮은 정밀도로 인해 양자화된 가중치 값이 원래의 가중치 분포를 제대로 반영하지 못하고, 이로 이해 weight space 내의 최적 해에서 멀어지게 되기 때문으로 해석됩니다. 이에 반해, QAT는 학습 과정에서 이러한 오차를 고려하여 가중치와 활성값이 양자화된 상태를 반영하면서 손실을 최소화하도록 모델 파라미터를 조정합니다. 이에 아직까지는 1.58-bit처럼 표현 범위가 극도로 제한된 경우에는 QAT를 통해서만 충분한 성능을 확보할 수 있다고 판단되며, 이에 이번 게시글에서 소개할 저희 1.58-bit Whisper 모델의 경우에도 이 접근 방식을 택하여 Edge AI 구현을 위한 실용성을 확보할 수 있었습니다.

저희 1.58-bit Whisper(Small) 모델은 약 4만 시간 분량의 음성 데이터를 기반으로 양자화 인식 학습(QAT)을 거쳤습니다. 학습에 사용된 데이터는 공개 데이터셋인 LibriSpeech, Common Voice 등을 활용했습니다. 참고로, 데이터 양이 적지 않은만큼 QAT를 위해 넉넉한 학습 인프라가 필요한 부분이 저희 크나큰 고민이었는데요. 너무나도 시기적절하게 저희가 참여했던 Google for Startups: AI First 프로그램을 통해 Google Cloud의 Credit과 기술 지원을 받을 수 있었습니다.

2025년 '구글 포 스타트업 액셀러레이터: AI 퍼스트' 데모데이 현장을 소개합니다!

결론적으로는 다수의 H100 인스턴스와 수십 TB의 SSD를 이용하여 마음 놓고 QAT를 수행할 수 있었고, 이를 위해 약 3주간 사용한 Credit만 약 1.5억원 가량이었습니다. 저희에게 꿈 같았던 시간을 허락해주신 Google 팀에 다시 한 번 진심으로 감사하다는 말씀을 드립니다 🙇‍♂️

이번 QAT에서는 약 4만 시간 분량의 오픈 데이터셋을 사용했지만, 원본 Whisper 모델은 약 68만 시간 분량의 음성-텍스트 Pair로 학습된 것으로 알려져 있습니다. 만약 원본 모델 학습에 사용된 데이터를 모두 활용할 수 있었다면 더 다양하고 높은 성능의 모델 구현도 가능했겠죠? 그러니 혹시 OpenAI 관계자 분께서 혹시 이 글을 보고 계신다면 언제든 연락 부탁드립니다 — 꼭 협업할 기회가 있으면 좋겠습니다 🙏

1.58-bit 전용 커널 구현

1.58-bit의 QAT를 성공적으로 수행하셨나요? 축하합니다! 이제 절반 오신겁니다 🫠 이제 엣지 디바이스에서 AI 모델을 실행하기 위해 필수적인 추론 엔진으로 전용 커널을 구현하는 일이 남아 있겠습니다.

일반적으로 모델 학습에 사용되는 PyTorch나 TensorFlow 같은 프레임워크는 학습 기능에 최적화되어 있으며, 다양한 서드파티 종속성과 복잡한 런타임 환경을 요구하기 때문에 메모리 사용량이 크고, Python 환경이 지원되지 않는 엣지 및 임베디드 디바이스에서는 실행이 불가능하거나 매우 비효율적입니다. 이에 실제 배포 환경에서는 추론 전용 엔진이나 백엔드 라이브러리를 사용하는 것이 일반적이며, 대표적인 예로 Google의 TensorFlow Lite (관련 에너자이 블로그 글)나 최근 언어 모델에서 많이 활용되는 llama.cpp, whisper.cpp 같은 프로젝트들이 있겠습니다. 이러한 엔진들은 학습된 모델을 최적화하여 메모리와 연산 자원이 제한된 환경에서도 안정적인 추론을 가능케합니다.

문제는 이러한 프로젝트들 중에서 1.58-bit 처럼 특수한 정밀도를 지원하는 엔진이 부재한다는 점입니다. 이 경우, 해당 프로젝트가 다양한 모델의 4-bit 미만 표현을 지원해주기를 기다리거나 직접 전용 커널을 구현하는 방법 밖에는 없겠습니다. 다행히도, 저희는 자체 추론 엔진인 Optimium과 자체 프로그래밍 언어인 Nadya를 보유하고 있기에 이를 활용했습니다!

저희가 개발한 Optimium은 PyTorch 및 TensorFlow Lite로 학습된 모델을 입력으로 받아서, 다양한 연산자 병합(Operation Fusion) 및 Graph-level 최적화를 수행한 후 타겟 디바이스에 최적화된 모델을 출력하는 고성능 추론 엔진입니다. 이 Optimium은 마찬가지로 자체 개발한 추론 최적화에 특화된 언어인 Nadya를 기반으로 작동하며, MLIR(Multi-Level Intermediate Representation) 기반의 Nadya 컴파일러를 통해 다양한 Optimization Pass를 거쳐 .so 형태의 공유 라이브러리로 모델을 빌드합니다. 특히, Nadya는 메타프로그래밍 기능을 적극 활용하여 타겟 디바이스에서 측정된 실제 성능 프로파일 결과에 따라 코드 생성을 동적으로 수행하며, 이를 통해 최적의 실행 성능을 도출합니다. 자세한 내용은 Optimium과 Nadya에 대해 연재한 저희 과거 블로그 글을 통해 확인하실 수 있습니다.

Arm 기반의 엣지 디바이스는 명목상 동일한 CPU 아키텍쳐(ex. Cortex-A73 등)을 사용하더라도 제조사에 따라 SIMD 명령어 세트(fp16, NEON 등)의 지원 여부가 상이하고, 메모리 대역폭 및 캐시 구조 등도 달라질 수 있습니다. 이렇게 이질적인 하드웨어 환경에 대응하기 위해서는 커널을 일일이 수동으로 작성하고 최적화하는 기존 방식으로는 한계가 있겠습니다. 이에 반해 Optimium은 Nadya 언어 기반의 추상화 및 자동 코드 생성 시스템을 통해 동일한 커널을 다양한 하드웨어 환경에 유연하게 이식할 수 있으며, 내부적으로는 exploit-explore trade-off를 고려한 탐색 알고리즘을 통해 수많은 커널 후보 중 최적의 버전을 자동으로 선별해냅니다. 특히, 1.58-bit의 커널은 일반적인 GEMM과는 구조 자체가 다르기에 전용 커널의 최적화가 필수적이겠습니다. 이에 저희는 열심히 QAT한 1.58-bit의 Whisper 모델에 대해 Optimium을 활용하여 커널을 직접 정의하고 컴파일하여 결과를 도출하였습니다. Optimium, 참 유연하고 유용하죠?

결과

여러 버전의 Whisper 모델 중에서도 Whisper Small 모델은 성능과 효율성 간 균형이 뛰어나고, 실제 Edge 환경에서도 음성 인식 용도로 활용 가능한 상한선에 해당하는 모델로 간주됩니다. 이에 본 글에서 소개하는 1.58-bit 양자화는 이 Small 모델에 적용되었습니다.

아래 보실 Benchmark 결과는 저희 자랑스러운 파트너사인 Synaptics의 Astra SL1680 보드에서 측정되었습니다. 구체적으로는 해당 플랫폼에 탑재된 Arm Cortex-A73 쿼드코어 프로세서에서의 추론 결과입니다.

비교 분석을 위해 Baseline 모델로는 float16 버전의 Whisper Small 모델을 사용하였고, 양자화 성능 비교를 위해 PTQ 기반의 4-bit 모델과 저희가 수행한 QAT 기반의 1.58-bit 모델을 함께 평가했습니다. 또한, Baseline 모델의 추론 프레임워크로는 Whisper를 On-device로 실행하기 위해 가장 널리 활용되는 백엔드 구현체인 whisper.cpp 을 사용했습니다.

모델의 정확도는 LibriSpeech 데이터셋에 WER를 기준으로 평가했습니다. 저희 1.58-bit QAT 모델은 WER 손실이 원본 모델 대비 약 0.3% 수준으로 적었고, 이를 통해 QAT 기반의 극단적 양자화가 정확도를 유지한 채로 모델을 경량화할 수 있음을 확인하였습니다.

아래는 Whisper Small 모델의 각 양자화 방식별 추론 성능을 프로파일링한 결과입니다. 해당 결과는 길이 9초의 음성 데이터를 입력으로 사용했고, 추론 중 측정된 최대 메모리 사용량(Peak Memory)은 Linux 커널의 time 명령어를 이용해 측정했습니다. 또한, 추론 지연 시간(Latency)은 C++ chrono 라이브러리를 통해 계산했습니다.

결과적으로, 1.58-bit QAT 모델은 float16 대비 최대 4배까지 메모리 사용량을 줄일 수 있었고, Latency 또한 약 2배 가까이 단축되었습니다. 4-bit PTQ 모델은 Latency 측면에서 가속 효과가 꽤 있었지만, 여전히 1.58-bit 모델에 비해서는 메모리를 2배 이상 사용함을 확인할 수 있습니다.

Edge AI 환경에서는 단일 워크로드 뿐 아니라 AI를 포함한 여러 기능이 병렬적으로 동작해야 하면서도, 대부분의 디바이스가 수 GB 미만의 제한된 메모리 자원만을 가지고 있기 때문에 이러한 최적화는 실직적인 시스템 안정성과 사용자 경험에 직접적인 영향을 미칠 수 있습니다.

메모리 사용량과 속도와 더불어 Edge AI 도입에 필수적으로 고려해야하는 요소는 바로 전력 소모량입니다. 이에 전력 측면에서의 비교 측정도 진행해보았는데요. 동일한 플랫폼(SL1680 Cortex-A73)에서 비교한 결과 whisper.cpp로 작동한 16-bit Baseline 모델은 12초 분량의 음성 입력을 처리하는 과정에서 0.0213Wh의 전력을 사용한 반면, Optimium으로 구동된 1.58-bit 모델은 동일한 입력을 처리하는 것에 0.0088Wh의 전력만을 소모했습니다. Optimium과 1.58-bit 양자화를 통해 원본 모델 대비 40% 수준의 전력만을 사용하여 동일한 결과를 도출했다고 볼 수 있겠습니다.

백문이 불여일견이죠. 위에 소개된 1.58-bit 모델이 실작동하는 데모 영상을 공유드립니다:

위 영상은 지난 5월 Santa Clara에서 개최된 Embedded Vision Summit에서 본 블로그에서 다룬 1.58-bit Whisper 모델을 실제 시연한 영상인데요. 방문해주신 많은 분들이 1.58-bit 모델에 대한 이야기를 들어는 봤지만 실제 작동하는 것은 처음 본다며 신기해하셨습니다. 또한, 해당 행사에서는 저희 Optimium이 ‘2025 Product of the Year’로 선정되는 쾌거도 있었습니다.

The first day of the 2025 Embedded Vision Summit main program was one for the books

한 가지 더 자랑하자면, 지난 6월에는 1.58-bit QAT & Kernel 구현 관련 내용으로 대한전자공학회 하계학술대회에서 ‘해동 산업체 우수 기술 논문상 — 최우수상’을 수상하기도 했습니다!

오늘 소개드린 Whisper 등의 음성 인식 모델들은 Edge AI의 주요 인터페이스 중 하나입니다. 여기에 Natural Language Understanding(NLU) 모델을 이어 붙인다면 세탁기, 에어컨 등의 기기를 음성으로 제어하는 Voice Control 솔루션에 활용될 수 있고, 언어 모델과 Text-to-Speech(TTS) 모델을 이어 붙인다면 기기 작동법을 친절히 설명해주는 Voice Assistant 파이프라인을 구현할 수 있을 것입니다. 이러한 구성을 생각한다면 각각의 모델이 가능한 많이 경량화되고, 최적화되는 것이 더더욱 중요하겠죠?

이미 에너자이는 Whisper 뿐만 아니라 다양한 모델을 극저비트로 구현하는 프로젝트를 추진하고 있습니다. 관련하여 다음 글에서는 1.58-bit Whisper와 NLU 모델을 Raspberry Pi 5 CPU에 탑재하여 음성으로 스마트 조명을 제어하는 음성 제어 어플리케이션 구현에 대한 소개를 드리도록 하겠습니다.

에너자이는 앞으로도 저희만이 구현할 수 있는 극저비트(Extreme Low-bit)의 모델을 중심으로 저희 고객사들이 최소한의 메모리와 전력만으로도 다양한 디바이스에서 최고의 AI 기술을 경험할 수 있도록 지원할 예정이니 많은 관심 부탁드리며 관련된 문의사항은 언제든 편하게 메일주시면 감사하겠습니다! hanhim.chang@enerzai.com

Optimium

Solutions

Company

Resources

ENERZAi

Business number: 246-86-01405