작지만 강력한 혁신, 1.58-bit 양자화 기술 심층 해부

Optimium

Solution

Company

Resources

Contact

Select Language

Optimium

Solution

Company

Resources

Contact

Select Language

Technology

작지만 강력한 혁신, 1.58-bit 양자화 기술 심층 해부

안녕하세요. 에너자이 강창범입니다. 이전 게시물에서 저희는 AI 모델 양자화 기술의 전반적인 동향을 살펴보고 저희가 1.58-bit 양자화와 커스텀 커널을 Whisper 모델에 적용한 사례를 공유드렸는데요. 오늘은 1.58-bit 양자화와 BitNet 아키텍처에 대한 분석과 함께 더욱 깊이 있는 내용을 다뤄보고자 합니다.

Changbeom Kang

August 11, 2025

안녕하세요. 에너자이 강창범입니다. 이전 게시물에서 저희는 AI 모델 양자화 기술의 전반적인 동향을 살펴보고 저희가 1.58-bit 양자화와 커스텀 커널을 Whisper 모델에 적용한 사례를 공유드렸는데요. 오늘은 1.58-bit 양자화와 BitNet 아키텍처에 대한 분석과 함께 더욱 깊이 있는 내용을 다뤄보고자 합니다.

BitNet: 1-bit 트랜스포머의 혁신

BitNet은 마이크로소프트가 2023년 발표한 혁신적인 1-bit 트랜스포머 아키텍처로, LLM의 효율성 한계를 돌파하기 위한 대담한 시도입니다. 기존 Transformer와 동일한 구조를 유지하면서도, 기존의 Linear 레이어를 BitLinear로 대체하여 가중치를 1-bit로 양자화합니다. BitNet에 대한 보다 자세한 내용은 아래 논문에서 확인하실 수 있습니다.

BitNet: Scaling 1-bit Transformers for Large Language ModelsThe increasing size of large language models has posed challenges for deployment and raised concerns about…arxiv.org

특히 주목할 만한 부분은 BitNet b1.58 모델인데요. BitNet b1.58은 가중치를 {-1, 0, +1} 세 가지 값 만으로 표현하는 ternary 양자화를 적용한 모델로, 실질적으로 1.58-bit(log₂3)의 정보량을 가집니다. 이는 기존 FP16 모델 대비 메모리 사용량을 90% 이상 절감하면서도 놀라운 성능을 유지합니다.

BitLinear: 핵심 연산의 재설계

BitNet의 핵심은 BitLinear 연산입니다. 이 연산은 다음과 같은 방식으로 동작합니다:

가중치 이진화: Sign 함수를 통해 가중치를 +1 또는 -1로 변환
중앙화(Centralization): 가중치를 zero-mean으로 만들어 표현 용량 증대
스케일링: β 파라미터를 통한 실수값과 이진값 간 오차 최소화
활성화 양자화: 8-bit absmax 양자화를 통한 W1A8 구조 채택

흥미롭게도 BitNet은 전체 정밀도 모델과 유사한 Scaling law를 보여줍니다. 특히 모델 크기가 커질수록 FP16 대비 성능 격차가 줄어드는 특성을 보이는데, 이는 극저비트 양자화가 단순한 압축 기법이 아닌 새로운 컴퓨팅 패러다임임을 시사합니다.

BitNet의 또 다른 주목할 특징은 에너지 효율성입니다. 7nm 공정 기준으로 BitNet은 FP16 Transformer 대비 곱셈 연산에서 약 40배, 덧셈 연산에서 약 3배의 에너지를 절감할 수 있습니다. 30B 파라미터 모델의 경우 총 에너지 소비량을 38.8배나 줄일 수 있어, 배터리 기반의 엣지 디바이스에서도 실용적인 LLM 배포가 가능해집니다.

극저비트에서 QAT의 필수성

최근 여러 양자화 방식의 발달로 8-bit를 넘어 4-bit까지도 **Post-Training Quantization(PTQ)**를 통한 양자화로 좋은 성능을 낼 수 있습니다. 그러나 4-bit 이하의 극저비트 양자화에서는 PTQ 대신 Quantization-Aware Training(QAT)가 필수적입니다. 그 이유를 데이터와 함께 자세히 살펴보겠습니다.

PTQ는 사전 훈련된 모델에 직접 양자화를 적용하는 방식인데요. 4-bit까지는 준수한 성능을 보이나, 2-bit 이하로 내려가면 급격한 성능 저하가 발생합니다. 실제로 2-bit 이하 PTQ가 AI 모델의 정확도에 미치는 영향을 검증하기 위해 자체적으로 실험을 진행한 결과, Whisper Small 모델을 2-bit로 PTQ 양자화했을 때 WER이 37.06%까지 치솟는 것을 확인했습니다.

이러한 결과는 ParetoQ 논문에서도 확인할 수 있습니다.

ParetoQ: Scaling Laws in Extremely Low-bit LLM QuantizationThe optimal bit-width for achieving the best trade-off between quantized model size and accuracy has been a subject of…arxiv.org

ParetoQ 연구에서 특히 흥미로운 발견은 16-bit 모델을 양자화 훈련할 때 나타나는 가중치 변화 패턴입니다. 아래 그림은 16-bit 모델에 대한 QAT를 진행하였을 때 가중치의 변화를 나타낸 그림인데요, 3-bit까지는 가중치 변화량이 10–20% 수준에 불과하지만, 1-bit, 1.58-bit, 2-bit에서는 40% 이상의 극적인 변화를 보입니다.

이는 앞선 포스팅에서 살펴보았던 QAT 과정에서 발생하는 최적화 지형(optimization landscape)의 변화와 관련이 있습니다:

3~4-bit: 기존 가중치 근처에서 미세 조정하는 “보상(compensation)” 메커니즘
1~2-bit: 완전히 새로운 표현을 학습하는 “재구성(reconstruction)” 메커니즘

QAT는 이 과정에서 Fake Quantization을 통해 양자화 오차를 시뮬레이션하고, 모델을 가중치 변화에 둔감한 Wide Minima로 수렴시켜 양자화 과정에서 발생하는 성능 손실을 최소화하는데요. 보다 자세한 내용은 아래 링크 참고 부탁드립니다.

Quantization, ‘가벼운’ AI 모델 구현을 위한 핵심 기술안녕하세요. 에너자이 사업개발팀 우성민(Sungmin Woo)입니다. 지난 게시물에서도 간단히 소개드렸지만 자동차, 스마트폰, 로봇, 가전제품 등 다양한 디바이스에 AI 모델이 적극적으로 도입되는 추세이며, 이로…medium.com

1.58-bit 특화 LUT 기반 커널의 이해

극저비트 양자화 모델의 실용적 배포에서 가장 큰 걸림돌은 하드웨어 호환성입니다. 조금 더 자세히 설명드리면, 혼합 정밀도 행렬 곱셈(mpGEMM)을 효율적으로 처리하는 것이 1.58-bit 양자화의 가장 큰 도전이라고 볼 수 있습니다. 기존 하드웨어는 동일한 bit폭의 대칭적 연산(예: W16A16, W8A8)에 최적화되어 있어, W1.58A16과 같은 비대칭 연산을 직접 지원하지 않습니다. 현재 대부분의 시스템은 dequantization 방식을 사용하는데, 이는 저비트 가중치를 다시 고정밀도로 변환한 후 연산하는 방식입니다. 문제는 비트수가 줄어들수록 dequantization 오버헤드가 증가한다는 점입니다. 실제로 4-bit에서 1-bit로 갈수록 레이턴시가 오히려 증가하는 현상을 관찰할 수 있습니다.

T-MAC: 패러다임의 전환

T-MAC은 이 문제를 Look-Up Table(LUT) 기반 비트별 연산으로 근본적으로 해결합니다.

T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on EdgeThe deployment of Large Language Models (LLMs) on edge devices is increasingly important to enhance on-device…arxiv.org

핵심 아이디어는 데이터 타입 중심의 연산을 비트 단위 연산으로 변환하는 것입니다:

A × W = A × (Σ(2^i × Wi)) = Σ(2^i × A × Wi)

즉, n-bit 가중치 행렬을 n개의 1-bit 행렬로 분해하고, 각각을 순차적으로 처리한 후 결과를 합산하는 방식입니다.

이렇게 수식으로 보면 이해가 어렵기 때문에 1.58-bit whisper에 사용된 실제 예시를 통해서 자세히 알아보도록 하겠습니다. 임의의 연속된 4개의 입력 a, b, c, d에 대하여 1.58-bit 가중치는 {-1, 0, 1}의 세가지 중 하나이기 때문에 서로 곱해질 수 있는 가능한 조합은 3⁴=81이 됩니다. 따라서 81개의 원소를 갖는 표를 계산하여 만들어두고 weight는 4개를 묶어 {-1, 0, 1} 대신 표에 대응되는 인덱스를 저장하였다가 표에서 읽어서(look-up table) 계산을 진행할 수 있습니다. 이를 통해 원래는 서로 다른 정밀도(8-bit, 1.58-bit)를 갖는 입력과 가중치의 곱과 덧셈으로 비효율적으로 이루어지던 연산을 8-bit의 입력의 덧셈과 뺄셈 만으로 계산된 표에서 값을 읽어오는 보다 효율적인 연산으로 변환할 수 있습니다.

하지만. 아직 몇 가지 문제가 존재합니다. 8-bit 입력을 덧셈과 뺄셈을 하기 위해서는 overflow를 방지하기 위하여 16-bit 의 데이터 타입이 필요하며, 81가지의 값을 저장하려면 16-bit*81=1296-bit 의 큰 테이블이 필요합니다. 그러나 현재 하드웨어에서는 이렇게 큰 테이블을 한 번에 look-up할 수 없습니다. 예를 들어, 일반적으로 ARM 아키텍처에서 한 번에 look-up할 수 있는 테이블의 최대 크기는 8-bit 원소 기준으로 128-bit 또는 256-bit인데요. 따라서, 1296-bit 크기 테이블일 경우 2개의 8-bit*81=648-bit 테이블로 나눈 뒤, 한 테이블당 세 번씩(256-bit*3=768-bit>648-bit) 총 여섯 번의 look-up을 진행해야 합니다. 아무리 look-up이 효율적으로 이루어질 수 있다고 하더라도, 이렇게 많은 횟수의 look-up을 수행하면서, 1296-bit의 긴 테이블을 레지스터에서 유지하는 것은 비효율적입니다.

여기서 한 가지 트릭을 통해 이 문제를 해결할 수 있는데요. 1.58-bit 가중치 {-1, 0, 1}에서 1과 -1이 서로 부호(sign)만 반대이고 0은 부호와 상관이 없으므로, {0, 1}에 대한 조합을 구하고 필요에 따라 부호만 바꾸어 {-1, 0, 1} 전체에 대한 조합을 표현할 수 있습니다. 예를 들어 a+b=16이었다면 -a-b=-16일 테니까요!

이 아이디어를 이용하면 테이블을 구성하는 원소의 개수를 3⁴=81개에서 2⁴=16개로 획기적으로 줄일 수 있습니다. 줄어든 테이블의 크기는 16-bit16=256-bit인데요. ARM 아키텍처 기준으로 8-bit16=128-bit 테이블은 한 번에 look-up이 가능하므로, 양수/음수에 대하여 각각 2번의 look-up을 수행하면, 총 4번의 look-up만으로 전체 테이블을 탐색할 수 있습니다.

결과적으로, look-up 횟수를 6회에서 4회로 33% 절감할 수 있으며, 레지스터를 사용하는 테이블의 크기도 256-bit로 대폭 축소되어 보다 효율적으로 하드웨어 자원을 활용할 수 있습니다.

1.58bit kernel의 효용성

1.58bit 양자화의 실제 성능을 검증하기 위해 Raspberry Pi 5에서 정밀도별 성능 분석을 수행했습니다.

하드웨어 사양:

프로세서: ARM Cortex-A76 4코어 2.4GHz
메모리: LPDDR4X-4267 8GB
캐시: L1 64KB + L2 512KB (코어당), L3 2MB (공유)
메모리 대역폭: 이론상 17.1GB/s (실제 측정치 8–12GB/s)
테스트 환경: 4스레드 활용

우선은 GEMV(General Matrix-Vector multiplication) 연산에 대한 벤치마크 결과입니다. GEMV는 LLM의 auto-regressive한 decoding 환경에서의 성능을 엿볼 수 있는 연산이며 LLM 추론 환경에서 메모리 바운드(memory-bound)되는 연산으로 잘 알려져 있습니다.

위 그래프는 (n, n) 행렬과 (n, 1)의 벡터를 곱하는 GEMV연산에서 차원(n)을 증가시켜가며 각 정밀도마다 연산시간을 측정한 그래프입니다. x축은 행렬과 벡터의 차원 n에 해당하며, y축은 연산의 걸린 시간(us)를 나타냅니다. 연산의 정밀도(precision)가 w1.58 < w8 < w16 < w32 낮을 수록 성능이 좋은 것을 알 수 있으며, 이 격차는 차원이 증가할 수록 벌어집니다. 즉 메모리 바운드 되는 연산의 특성을 잘 보여주고 있는데요. 위 데이터를 이용하여 메모리 대역폭(memory bandwidth)를 계산하면 아래와 같습니다.

위 그래프는 (n, n)행렬과 (n, 1)의 벡터를 곱하는 GEMV연산에서 차원(n)에 따라 각 정밀도 연산의 메모리 대역폭(GB/s)을 나타낸 것입니다. 차원(n)이 증가할수록 모든 정밀도에서 RPi 5의 메모리 대역폭의 실측정 한계인 8~12GB/s정도로 수렴하는 것을 확인할 수 있습니다. 여기서 특이한 점은 각 정밀도별로 메모리 대역폭 한계를 넘어서는 구간이 존재하는데요, 이 구간은 cache hit의 영향이 지배적인 구간입니다. 실제로 각 정밀도별로 RPi5의 cache(L2+L3=4MB)를 포화시킬 수 있는 차원을 계산해보면 아래와 같습니다.

w32: 1000
w16: 1414
w8: 2000
w1.58: 4000

각 정밀도별로 cache가 포화되는 구간이 메모리 대역폭이 급격히 감소하여 RPi5의 메모리 대역폭으로 수렴하는 구간과 거의 일치하는 것을 확인할 수 있습니다. 결과적으로 GEMV의 벤치마크의 결과는 LLM의 auto-regressive한 디코딩 환경이 메모리 바운드라는 일반적으로 알려진 결과와 일치하며, 메모리 바운드되는 연산에서 낮은 정밀도를 사용하는 1.58-bit 커널은 보다 높은 정밀도를 사용하는 커널에 비해서 굉장히 좋은 성능을 나타낸다는 것을 보여줍니다.

1.58-bit 커널은 메모리 바운드가 아닌 연산 바운드(compute-bound)되는 프리필(pre-fill) 또는 인코더 환경에서도 준수한 성능을 보여줍니다. 이러한 결과는 아래 GEMM(General Matrix-Matrix multiplication) 벤치마크에서 확인할 수 있으며, GEMV 벤치마크와 동일한 상황에서 (1, n)이던 벡터를 (1024, n)의 행렬로 확장하여 측정하였습니다.

1.58-bit 커널은 비록 혼합 정밀도를 활용하지만 LUT를 통해서 효율적으로 연산이 이루어지기 때문에 단일 정밀도 연산을 활용하는 다른 커널들과 비교하더라도 좋은 성능을 보여주고 있습니다.

1.58-bit Whisper

앞서 살펴본 1.58-bit 커널과 에너자이의 추론 최적화 엔진인 Optimium을 활용하여 Whisper모델을 성공적으로 1.58-bit로 개발할 수 있었습니다. 아래에 공유 드릴 성능 수치들은 Synaptics의 SL1680에서 측정되었으며, 사양은 아래와 같습니다.

프로세서: ARM Cortex-A73 4코어 2.1GHz
메모리: LPDDR4X-3733 8GB
캐시: 64KB I-cache and 32KB D-cache per core, 1MB shared L2
테스트 환경: 4스레드 활용

WER 성능: 정확도 손실 없는 극저비트 음성 인식

에너자이가 개발한 1.58bit Whisper Small 모델의 성능을 다양한 정밀도와 비교 분석했습니다. 왼쪽부터 기준 모델인 FP16, Q4(4bit) PTQ, 1.58-bit QAT, 2-bit-8group PTQ 모델의 WER(Word Error Rate) 결과입니다. 놀랍게도 에너자이의 1.58-bit 모델은 FP16 대비 단 0.39%p의 미미한 성능 저하만을 보였습니다. 이는 4-bit 모델과 거의 동등한 수준으로, FP16 대비 8배 압축되었다는 점을 고려할 때 매우 고무적인 결과입니다. 특히 2-bit-8group PTQ 방식(14.07% WER)에 비해 명확히 뛰어난 성능을 입증하였으며, 이는 앞서 설명한 극저비트에서의 QAT 필요성을 실증적으로 뒷받침하는 결과입니다.

메모리 사용량: 극적인 효율성 향상

1.58-bit 양자화 모델의 가장 큰 장점은 가중치의 메모리 사용량을 비약적으로 절감하여 디코딩 성능 뿐만 아니라 메모리가 부족한 엣지 디바이스에서도 구동 가능하다는 점입니다. 실제로 FP16, Q4(4-bit), 1.58-bit의 메모리 사용량을 분석해본 결과, 1.58-bit 모델은 FP16 대비 77.3%의 메모리 절감을 달성했습니다. 특히 주목할 점은 모델 가중치의 메모리 사용량이 487MB에서 89.2MB로 81.6% 감소했다는 점으로, 이는 1.58-bit 양자화를 통해 메모리 제약이 있는 엣지 환경에서 더 큰 모델을 활용하여 성능을 끌어올리거나, 더 긴 시퀀스 처리가 가능함을 의미합니다.

실제로 whisper small 1.58-bit 의 메모리 사용량(143MB)은 한 단계 작은 모델인 whisper base Q4 모델의 메모리 사용량(132MB)와 비슷합니다. 하지만 small 모델이 base 모델보다 큰 모델이기 때문에 WER성능은 whisper small 1.58-bit(6.38%)가 whisper base FP16(7.53%), Q4(8.25%) 보다 좋습니다. 따라서 기존 하드웨어에서 메모리 문제 때문에 성능을 포기하고 base모델을 사용해야 했던 상황에서 훨씬 성능이 좋은 small모델을 사용하면서도 비슷한 메모리 사용량을 가져갈 수 있습니다!

지연시간: 실시간 처리 가능한 추론 속도

추론 속도 측정 결과 또한 1.58-bit 양자화의 실용성을 보여줍니다. 1.58-bit 모델은 FP16 대비 2.46배 빠른 추론 속도를 달성했습니다. 이는 Q4 모델보다도 26% 더 빠른 성능입니다. RPi5에서 측정했던 GEMM, GEMV 벤치마크에 비해 이번 Astra보드에서 FP16과 1.58bit 커널의 성능 격차가 두드러지는데요. 이는 Cortex A73에서는 FP16 관련 벡터 연산을 지원하지 않기 때문입니다. 반면 1.58bit 커널이 사용하는 LUT연산은 대부분의 사양에서 지원하는 연산이므로, Astra에서 성능 격차가 보다 두드러지게 나타났다고 이해해주시면 되겠습니다.

이번 게시물에서는 지금까지 몇 차례 소개 드린 바 있는 1.58-bit 양자화 기술에 대한 좀 더 심층적인 내용들을 공유드렸는데요. 저희는 Whisper 뿐만 아니라 다양한 모델을 극저비트로 구현하여 고객사들이 보다 다양한 디바이스에서 최고의 AI 기술을 경험할 수 있도록 노력하고 있습니다. 에너자이의 기술 또는 솔루션 관련하여 문의 주실 사항이 있다면 언제든 편히 연락 부탁드리며, 다음 게시물에서는 오늘 상세히 소개드린 1.58-bit Whisper를 활용하여 구현한 Edge AI 어플리케이션 사례에 대해 소개드리도록 하겠습니다.

Optimium

Solutions

Company

Resources

ENERZAi

Business number: 246-86-01405