인공지능 기술의 급속한 발전은 다양한 산업 분야에 혁명적인 변화를 불러오고 있습니다. 특히 리걸 분야에서 LLM(Large Language Models, 대규모 언어 모델)의 활용은 업무 효율성 향상과 정확도 개선에 큰 기여를 했죠.
그러나 LLM의 복잡한 연산 요구사항으로 인해 효율적인 처리가 중요한 과제로 대두되고 있습니다. 이러한 맥락에서 Language Processing Unit(LPU)의 등장은 LLM 기반 서비스의 성능을 획기적으로 향상시키는 핵심 기술로 주목받고 있습니다. LPU는 자연어 처리(NLP) 작업에 특화된 전문 하드웨어로, LLM의 연산 효율성을 극대화하도록 설계되었습니다. 앨리비에 탑재된 LLM 또한 효율화를 위해 LPU기술을 적용해 고객들에게 제공하고 있습니다.
특히 최근 업무협약을 체결한 AI 반도체 기업 하이퍼엑셀과 함께 공동으로 기술적인 문제를 해결하고 있는데요, 하이퍼엑셀의 LPU(Latency Processing Unit)는 LLM 등 생성형 AI 활용에 있어 기존 범용적인 GPU 대비 다음과 같은 장점을 보유하고 있습니다.
1. LLM 추론에 최적화된 설계: 하이퍼엑셀의 LPU는 트랜스포머 기반 LLM 연산에 최적화된 MAC Tree 구조를 채택하여 복잡한 추론 과정에서 탁월한 성능을 발휘합니다.
2. 메모리 대역폭 활용 극대화: 거대 언어 모델 연산에서 가장 중요한 메모리 대역폭 사용을 극대화했습니다. 일반적인 GPU가 트랜스포머 연산을 수행하는 경우 대역폭 활용률(Utilization rate)이 50~60% 수준인 반면 LPU는 90% 수준의 활용률을 보입니다. 덕분에 데이터 처리 속도가 크게 향상할 수 있습니다.
3. 특화된 연산 엔진: 트랜스포머 모델 연산에 특화된 매트릭스와 벡터 엔진 로직을 집적하여, LLM 관련 연산을 더욱 효율적으로 처리할 수 있습니다.
4. 효율적인 모델 병렬화: 하이퍼엑셀이 자체적으로 개발한 모델 병렬화 기술을 통해 거대 언어 모델을 다수의 LPU로 효율적으로 분산 처리합니다.
5. 자체 네트워킹 기술: LPU 의 데이터 동기화를 효율화하기 위한 자체 네트워크 기술을 사용합니다. Output 토큰 생성에 필요한 Computation과 Communication을 동시에 수행하는 latency hiding 기술을 통해 다수의 LPU로 확장하는 경우에도 성능 저하를 최소화하고 통신 효율성을 높였습니다.
6. 우수한 확장성: 모델 병렬화 기술 및 확장 네트워크 기술을 통해, 가속기 서버의 개수가 증가할수록 성능이 비례적으로 향상되는 우수한 확장성을 갖고 있습니다.
앨리비에는 BHSN이 자체적으로 개발한 리걸 LLM이 탑재됐습니다. 리걸 언어를 가장 잘 이해하는 리걸AI로 도메인의 다양한 문제를 해결하기 위한 서비스를 제공하고 있습니다.
앨리비의 핵심 기능 중 하나는 리걸AI를 활용한 계약서 검토 기능입니다. 사용자가 계약서를 업로드하고 AI Contract Review를 실행하면, 기업의 내부 가이드라인에 따라 자동으로 계약서를 분석합니다.
이 과정에서 AI는 계약 기간 설정, 비밀 유지 조항 등 주요 항목을 검토하고 필요한 경우 수정을 제안합니다. 또한, 과거에 사용된 조항 문구를 참조할 수도 있어 계약서 수정을 더욱 편리하게 합니다.
BHSN의 allibee Factory는 기업 고객의 다양한 니즈를 충족시키는 종합 리걸AI 기술 플랫폼입니다. 고객사는 allibee Factory를 통해 학습, 평가, 코파일럿 등 다양한 기술을 실제로 테스트하고 요구사항을 충족할 수 있습니다.
allibee Factory에선 기업 내규나 FAQ 등 내부 자료를 기반으로 질의하고 답변을 얻을 수 있으며, 유사 자문 검색 및 AI 기반 자문 초안 생성 기능을 통해 리걸 업무의 효율성을 크게 높이는 효율을 체험할 수 있습니다.
비즈니스에 영향을 미칠 수 있는 글로벌 법령과 정책이 궁금하다면 allibee Factory 내 Business Intelligence 솔루션을 활용해 비즈니스 전략을 수립할 수 있으며, 송무 Copilot을 활용하면 대량의 사건 및 소송 증거 문서들을 신속하게 정리하고 분석할 수 있습니다.
자연어로 검색 질문을 입력하면 AI가 법령과 판례, 가이드라인에 기반해 현재 사례의 주요 쟁점을 분석하고, 근거 데이터와 함께 사용자에게 답변을 제시합니다.
변호사 및 법률 전문가가 업무에 AI를 활용하기 위해 “근거”는 무엇보다 중요한데요. BHSN의 리걸 특화 RAG 기술과 검색엔진은 답변을 생성하는 데 AI가 참고한 데이터를 같이 제시해 신뢰를 제공합니다.
내부 문서들은 오프라인 문서를 단순 스캔한 형태이거나, 복잡한 레이아웃의 PDF 파일로 구성되어 있을 수도 있습니다. 이런 문서들을 BHSN OCR과 레이아웃 분석을 통해 데이터를 도출하고, 여기에 LLM까지 활용한다면 보다 정교한 문서 처리 및 분석이 가능해집니다.
해당 기능을 활용하면 기업은 기존에 오프라인 문서로 저장되어 있던 수많은 서류더미들을 한 번에 디지털로 저장해 원할 때 손쉽게 찾을 수 있게 됩니다. 또한 문서 유실의 위험으로부터도 자유로워지며, 결정적으로 기존 계약들의 이행 관리 및 추적이 쉬워져 기업을 리스크로부터 보호할 수 있습니다.
앨리비처럼 LLM 모델을 활용해 다양한 서비스를 제공하기 위해서는 수많은 기술적 도전 과제가 존재합니다. 그 중엔 해당 모델들을 운영하기 위한 모델 서빙 비용이 대표적이라고 할 수 있습니다. 이 비용을 증가시키는 주요 요인은 크게 두 가지로, LLM의 복잡한 구조와 Autoregressive 추론 방식입니다.
1. 대규모 모델의 복잡성: LLM은 최소 수십억 개의 파라미터로 구성된 거대한 신경망 구조를 가지고 있습니다. 이러한 규모는 모델의 언어 이해 및 생성 능력을 향상시키지만, 동시에 엄청난 계산 리소스를 요구합니다.
예를 들어, GPT-3는 1,750억 개의 파라미터를 가지고 있으며, 이는 약 800GB의 메모리를 필요로 합니다. 이러한 대규모 모델을 실시간으로 처리하기 위해서는 고성능 하드웨어와 대용량 메모리가 필수적이며, 이는 직접적인 서빙 비용의 증가로 이어집니다.
2. Autoregressive 추론 방식의 한계: LLM은 사용자의 요청에 대응하여 결과를 생성할 때 Autoregressive 방식을 사용합니다. 이 방식에서는 모델이 한 번에 하나의 토큰(단어 또는 부분 단어)을 순차적으로 생성합니다.
각 토큰 생성 시마다 이전에 생성된 모든 토큰을 고려해야 하므로, 출력이 길어질수록 계산량이 기하급수적으로 증가합니다. 예를 들어, 1000단어의 텍스트를 생성하려면 모델은 최소 1000번의 순차적 추론 과을 거쳐야 합니다. 이는 처리 시간을 증가시키고, 결과적으로 더 많은 컴퓨팅 리소스를 소비하게 됩니다.
이러한 요인들로 인해, 특히 계약서 검토나 리걸 문서 분석과 같이 긴 형태의 결과물을 요구하는 서비스에서는 모델 서빙 비용 문제가 더욱 두드러집니다. BHSN과 같이 복잡하고 길이가 긴 리걸 문서를 다루는 기업에게는 이러한 비용 문제가 중요한 도전 과제가 되기도 합니다.
현재 이러한 LLM을 서비스하기 위해 가장 대표적으로 활용되는 GPU 계열의 장비는 NVIDIA A100입니다. 그러나 LLM 모델의 특성으로 인해 일반적인 GPU를 사용할 경우 메모리 대역폭 및 연산기를 효율적으로 활용하지 못해 전력 대비 효율이 낮은 문제가 있습니다.
그러나 하이퍼엑셀의 LPU는 LLM 추론에 최적화하여 설계된 가속기로 이러한 문제점을 효과적으로 해결합니다. 결과적으로 LPU는 GPU와 비교했을 때 저렴한 비용으로 저전력 및 고성능을 실현할 수 있으며, LLM 기반 서비스의 운영 비용을 크게 절감하면서도 성능을 유지할 수 있다는 이점을 제공합니다.
LLM을 활용해 긴 형태의 결과물을 생성하는 서비스에서 LPU의 효율성을 검증하기 위해 BHSN은 광범위한 성능 측정 및 테스트를 실시했습니다.
이 검증 과정은 BHSN에서 실제 운영 중인 법률 상담 Q&A등 다양한 LLM 모델을 기반으로 진행되었으며, 테스트 결과 LPU는 일반 GPU 대비 다음과 같은 주목할 만한 효율성 향상을 보여주었습니다:
1. 전력 효율: LPU는 GPU 대비 1.5배 향상된 전력 효율을 달성했습니다. 이는 동일한 작업을 수행할 때 LPU가 GPU보다 33% 적은 전력을 소비한다는 것을 의미합니다.
2. 가격 대비 효율: LPU는 GPU 대비 2.4배 높은 가격 대비 효율을 보였습니다. 이는 동일한 비용으로 LPU를 사용할 경우, GPU 대비 140% 더 많은 작업을 처리할 수 있음을 의미합니다. 이러한 효율성 향상은 LLM 서비스의 운영 비용을 크게 절감할 수 있는 잠재력을 보여줍니다.
3. 처리 속도: LPU는 동일한 규모의 토큰 처리에 있어 GPU 대비 최대 2배 빠른 속도를 기록했습니다. 이는 사용자에게 더 빠른 응답 시간을 제공할 수 있음을 의미하며, 특히 실시간 상호작용이 중요한 법률 상담 Q&A와 같은 서비스에서 큰 이점이 될 수 있습니다.
이러한 결과는 LPU가 LLM 기반 서비스, 특히 법률 분야와 같이 복잡하고 긴 텍스트 처리가 필요한 영역에서 큰 이점을 갖고 있음을 보여줍니다. BHSN은 현재 많은 영역에서 LLM기술을 적극적으로 도입하고 있으며, 서비스에서의 비용 문제를 다양한 최적화 기법들 (LLM 추론 최적화, 메모리 대역폭 극대화) 이 적용된 하이퍼엑셀의 LPU 활용을 통해 비용 최적화를 이루고 있습니다.
그리고 이러한 LPU의 도입으로 인한 전력 효율, 비용 효율성, 처리 속도의 획기적인 향상은 앨리비가 제공하는 AI Contract Review, allibee Factory, 법령 및 판례 기반 AI 검색, 문서 디지털화 등의 서비스를 더욱 강력하고 경제적으로 만들고 있습니다.