앨리비 테크

SentiCSE의 Few Shot 학습 기법과 리걸 AI 적용 방안

'LREC-Coling 2024' 학술대회 참석기

2024-07-08

안녕하세요, BHSN에서 AI 엔지니어로 근무하는 김강민입니다. 저는 지난 5월 20일부터 25일까지 이탈리아 토리노에서 개최된 ‘LREC-Coling 2024’ 학술대회에 참석해 대학원 시절 공동 연구한 SentiCSE라는 프레임워크에 대한 논문을 발표했습니다.

그래서 이번 글에서는 ‘LREC-Coling 2024’ 학회에 참석해 들은 리걸 AI관련 발표 및 논의와 더불어 SentiCSE에 대한 간략한 소개, 그리고 해당 논문을 어떻게 리걸 분야에 적용할 수 있을지 소개해 드리고자 합니다.

‍

'LREC-Coling 2024' 학술대회 개요

‘LREC-Coling 2024’는 컴퓨터 언어학, 언어 자원, 평가 분야의 두 주요 국제기구인 Europe Language Resources Association(ELRA, 유럽 언어 자원 협회)와 International Committee on Computational Linguistics(국제 컴퓨터 언어학 위원회, ICCL)이 공동 주최했습니다.

해당 학회는 컴퓨터 언어학, 음성, 멀티모달, 자연어 처리 분야의 연구자와 실무자들이 모이는 자리로, 학회의 성격 자체가 다양성을 존중함과 동시에 학계의 새로운 관점을 많이 보려고 노력하는 편입니다. 이번 학회에서는 리걸 분야의 AI 연구에 대한 논의도 적지 않게 보였습니다. 현재 학계에서도 리걸AI와 관련된 논의가 활발하게 이루어지는 것을 보고, 리걸 분야의 AI 도입에 대해 전 세계적으로도 관심이 많다는 걸 확인할 수 있었습니다.

‍

‍

주요 리걸AI 관련 발표 및 논의

‍

1. 계약서의 모호성 해결

해당 발표는 리걸 DP(Legal Document Processing)와 관련된 주제로, 비법률 이해관계자가 계약서상의 모호성, 특히 특정 문장에 대해 모호함의 여부를 구분하고 이해할 수 있도록 돕는 질문을 생성하는 것이 핵심이었는데요. 이 같은 질문을 통해 대규모 언어 모델(LLM)이 모호성과 명료함을 판단하는 성능 향상에 기여하도록 한다는 것이었습니다.

‍

참고 논문: Generating Clarification Questions for Disambiguating Contracts

‍

2. 법률 문서 검색(Legal Retriever)

기존 PCR(Prior Case Retrieval)데이터셋은 완전한 사건 문서를 사용해 현실적이지 않은 상황을 시뮬레이션함으로써 법적 추론 과정에서 문제를 일으킬 소지가 있었습니다. 해당 발표에선 이를 해결하기 위해 유럽 인권 재판소의 판결을 기반으로 한 새로운 데이터셋을 도입해 다양한 검색 방법과 부정 샘플링 전략을 사용한 사례를 설명했습니다.

직관적으로 설명하자면 해당 데이터셋은 사건의 팩트에 좀 더 중점을 두고 과거 사례를 검색할 수 있도록 설계됨으로써, 법률 전문가에게 보다 현실적인 도움을 주고 실제 사건 연구를 수행하는 방식과 더 가까워졌다고 할 수 있습니다.

‍

참고 논문: ECtHR-PCR: A Dataset for Precedent Understanding and Prior Case Retrieval in the European Court of Human Rights

‍

3. 한국어 LLM 평가 데이터셋에 대한 논의

최근 다양한 학회에서 한국어 언어모델을 평가하기 위한 평가 데이터셋이 활발하게 논의되고 있습니다. 기존의 MMLU, ARC와 같은 영문 기반의 LLM 평가 데이터셋은 많이 구축되어 있으나, 한국의 문화와 한국어의 맥락적 뉘앙스를 평가하기 위한 데이터셋은 부족한 실정입니다.

다행히도, 최근 들어 이러한 문제를 해결하기 위해 다양한 공개 데이터셋이 만들어지고 있습니다. 특히, 법률과 관련된 데이터셋도 포함되어 있어 BHSN의 법률 특화 LLM을 평가하는 데 유용하게 활용되고 있습니다.

‍

참고 논문 : HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models

CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean

‍

SentiCSE: 감정 인식과 대비 학습을 통한 문장 임베딩

저는 이번 학회에서 대학원 시절 공동 연구한 SentiCSE라는 프레임워크에 대한 논문의 공동 저자로 참석했습니다. 이제 해당 논문에서 설명하고 있는 SentiCSE에 대해 설명하고, 이 방법론이 어떻게 리걸 분야에 적용될 수 있을지 한 번 설명해 보고자 합니다.

‍

해당 논문 링크: SentiCSE: A Sentiment-aware Contrastive Sentence Embedding Framework with Sentiment-guided Textual Similarity

‍

자연어 처리(NLP) 분야에서 문장 임베딩(sentence embedding)은 텍스트의 의미적 유사성을 측정하는 데 중요한 역할을 합니다. 그러나 기존의 문장 임베딩 기법들은 텍스트의 감정적 특성을 충분히 반영하지 못하는 한계가 있었습니다. 이러한 문제를 해결하기 위해 저와 동료들은 감정 인식과 대비 학습(contrastive learning)을 결합한 새로운 프레임워크인 SentiCSE를 제안했습니다.

‍

SentiCSE_viewpoint — 감정 분석에서는 전통적인 의미적 관점보다 감정적 관점에서 임베딩 방법에 집중하는 것이 더 중요합니다

‍

Few Shot 학습

SentiCSE는 특히 소량의 레이블 된 데이터만으로도 높은 성능을 발휘할 수 있는 few shot 방법론을 지원한다는 점이 중요했습니다. SentiCSE는 감정 정보를 포함한 문장 임베딩을 생성하기 때문에, 감정 레이블이 포함된 소량의 데이터만으로도 효과적으로 학습할 수 있으며, 대비 학습 기법을 통해 적은 양의 데이터로도 모델이 문장 간의 유사성과 차이점을 학습하도록 설계되었습니다.

이런 학습 방법은 데이터 레이블링 비용이 높거나 데이터가 부족한 상황에서 매우 유용하게 사용될 수 있습니다. 또한 기존 모델과는 달리 도메인별로 데이터를 새롭게 모을 필요가 없고 소량의 데이터만으로도 효과적으로 학습할 수 있어, 시간과 자원을 절약할 수 있습니다.

‍

SgTS Validation: 감정 유도 텍스트 유사성 검증의 개념

SentiCSE의 중요한 검증 방법 중 하나는 SgTS(Sentiment-guided Textual Similarity) Validation입니다. SgTS Validation은 문장의 감정적 유사성을 고려해 텍스트 유사성을 평가하는 방법입니다. 단순히 의미적 유사성뿐만 아니라 감정적 유사성까지 포괄적으로 측정함으로써, 보다 정교하고 정확한 유사성 평가를 가능하게 한다는 것이 특징입니다.

‍

SgTS-vs-STS — STS는 문맥적 의미를, SgTS는 감정 극성을 기준으로 문장의 유사성을 판단합니다

‍

실험 결과 및 성과

다양한 데이터셋을 사용한 실험 결과, SentiCSE는 아래에서 보듯이 기존의 문장 임베딩 기법보다 우수한 성능을 보였습니다. 특히 감정이 중요한 자연어 처리 작업에서 탁월한 성능 향상을 보였으며, few shot 학습 시나리오에서도 높은 효율성을 입증했습니다.

‍

SentiCSE-comparison — 각 데이터셋에 포함된 문장의 시각화된 임베딩

‍

SentiCSE 방법론을 활용한 BHSN 리걸AI의 법률 문서 검색 효율성 증대

SentiCSE의 학습 방법론은 BHSN이 개발하고 있는 리걸AI 분야에서도 활용할 수 있습니다. 법률 문서 검색에서는 문서 간의 미묘한 차이를 정확하게 인식하고 비교하는 능력이 중요합니다. 예를 들어, 판결문, 변론서, 계약서 등의 법률 문서에서 문장 간의 유사성과 차이점을 정밀하게 분석하는 능력은 더욱 정교한 법률 문서 처리와 분석을 가능하게 합니다.

또한, SentiCSE는 소량의 레이블 된 데이터만으로도 높은 성능을 발휘하는 few shot 학습 방법론을 지원하기 때문에, 레이블 된 법률 데이터가 부족하거나 비용이 높은 상황에서도 매우 유용하게 사용될 수 있습니다. 뿐만 아니라 도메인별로 데이터를 새롭게 모을 필요 없이 적은 양의 데이터만으로도 효과적으로 학습할 수 있어 시간과 자원을 절약할 수 있습니다.

이러한 방법들을 활용하면 BHSN이 서비스하고 있는 앨리비(allibee)내의 법률 문서 검색, 판례 검색, 법적 의견 분석 등의 작업을 수행할 때 더욱 정밀하고 효율적인 결과를 제공할 수 있습니다. 따라서 SentiCSE의 학습 방법론은 리걸 AI 솔루션 개발에 있어 중요한 도구가 될 수 있으며, 저는 이처럼 현업과 학계에서 논의되고 있는 AI 기술을 실제 서비스에 적용하는 일이 중요하다고 생각합니다.

‍