W&B, Horangi 한국어 LLM 리더보드 대대적 업데이트

IT | W&B, Horangi 한국어 LLM 리더보드 대대적 업데이트

권경욱 기자 IT 0 0 2024.10.31 11:08

Weights & Biases, Inc. (CEO Lukas Biewald, 이하 W&B)는 올해 4월 공개 후 지속적으로 큰 관심을 받는 LLM 한국어 능력 비교 사이트인 W&B Horangi (호랑이) 한국어 LLM 리더보드(http://horangi.ai)의 첫 번째 업데이트 버전을 공개했다.

Horangi: W&B Korean LLM Leaderboard 3에서는 평가 벤치마크를 대폭 재구성해 용도별 성능을 평가하고, AI 거버넌스 관점에서 주목받고 있는 안전성 평가도 추가했다. 또한 추론 속도 향상 및 라이브러리 버전 관리 간소화 등을 통해 기업 내 비공개 평가도 그 어느 때보다 쉽게 실행할 수 있다. 공개된 리더보드를 통해 OpenAI, Anthropic과 같은 최신 상용 API는 물론 국내외의 다양한 오픈소스 모델을 포함한 40개 이상의 모델 평가 결과를 인터랙티브하게 비교할 수 있다.

이번 업데이트 배경

W&B는 LLM 모델의 성능 비교를 위한 벤치마크를 개발해 2023년 7월부터 LLM 모델 평가를 실시하는 Nejumi 일본어 LLM 리더보드를 공개했고, 2024년 4월부터는 Horangi 한국어 LLM 리더보드에도 당사가 제공하는 MLOps 플랫폼인 W&B Models를 사용해 폭넓은 모델의 평가 결과를 국내외 AI 개발 및 제공자에게 제공해 왔다.

LLM 개발은 여전히 빠른 속도로 진행되고 있으며, 모델 성능의 급속한 개선을 계속하고 있다. 또한 LLM 기술의 사회 및 비즈니스 구현을 위한 노력도 진행되고 있으며, 이에 따라 모델 및 애플리케이션 평가에 있어 그 어느 때보다 폭넓은 내용이 요구되고 있다. EU AI Act에서는 AI 기술의 안전하고 윤리적인 사용을 보장하기 위해 AI 개발 및 제공자는 안전성, 투명성, 인간의 감독, 데이터 관리, 지속적인 모니터링을 준수하는 위험 기반 규제를 이행하는 것을 강조하고 있다.

이러한 배경을 바탕으로 이번 업데이트에 앞서 발표된 백서 ‘대규모 언어 모델 평가를 위한 모범 사례’에서는 최신 LLM 평가 방법을 포괄적으로 조사한 결과를 정리한 바 있다. 이를 바탕으로 진행된 이번 Horangi 리더보드 업데이트에서는 평가 내용을 크게 두 가지로 업데이트했다.

· 용도 주체별 평가: 지금까지의 평가 데이터 프레임워크 위주의 주체별 평가에서 이용 목적별로 LLM의 성능을 쉽게 파악할 수 있는 프레임워크를 구축

· 안전 성능 검증: ‘제어성’, ‘유해성’, ‘편견’ 등 인간의 가치관과 일치하는 출력을 할 수 있는지(AI Alignment) 평가하기 위한 프레임워크 구축

이러한 평가 프레임워크는 지속적으로 오픈소스로 공유되며, 기업 사용자가 결과를 공개하지 않고 비공개 환경에서 평가할 수도 있다.

비공개 평가를 희망하는 경우에는 한국어 문의처 contact-kr@wandb.com로 문의하면 된다.

Weights & Biases, W&B, Horangi 한국어 LLM 리더보드, 대대적, 업데이트

﻿W&B, Horangi 한국어 LLM 리더보드 대대적 업데이트

IT | ﻿W&B, Horangi 한국어 LLM 리더보드 대대적 업데이트

W&B, Horangi 한국어 LLM 리더보드 대대적 업데이트

IT | W&B, Horangi 한국어 LLM 리더보드 대대적 업데이트