https://arxiv.org/abs/2306.05685
논문이 작성되게 된 배경
- LLM의 빠른 발전과 평가의 한계: 최근 몇 년간 대형 언어 모델(LLM) 기반의 챗봇이 급격히 발전하면서 이들을 평가하는 방법에 대한 필요성이 대두되었습니다. 기존의 LLM 벤치마크는 주로 닫힌 질문에 대한 응답을 평가하는 데 중점을 두었지만, 이러한 접근 방식은 LLM이 제공할 수 있는 넓은 범위의 기능을 제대로 평가하지 못하는 한계가 있었습니다.
- 사용자 선호도와 벤치마크의 불일치: LLM이 인간 사용자와의 상호작용에서 선호되는 성능을 보임에도 불구하고, 기존 벤치마크에서는 이러한 선호도가 반영되지 않는 경우가 많았습니다. 이는 사용자들이 선호하는 LLM의 대화 능력과 기존 벤치마크가 측정하는 모델의 성능 사이에 불일치가 있다는 것을 의미합니다.
- 인간 평가의 비효율성: 인간 평가자가 LLM의 성능을 평가하는 것이 이상적이지만, 이는 비용이 많이 들고 시간이 오래 걸리는 과정입니다. 따라서 연구자들은 LLM의 평가를 자동화하고, 인간 선호도를 반영할 수 있는 새로운 방법론에 대한 필요성을 느꼈습니다.
MT-Bench
MT-Bench는 논문에서 제안된 새로운 벤치마크로, 대형 언어 모델(LLM)의 다중 턴 대화 능력과 지시를 따르는 능력을 평가하기 위해 설계되었습니다. 이 벤치마크는 80개의 고품질 다중 턴 질문으로 구성되어 있으며, 다양한 사용 사례를 반영하고 모델 간의 차이를 구별할 수 있는 도전적인 질문들로 구성되어 있습니다.
MT-Bench는 writing, roleplay, extraction, reasoning, math, coding, knowledge I (STEM), and knowledge II (humanities/social science) 8가지 카테고리에 걸쳐 질문을 구성했습니다 각 카테고리는 모델이 여러 턴에 걸쳐 대화를 수행하면서 사용자의 지시를 얼마나 잘 따르고 대화의 맥락을 유지할 수 있는지를 평가합니다.
MT-Bench Judge Prompt
Single answering
You are a helpful assistant.
[Instruction]
Please act as an impartial judge and evaluate the quality of the response provided by an AI assistant to the user question displayed below. Your evaluation should consider factors such as the helpfulness, relevance, accuracy, depth, creativity, and level of detail of the response. Begin your evaluation by providing a short explanation. Be as objective as possible. After providing your explanation, you must rate the response on a scale of 1 to 10 by strictly following this format: \"[[rating]]\", for example: \"Rating: [[5]]\".
[Question]
{question}
[The Start of Assistant's Answer]
{answer}
[The End of Assistant's Answer]
Pairwise comparison
Please act as an impartial judge and evaluate the quality of the responses provided by two AI assistants to the user question displayed below. You should choose the assistant that follows the user's instructions and answers the user's question better. Your evaluation should consider factors such as the helpfulness, relevance, accuracy, depth, creativity, and level of detail of their responses. Begin your evaluation by comparing the two responses and provide a short explanation. Avoid any position biases and ensure that the order in which the responses were presented does not influence your decision. Do not allow the length of the responses to influence your evaluation. Do not favor certain names of the assistants. Be as objective as possible. After providing your explanation, output your final verdict by strictly following this format: \"[[A]]\" if assistant A is better, \"[[B]]\" if assistant B is better, and \"[[C]]\" for a tie.
[User Question]
{question}
[The Start of Assistant A's Answer]
{answer_a}
[The End of Assistant A's Answer]
[The Start of Assistant B's Answer]
{answer_b}
[The End of Assistant B's Answer]
+ 한국어 MT-Bench
LG-AI-EXAONE에서 한국어로된 MT-Bench인 KoMT-Bench를 공개하였습니다.
Chatbot Arena
Chatbot Arena는 논문에서 제안된 크라우드소싱 기반의 평가 플랫폼으로, 다양한 챗봇 모델들을 실시간으로 비교하고 평가할 수 있는 환경을 제공합니다. 이 플랫폼은 사용자가 동시에 두 개의 익명의 챗봇과 상호작용하고, 동일한 질문에 대해 두 챗봇이 제공하는 답변을 비교하여 선호하는 답변에 투표하는 방식으로 작동합니다.
Chatbot Arena는 미리 정의된 질문 세트가 아닌, 사용자가 자유롭게 질문을 설정할 수 있도록 설계되어 있어, 실제 사용 환경에서의 챗봇 성능을 보다 잘 반영할 수 있습니다. 이 플랫폼은 다양한 사용자로부터 얻은 30,000건 이상의 투표 데이터를 수집하여 모델 성능을 평가하는 데 활용됩니다.
이 접근 방식은 챗봇의 실제 사용 사례를 기반으로 한 평가를 가능하게 하며, 기존의 벤치마크와는 다른 측면에서 챗봇의 성능을 평가할 수 있도록 돕습니다. 또한, 평가에 인간 심판을 사용하는 대신, LLM을 심판으로 활용하여 더 빠르고 효율적인 평가를 목표로 합니다.
LLM as a Judge
"LLM-as-a-Judge"는 대형 언어 모델(LLM)을 심판으로 사용하여 다른 LLM의 성능을 평가하는 방법론을 의미합니다. 이 접근 방식은 인간 평가자의 개입을 최소화하고, LLM 자체가 다른 모델의 응답을 평가하여 더 신속하고 확장 가능한 평가를 가능하게 합니다.
LLM-as-a-Judge의 종류
LLM-as-a-Judge는 주로 평가 방식에 따라 세 가지로 나눌 수 있습니다:
Pairwise Comparison (쌍별 비교)
- LLM 심판이 하나의 질문과 두 개의 답변을 제공받고, 어느 답변이 더 나은지를 판단하는 방식입니다. 이 방법은 두 답변 간의 직접 비교를 통해 상대적인 우위를 결정합니다.
- 장점: 두 답변 간의 명확한 비교가 가능하며, 평가가 상대적으로 직관적입니다.
- 단점: 평가할 답변 쌍의 수가 많아지면 확장성이 떨어질 수 있으며, 답변 순서에 따른 편향(Position Bias)이 발생할 수 있습니다.
Single Answer Grading (단일 답변 평가)
- LLM 심판이 하나의 질문과 한 개의 답변을 제공받고, 해당 답변의 품질을 점수로 매기는 방식입니다. 이 방식에서는 각 답변이 독립적으로 평가됩니다.
- 장점: 각 답변이 독립적으로 평가되어 순서나 비교에 따른 편향이 줄어듭니다. 확장성이 높습니다.
- 단점: 답변의 미세한 차이를 감지하기 어려울 수 있으며, 절대 점수가 평가 모델에 따라 변동할 가능성이 있습니다.
Reference-guided Grading (참고 답변 기반 평가)
- LLM 심판이 하나의 질문과 그에 대한 두 개의 답변, 그리고 참조용 답변(reference answer)을 제공받고, 두 답변을 참조 답변과 비교하여 평가하는 방식입니다.
- 장점: 참조 답변이 있어 더 정확한 평가가 가능하며, 특히 수학 및 추론 문제에서 유용합니다.
- 단점: 참조 답변을 생성하거나 선택하는 과정이 추가되며, 참조 답변의 품질에 평가 결과가 영향을 받을 수 있습니다.
LLM-as-a-Judge의 장점
논문에 따르면, LLM-as-a-Judge의 장점은 다음과 같습니다:
확장성(Scalability): LLM을 심판으로 사용하는 방법은 인간 평가자의 필요성을 줄여주며, 이를 통해 대규모 평가를 신속하게 수행할 수 있습니다. 인간 평가가 비용과 시간이 많이 소요되는 반면, LLM-as-a-Judge 접근법은 이러한 문제를 해결하고 평가의 확장성을 높여줍니다.
설명 가능성(Explainability): LLM 심판은 평가 결과뿐만 아니라 그에 대한 설명도 제공합니다. 이는 결과의 해석을 가능하게 하고, 평가 프로세스의 투명성을 보장합니다. 예를 들어, LLM은 두 개의 답변을 비교하여 왜 특정 답변이 더 나은지를 설명할 수 있습니다.
LLM-as-a-Judge의 한계
논문에 따르면, LLM-as-a-Judge의 한계는 다음과 같습니다:
위치 편향(Position Bias): LLM 심판이 답변의 위치에 따라 편향된 결정을 내릴 수 있습니다. 예를 들어, LLM이 첫 번째로 제시된 답변을 선호하는 경향을 보일 수 있습니다.
장황함에 대한 편향(Verbosity Bias): LLM 심판이 더 길고 장황한 답변을 선호하는 경향이 있습니다. 이는 짧고 간결하지만 정확한 답변보다 불필요하게 길고 반복적인 답변이 더 높은 평가를 받을 가능성을 증가시킵니다.
자기 강화 편향(Self-Enhancement Bias): LLM 심판이 자신이 생성한 답변을 다른 모델의 답변보다 더 우월하게 평가하는 경향이 있을 수 있습니다.
수학 및 추론 문제에 대한 제한된 능력(Limited Capability in Grading Math and Reasoning Questions): LLM은 수학적 계산이나 논리적 추론을 포함한 문제를 평가할 때 제한된 능력을 보일 수 있습니다. 이는 LLM이 이러한 문제들을 정확하게 판단하지 못하거나 잘못된 판단을 내릴 가능성이 있다는 것을 의미합니다.
LLM-as-a-Judge의 한계를 대응하기 위한 방법
- 위치 교체(Swapping Positions): 답변의 순서를 바꿔서 평가를 두 번 수행한 후, 두 번의 결과가 일치할 때만 승자를 결정하는 방법입니다. 만약 결과가 일치하지 않으면 무승부로 처리합니다.
- 무작위 배치(Random Assignment): 답변의 위치를 무작위로 배치하여 대규모 평가에서 위치 편향의 영향을 줄이는 방법입니다.
- Chain-of-Thought (CoT) 기법 사용: LLM이 답변을 평가하기 전에 먼저 문제를 스스로 해결한 다음 평가를 진행하도록 하는 방법입니다. 이를 통해 더 나은 추론 능력을 유도합니다.
- Judge에게 Few-shot을 주어 정확도를 향상하거나 Judge model을 파인 튜닝할 수 있습니다.
Agreement Evaluation
논문에서는 LLM-as-a-Judge 접근법이 인간 평가와 유사한 수준의 평가를 수행할 수 있는지에 대해서도 평가하였습니다.
GPT-4를 심판으로 사용한 평가 결과, 인간 평가자와의 일치도가 매우 높게 나타났습니다. 특히, GPT-4와 인간 평가자의 일치도는 85%로, 인간 평가자들 간의 일치도(81%)보다도 높았습니다. 이는 GPT-4의 판단이 인간 다수의 의견과 잘 맞는다는 것을 의미합니다. 또한, GPT-4의 판단이 인간 평가자의 결정을 개선하는 데 도움이 될 수 있음을 보여주었습니다.
Chatbot Arena의 데이터에서도 비슷한 경향이 나타났으며, GPT-4는 다른 LLM 심판들보다 더 확실한 결정을 내리는 경향이 있었습니다. GPT-4의 Single Answer Grading 방식은 Pairwise Comparison 방식과도 일치도가 높았으며, 더 확장 가능한 방법으로 평가되었습니다. 모델 간 성능 차이가 클수록 GPT-4와 인간 평가자의 일치도가 증가했으며, 이는 GPT-4가 성능 차이가 큰 모델들을 평가할 때 더 정확하게 인간의 판단과 일치함을 시사합니다.
'AI > 기술,논문 리뷰' 카테고리의 다른 글
🔥 PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS (3) | 2024.08.30 |
---|---|
LogicKor: 한국어 언어모델 다분야 사고력 벤치마크 (0) | 2024.08.30 |
G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment (0) | 2024.08.30 |
Efficient LLM Inference with KCache (0) | 2024.05.08 |
S-LoRA: Serving Thousands of Concurrent LoRA Adapters (0) | 2023.12.13 |