https://arxiv.org/abs/2303.16634
논문이 작성되게 된 배경
- 자연어 생성(NLG) 시스템의 평가 어려움: NLG 시스템이 생성한 텍스트의 품질을 자동으로 평가하는 것은 매우 어려운 문제로, 기존의 평가 방법들이 창의성과 다양성이 필요한 작업에서 인간 평가와 낮은 상관관계를 보임.
- 기존 참조 기반 메트릭의 한계: BLEU, ROUGE와 같은 전통적인 참조 기반 메트릭은 새로운 작업에 적용하기 어렵고, 인간 평가와의 일치도가 낮다는 한계가 있음.
- 대형 언어 모델(LLM)의 사용 제안: 최근 연구에서 참조 없이 LLM을 사용해 NLG 평가를 시도했으나, 여전히 인간 평가와의 상관관계가 낮아 신뢰성 문제를 겪음.
- 새로운 평가 프레임워크의 필요성: LLM 기반 평가자들이 LLM이 생성한 텍스트에 편향될 수 있는 문제를 해결하고, 인간 평가와 더 일치하는 평가 방법을 제공하기 위해 새로운 평가 프레임워크가 필요함.
Method
G-EVAL은 세 가지 주요 구성 요소로 이루어진prompt-based evalutor
- 평가 작업의 정의와 원하는 평가 기준이 포함된 프롬프트
- LLM이 생성한 중간 지시사항으로, 세부적인 평가 단계를 설명하는 체인 오브 생각(CoT)
- LLM을 호출하고 반환된 토큰의 확률에 따라 점수를 계산하는 채점 함수
Prompt for NLG Evaluation
- 프롬프트는 평가 작업과 원하는 평가 기준을 정의하는 자연어 instruction
- 예를 들어, 텍스트 요약의 경우, 프롬프트는 다음과 같이 설정
You will be given one summary written for a news article. Your task is to rate the summary on one metric.
Please make sure you read and under- stand these instructions carefully. Please keep this document open while reviewing, and refer to it as needed.
- 프롬프트에는 또한 다양한 NLG 작업에 맞게 맞춤화된 일관성, 간결성 또는 문법과 같은 평가 기준이 포함되어야 함
- 예를 들어, 텍스트 요약에서 일관성을 평가할 때는 프롬프트에 다음과 같은 내용을 추가
Evaluation Criteria:
Coherence (1-5) - the collective quality of all sentences. We align this dimen- sion with the DUC quality question of structure and coherence whereby ”the summary should be well-structured and well-organized. The summary should not just be a heap of related information, but should build from sentence to sentence to a coherent body of information about a topic.”
Auto Chain-of-Thoughts for NLG Evaluation
- CoT는 LLM이 생성된 텍스트를 평가할 때 더 많은 맥락과 지침을 제공할 수 있으며, 평가 과정과 결과를 설명하는 데도 도움이 됨
- 예를 들어, 텍스트 요약에서 일관성을 평가할 때는 프롬프트에 "Evaluation Steps:"라는 라인을 추가하고, LLM이 다음과 같은 CoT를 자동으로 생성
1. Read the news article carefully and identify the main topic and key points.
2. Read the summary and compare it to the news article. Check if the summary covers the main topic and key points of the news article, and if it presents them in a clear and logical order.
3. Assign a score for coherence on a scale of 1 to 5, where 1 is the lowest and 5 is the highest based on the Evaluation Criteria.
Ex. Coherence 평가 프롬프트
You will be given one summary written for a news article.
Your task is to rate the summary on one metric.
Please make sure you read and understand these instructions carefully. Please keep this document open while reviewing, and refer to it as needed.
Evaluation Criteria:
Coherence (1-5) - the collective quality of all sentences. We align this dimension with the DUC quality question of structure and coherence whereby "the summary should be well-structured and well-organized. The summary should not just be a heap of related information, but should build from sentence to a coherent body of information about a topic."
Evaluation Steps:
1. Read the news article carefully and identify the main topic and key points.
2. Read the summary and compare it to the news article. Check if the summary covers the main topic and key points of the news article, and if it presents them in a clear and logical order.
3. Assign a score for coherence on a scale of 1 to 5, where 1 is the lowest and 5 is the highest based on the Evaluation Criteria.
Example:
Source Text:
{{Document}}
Summary:
{{Summary}}
Evaluation Form (scores ONLY):
- Coherence:
Scoring Function
Scoring function은 설계된 prompt, auto CoT, 입력 context, 평가해야 할 target text와 함께 LLM을 호출함
- Target text를 생성할 조건부 확률을 평가 메트릭으로 사용하는 GPTScore 와는 달리, G-EVAL은 form-filling paradigm을 사용하여 직접 평가 작업을 수행
- 예를 들어, 텍스트 요약에서 일관성을 평가할 때, prompt, CoT, 뉴스 기사, 그리고 summarization을 concat한 후, 정의된 기준에 따라 각 평가 측면에서 1에서 5 사이의 점수를 출력하도록 LLM을 호출
하지만, scoring function에 두 가지 문제가 있음
- 일부 평가 작업에서는 1-5 스케일에서 3과 같은 특정 숫자가 점수 분포를 주로 지배하는 경우가 있음. 이는 점수의 분산이 낮아지고, 인간 판단과의 상관관계가 낮아지는 결과를 초래.
- LLMs은 프롬프트에서 명시적으로 소수 값을 요청하더라도 보통 정수 점수만 출력. 이는 생성된 텍스트 간의 미묘한 차이를 포착하지 못하는 평가 점수의 동점을 많이 초래.
이 문제들을 해결하기 위해, LLMs의 출력 토큰의 확률을 사용하여 점수를 정규화하고, 이들의 가중 합계를 최종 결과로 취하는 방법을 제안
Experiments
Results for Summarization
- 첫 번째 파트: 모델 출력과 참조 텍스트 간의 의미적 유사성을 비교한 메트릭이 대부분의 차원에서 성능이 좋지 않음을 보여줌.
- 두 번째 파트: 신경망을 사용하여 요약 품질에 대한 인간 평가로부터 학습한 메트릭은 유사성 기반 메트릭보다 상관관계가 높아 요약 평가에 더 신뢰할 수 있음.
- 마지막 파트: GPTScore도 GPT를 사용해 요약 텍스트를 평가하지만, G-EVAL은 SummEval 벤치마크에서 모든 이전 최첨단 평가자를 크게 능가.
- G-EVAL-4는 G-EVAL-3.5보다 Spearman 및 Kendall-Tau 상관관계에서 훨씬 더 높은 인간 일치도를 달성, GPT-4의 더 큰 모델 크기가 요약 평가에 유리함을 시사.
- G-EVAL은 여러 차원에서 GPTScore를 능가하여, 단순한 form-filling paradigm의 효과를 입증.
Results for Dialogue Generation
- Table 2는 유사성 기반 메트릭이 응답의 참여도와 근거 있는지 여부에서 인간과 좋은 일치를 보이지만, 다른 측면에서는 그렇지 않음을 보여줌
- 학습 기반 평가자 측면에서는, G-EVAL 이전에 UniEval이 모든 측면에서 인간 평가와 가장 일관된 점수를 예측.
- 마지막 부분에서 보여지듯이, G-EVAL은 Topical-Chat benchmark에서 이전의 모든 최첨단 평가자를 크게 능가.
- 특히 G-EVAL-3.5도 G-EVAL-4와 유사한 결과를 달성할 수 있었고, 이는 이 benchmark가 G-EVAL 모델에게 상대적으로 쉬운 것임을 나타냄
Results on Hallucinations
- Table 3은 BARTScore가 extractive subset(QAGS-CNN)에서는 잘 작동하지만, abstractive subset(QAGS-Xsum)에서는 상관관계가 낮다는 것을 보여줌.
- UniEval은 두 데이터셋 subset 모두에서 좋은 상관관계를 보임
- 평균적으로, G-EVAL-4는 QAGS에서 모든 최신 평가자를 큰 차이로 능가하며, 특히 QAGS-Xsum에서 우수
- 반면, G-EVAL-3.5는 이 benchmark에서 잘 수행하지 못했는데, 이는 consistency 측면이 LLM의 capacity에 민감하다는 것을 나타냄
Analysis
Will G-EVAL prefer LLM-based outputs?
LLM을 평가자로 사용할 때의 한 가지 우려는, LLM이 고품질의 인간이 작성한 텍스트보다는 LLM 자체가 생성한 출력을 선호할 수 있다는 점입니다. 이 문제를 조사하기 위해, 우리는 요약 작업에서 LLM이 생성한 요약과 인간이 작성한 요약의 평가 점수를 비교하는 실험을 수행했습니다. 이 실험에는 Zhang et al. (2023)에서 수집한 데이터셋을 사용했으며, 여기서 프리랜서 작가들에게 뉴스 기사에 대한 고품질 요약을 작성하게 한 후, 평가자들에게 인간이 작성한 요약과 GPT-3.5(text-davinci-003)를 사용해 생성된 요약을 비교하게 했습니다.
이 데이터셋은 세 가지 카테고리로 나눌 수 있음
- 사람이 판단하기에, 사람이 작성한 요약이 GPT-3.5 요약보다 높은 점수를 받은 경우
- 사람이 판단하기에, 사람이 작성한 요약이 GPT-3.5 요약보다 낮은 점수를 받은 경우
- 사람이 판단하기에, 사람이 작성한 요약이 GPT-3.5 요약과 동등하게 좋은 경우
- G-EVAL-4는 Human Summary에 대해서 사람들이 Human Summary을 선호할 때 Human Summary에 더 높은 점수를 부여하고, GPT-3.5 Summary을 선호할 때 Human Summary에 더 낮은 점수를 부여함
- 그러나 G-EVAL-4는 사람들이 Human Summary을 선호할 때조차도 항상 GPT-3.5 Summary에 더 높은 점수를 부여
이러한 현상의 두 가지 잠재적인 이유
- 고품질 시스템에서 생성된 NLG 출력은 본질적으로 평가하기 어려움. 원 논문의 저자들은 Human Summary과 LLM Summary를 평가할 때 평가자 간의 합의도가 매우 낮음을 발견함.
- G-EVAL은 생성 및 평가 과정에서 모델이 동일한 평가 기준 개념을 공유할 수 있기 때문에 LLM이 생성한 요약에 대해 편향이 있을 수 있음
The Effect of Chain-of-Thought
- CoT를 사용한 G-EVAL-4가 CoT를 사용하지 않은 G-EVAL-4보다 모든 차원에서, 특히 유창성 측면에서 더 높은 상관관계를 보임
- 이는 CoT가 LLM이 생성된 텍스트를 평가할 때 더 많은 맥락과 지침을 제공할 수 있으며, 평가 과정과 결과를 설명하는 데도 도움이 될 수 있음을 시사
The Effect of Probability Normalization
- Table 1은 Kendall-Tau 상관관계에서, 확률을 사용한 G-EVAL-4가 확률을 사용하지 않은 G-EVAL-4보다 성능이 떨어진다는 것을 보여줌
- 이는 Kendall-Tau 상관관계 계산 방식과 관련이 있음. Kendall-Tau 상관관계는 일치 및 불일치 쌍의 수를 기반으로 계산되는데, 확률을 사용하지 않은 직접적인 점수 부여는 동점을 많이 발생시킬 수 있으며, 이러한 동점은 일치 또는 불일치로 계산되지 않. 이는 더 높은 Kendall-Tau 상관관계를 초래할 수 있지만, 모델이 생성된 텍스트를 평가하는 실제 능력을 반영하지는 않음.
The Effect of Model Size
- Table 1과 Table 3은 G-EVAL-4가 대부분의 차원과 데이터셋에서 G-EVAL-3.5보다 더 높은 상관관계를 보인다는 것을 보여줌
- 이는 더 큰 모델 크기가 G-EVAL의 성능을 향상시킬 수 있음을 보여주며, 특히 consistency 및 relevance과 같은 더 어려운 평가 작업에서 그 효과가 두드러짐을 시사함
'AI > 기술,논문 리뷰' 카테고리의 다른 글
🔥 PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS (3) | 2024.08.30 |
---|---|
LogicKor: 한국어 언어모델 다분야 사고력 벤치마크 (0) | 2024.08.30 |
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (0) | 2024.08.07 |
Efficient LLM Inference with KCache (0) | 2024.05.08 |
S-LoRA: Serving Thousands of Concurrent LoRA Adapters (0) | 2023.12.13 |