QwQ-32B-Preview; Qwen 시리즈의 OpenAI o1의 대항마?
·
AI/기술,논문 리뷰
최근 Qwen 팀이 공개한 QwQ-32B-Preview는 AI 기술의 새로운 가능성을 제시하는 혁신적인 연구 모델입니다. 이 모델은 특히 수학과 프로그래밍 분야에서 뛰어난 성능을 보여주며, 복잡한 문제를 해결하는 데 있어 놀라운 추론 능력을 선보이고 있습니다. QwQ: Reflect Deeply on the Boundaries of the UnknownGITHUB HUGGING FACE MODELSCOPE DEMO DISCORD Note: This is the pronunciation of QwQ: /kwju:/ , similar to the word “quill”. What does it mean to think, to question, to understand? These are the deep wa..
🔥 PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS
·
AI/기술,논문 리뷰
https://arxiv.org/abs/2310.08491 Prometheus: Inducing Fine-grained Evaluation Capability in Language ModelsRecently, using a powerful proprietary Large Language Model (LLM) (e.g., GPT-4) as an evaluator for long-form responses has become the de facto standard. However, for practitioners with large-scale evaluation tasks and custom criteria in consideration (e.garxiv.org   논문이 작성되게 된 배경논문 작성 배경은 ..
LogicKor: 한국어 언어모델 다분야 사고력 벤치마크
·
AI/기술,논문 리뷰
LogicKor는 한국어 언어모델 다양한 분야에서의 사고력을 측정하기위해 구성된 LLM-as-a-judge 방식의 멀티턴 벤치마크 데이터셋입니다. 본 데이터셋은 6가지(추론, 수학, 글쓰기, 코딩, 이해, 국어)의 카테고리의 멀티턴 프롬프트 총 42개로 구성되어있습니다. 벤치마크 리더보드 LogicKor | 한국어 언어모델 다분야 사고력 벤치마크LogicKor은 한국어 언어모델의 다분야 사고력을 측정하는 벤치마크입니다. 추론, 수학, 글쓰기, 코딩, 이해, 문법 등 다양한 분야의 사고력을 측정합니다.lk.instruct.kr 데이터셋 maywell/LogicKor · Datasets at Hugging Face[ "현대 사회는 급속도로 변화하고 있습니다. 기술의 발전, 세계화, 인구 구조 변화, 환경 문..
G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment
·
AI/기술,논문 리뷰
https://arxiv.org/abs/2303.16634 G-Eval: NLG Evaluation using GPT-4 with Better Human AlignmentThe quality of texts generated by natural language generation (NLG) systems is hard to measure automatically. Conventional reference-based metrics, such as BLEU and ROUGE, have been shown to have relatively low correlation with human judgments, especiallyarxiv.org  논문이 작성되게 된 배경자연어 생성(NLG) 시스템의 평가 어려움:..
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
·
AI/기술,논문 리뷰
https://arxiv.org/abs/2306.05685 Judging LLM-as-a-Judge with MT-Bench and Chatbot ArenaEvaluating large language model (LLM) based chat assistants is challenging due to their broad capabilities and the inadequacy of existing benchmarks in measuring human preferences. To address this, we explore using strong LLMs as judges to evaluate these marxiv.org 논문이 작성되게 된 배경LLM의 빠른 발전과 평가의 한계: 최근 몇 년간 대형 언..
Efficient LLM Inference with KCache
·
AI/기술,논문 리뷰
🔥🔥[KCache] EFFICIENT LLM INFERENCE WITH KCACHE(@Qiaozhi He, Zhihua Wu)https://arxiv.org/pdf/2404.18057TL; DR이 논문은 "KCache"라는 새로운 기술에 대해 설명합니다. 이 기술은 대형 언어 모델(LLM)의 추론 과정에서 메모리 병목 현상을 완화하고 시스템 처리량을 40% 향상시키면서도 정확성을 유지하는 방법을 제시합니다. KCache는 기존의 KV Cache를 대체하여, 메모리 사용량을 줄이면서 추론 속도를 개선합니다. 이를 위해 K 캐시는 HBM(High Bandwidth Memory)에 유지하고, V 캐시는 CPU 메모리에 저장하여 필요한 정보만 동적으로 선택하고 GPU로 복사합니다.또한, 이 논문은 LLM의 ..
S-LoRA: Serving Thousands of Concurrent LoRA Adapters
·
AI/기술,논문 리뷰
github: https://github.com/S-LoRA/S-LoRA paper: https://arxiv.org/abs/2311.03285 pretrain-then-finetune LLM 배포에는 일반적으로 pretrain-then-finetune 패러다임이 채택됩니다. Low-Rank Adaptation (LoRA)는 parameter-efficient fine-tuning(PEFT) method로써, base model을 여러 tasks에 적용하는 데 자주 사용되며, 그 결과 하나의 base model에서 파생된 상당한 양의 LoRA adapter가 생성됩니다. 이러한 패러다임은 서비스를 제공하는 동안 batched inference에 상당한 기회 요인을 제공합니다. 이러한 기회를 활용하기 위해..