AI/모델 인퍼런스
WebLLM, EEVE 모델을 Web GPU로 서빙하기
오늘은 브라우저에서 직접 언어 모델 추론을 가능하게 하는 고성능 인퍼런스 엔진인 WebLLM에 대해 다뤄 보고자 합니다.WebLLM은 하드웨어 가속을 통해 서버 지원 없이 모든 작업을 브라우저 내에서 실행하며, WebGPU로 가속됩니다. 이러한 기능을 통해 누구나 AI 비서를 구축하면서도 개인정보를 보호할 수 있는 다양한 기회를 얻을 수 있습니다. GitHub - mlc-ai/web-llm: High-performance In-browser LLM Inference EngineHigh-performance In-browser LLM Inference Engine . Contribute to mlc-ai/web-llm development by creating an account on GitHub.git..
Llama.cpp, GGUF 포맷, 그리고 양자화(Quantization)
오늘은 LLM(Large Language Model) 인퍼런스에서 모델 사이즈를 줄이고 더 빠르게 추론하기 위한 방법론 중 가장 인기가 많은 양자화(Quantization)에 대해 다루겠습니다. 양자화는 모델의 크기를 축소하고 추론 속도를 향상시키는 기술로, 특히 LLM에서 효과적입니다.양자화는 모델의 가중치와 활성화를 저비트(bit) 정밀도로 변환하여 메모리 사용량을 줄이고 계산 속도를 높이는 방법입니다. 예를 들어, 32비트 부동소수점 수치를 8비트 정수로 변환하면 메모리 사용량이 약 4분의 1로 감소하고, 계산 속도도 크게 향상됩니다. 이는 특히 하드웨어 자원이 제한된 환경에서 매우 유용합니다.이전 블로그 글에서 양자화에 대한 기본적인 개념과 다양한 기법을 다루었으니, 자세한 내용을 알고 싶다면 해..
주요 LLM API 비용 정리 (ChatGPT, Gemini, Claude, HyperClova + LLaMA3)
TL; DRLLaMA3 70B 모델을 직접 운영할 경우, 최대 효율에서는 GPT-4 Turbo, Gemini Pro 1.5, Claude 3 Sonnet, 그리고 HyperCLOVA HCX-003 모델과 비교했을 때 훨씬 더 비용 효율적으로 서비스를 제공할 수 있습니다.실제 서비스 프로덕션 환경에서는 자원을 100% 활용하는 경우가 매우 드물기 때문에, 이러한 최대 효율성만을 기준으로 결정을 내리기보다는 비용 효율성과 자원 활용률을 종합적으로 고려하는 것이 중요합니다.최근 OpenAI를 포함한 여러 업체들이 Batch API를 도입하여 제공하고 있습니다. 이러한 배치 API를 활용하면, 개별 요청을 처리할 때보다 비용을 훨씬 절약하면서 추론 작업을 수행할 수 있습니다. LLM API 비용이 포스트에서는..
LLM 인퍼런스 훑어보기 (6) - quantization
이전 포스트에서는 LLM 인퍼런스에서 batching 기법의 중요성을 알아보았고, GPU util을 극대화하기 위한 batching 기법인 continuous batching에 대해서 알아보았습니다. continuous batching에 대해 자세히 알아보고 싶으신 분들은 이전 포스트를 참고하시면 좋을 것 같습니다. LLM 인퍼런스 훑어보기 (5) - continuous batching 이전 포스트에서는 kernel funsion에 대해 알아보는 내용을 다뤘었습니다. 커널 퓨전의 의미, 구현 방법, 그리고 활용 사례에 대해 자세히 알아보고 싶으신 분들은 이전 포스트를 참고하시면 좋을 dytis.tistory.com 오늘은 LLM 인퍼런스에서 메모리 효율화 기법 중 하나인 quantization에 대해서 ..
LLM 인퍼런스 훑어보기 (5) - continuous batching
이전 포스트에서는 kernel funsion에 대해 알아보는 내용을 다뤘었습니다. 커널 퓨전의 의미, 구현 방법, 그리고 활용 사례에 대해 자세히 알아보고 싶으신 분들은 이전 포스트를 참고하시면 좋을 것 같습니다. LLM 인퍼런스 훑어보기 (4) - kernel fusion 이전 포스트에서는 KV Cache에 대해 더 깊게 알아보는 내용을 다뤘었습니다. 주로 Hugging Face Transformers의 구현체와 vLLM 프로젝트의 구현체를 탐구해 보았죠. 더 자세한 내용은 아래 링크에서 확인하 dytis.tistory.com 오늘은 LLM 인퍼런스에서 Batching 기법에 대해서 다루고자 합니다. Batch ML에서 "batch"는 일반적으로 훈련 데이터를 나누는 단위를 나타냅니다. 전체 데이터셋을..
LLM 인퍼런스 훑어보기 (4) - kernel fusion
이전 포스트에서는 KV Cache에 대해 더 깊게 알아보는 내용을 다뤘었습니다. 주로 Hugging Face Transformers의 구현체와 vLLM 프로젝트의 구현체를 탐구해 보았죠. 더 자세한 내용은 아래 링크에서 확인하실 수 있습니다: LLM 인퍼런스 훑어보기 (3) - KV Cache (deep dive) 이전 포스트에서는 트랜스포머의 구조와 어텐션 메커니즘이 무엇인지 다루었다. 그리고 LLM 인퍼런스에서 KV Cache가 무엇이며, 왜 도입되어 사용되는지에 대해서 다뤘다. 지난 포스트는 아래 링 dytis.tistory.com 오늘은 LLM 인퍼런스 가속화 방법 중 하나로 알려진 "커널 퓨전 (kernel fusion)"에 대해 알아보려고 합니다. Kernel fusion GPU는 주로 다양한..
LLM 인퍼런스 훑어보기 (3) - KV Cache (deep dive)
이전 포스트에서는 트랜스포머의 구조와 어텐션 메커니즘이 무엇인지 다루었다. 그리고 LLM 인퍼런스에서 KV Cache가 무엇이며, 왜 도입되어 사용되는지에 대해서 다뤘다. 지난 포스트는 아래 링크를 참조하자. LLM 인퍼런스 훑어보기 (2) - KV Cache 앞선 포스트에서는 Large Language Model (LLM) 인퍼런스의 중요성과 왜 우리는 LLM을 효율적으로 활용해야 하는지를 알아보았다. 더불어, LLM을 이용한 문장 생성은 autoregressive generation이며, 해당 생성 dytis.tistory.com 이번 포스트에서는 다른 가속 방법을 다루려고 했었는데, KV Cache에 대해서 좀 더 deep dive 해보는 내용을 작성해보려고 한다. deep dive 내용은 llam..
LLM 인퍼런스 훑어보기 (2) - KV Cache
앞선 포스트에서는 Large Language Model (LLM) 인퍼런스의 중요성과 왜 우리는 LLM을 효율적으로 활용해야 하는지를 알아보았다. 더불어, LLM을 이용한 문장 생성은 autoregressive generation이며, 해당 생성 과정에서 사용할 수 있는 다양한 디코딩 전략을 소개하였다. 지난 포스트는 아래 링크를 참조하자. https://dytis.tistory.com/53 LLM 인퍼런스 훑어보기 (1) - LLM을 이용한 문장 생성 인공 지능과 기계 학습 기술의 발전은 현대 사회에 혁명적인 변화를 가져왔다. 특히, Large Language Model(LLM)과 같은 최신 기술은 자연어 처리 및 이해 분야에서 차별화된 성능을 보이며, 다양한 분 dytis.tistory.com 이번 ..
LLM 인퍼런스 훑어보기 (1) - LLM을 이용한 문장 생성
인공 지능과 머신 러닝의 급속한 발전은 특히 자연어 처리 분야에서 주목할 만한 진전을 이루었습니다. 이 분야에서 Large Language Model(LLM)은 그 우수한 성능으로 다양한 서비스와 애플리케이션의 혁신을 가능하게 했습니다. 이러한 모델들은 방대한 양의 데이터와 복잡한 네트워크 구조를 바탕으로 학습되어, 상당한 컴퓨팅 자원과 시간을 필요로 합니다.LLM은 언어 이해와 생성 작업에서 뛰어난 결과를 보여주며, 이를 가능하게 하는 기술적 구현은 특히 중요합니다. 실제 서비스에 LLM을 적용하기 위해서는 모델의 인퍼런스가 효율적이어야 하며, 이는 컴퓨팅 자원을 적절히 관리하고 최적화하는 과정을 포함합니다. 효율성과 효과성은 이 모델을 경제적으로 운용하면서도 최대의 성능을 발휘하도록 하는 핵심 요소입..