All

    WebLLM, EEVE 모델을 Web GPU로 서빙하기

    WebLLM, EEVE 모델을 Web GPU로 서빙하기

    오늘은 브라우저에서 직접 언어 모델 추론을 가능하게 하는 고성능 인퍼런스 엔진인 WebLLM에 대해 다뤄 보고자 합니다.WebLLM은 하드웨어 가속을 통해 서버 지원 없이 모든 작업을 브라우저 내에서 실행하며, WebGPU로 가속됩니다. 이러한 기능을 통해 누구나 AI 비서를 구축하면서도 개인정보를 보호할 수 있는 다양한 기회를 얻을 수 있습니다. GitHub - mlc-ai/web-llm: High-performance In-browser LLM Inference EngineHigh-performance In-browser LLM Inference Engine . Contribute to mlc-ai/web-llm development by creating an account on GitHub.git..

    Llama.cpp, GGUF 포맷, 그리고 양자화(Quantization)

    Llama.cpp, GGUF 포맷, 그리고 양자화(Quantization)

    오늘은 LLM(Large Language Model) 인퍼런스에서 모델 사이즈를 줄이고 더 빠르게 추론하기 위한 방법론 중 가장 인기가 많은 양자화(Quantization)에 대해 다루겠습니다. 양자화는 모델의 크기를 축소하고 추론 속도를 향상시키는 기술로, 특히 LLM에서 효과적입니다.양자화는 모델의 가중치와 활성화를 저비트(bit) 정밀도로 변환하여 메모리 사용량을 줄이고 계산 속도를 높이는 방법입니다. 예를 들어, 32비트 부동소수점 수치를 8비트 정수로 변환하면 메모리 사용량이 약 4분의 1로 감소하고, 계산 속도도 크게 향상됩니다. 이는 특히 하드웨어 자원이 제한된 환경에서 매우 유용합니다.이전 블로그 글에서 양자화에 대한 기본적인 개념과 다양한 기법을 다루었으니, 자세한 내용을 알고 싶다면 해..

    Triton Inference Server #5. Python Backend

    Triton Inference Server #5. Python Backend

    딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Server는 이러한 요구에 부응하기 위해 설계된 강력한 도구입니다. 이번 시리즈에서는 Triton Inference Server에 대해 샅샅히 파헤처보는 글을 작성해보려고 합니다.  지난 포스트 살펴보기 Triton Inference Server #1. Triton Inference Server란?딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Server..

    Triton Inference Server #4. Model Configuration

    Triton Inference Server #4. Model Configuration

    딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Server는 이러한 요구에 부응하기 위해 설계된 강력한 도구입니다. 이번 시리즈에서는 Triton Inference Server에 대해 샅샅히 파헤처보는 글을 작성해보려고 합니다.  지난 포스트 다시보기 Triton Inference Server #1. Triton Inference Server란?딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Server..

    Triton Inference Server #3. Model Management & Repository

    Triton Inference Server #3. Model Management & Repository

    딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Server는 이러한 요구에 부응하기 위해 설계된 강력한 도구입니다. 이번 시리즈에서는 Triton Inference Server에 대해 샅샅히 파헤처보는 글을 작성해보려고 합니다. 지난 포스트 다시보기 Triton Inference Server #1. Triton Inference Server란?딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Serverd..

    주요 LLM API 비용 정리 (ChatGPT, Gemini, Claude, HyperClova + LLaMA3)

    주요 LLM API 비용 정리 (ChatGPT, Gemini, Claude, HyperClova + LLaMA3)

    TL; DRLLaMA3 70B 모델을 직접 운영할 경우, 최대 효율에서는 GPT-4 Turbo, Gemini Pro 1.5, Claude 3 Sonnet, 그리고 HyperCLOVA HCX-003 모델과 비교했을 때 훨씬 더 비용 효율적으로 서비스를 제공할 수 있습니다.실제 서비스 프로덕션 환경에서는 자원을 100% 활용하는 경우가 매우 드물기 때문에, 이러한 최대 효율성만을 기준으로 결정을 내리기보다는 비용 효율성과 자원 활용률을 종합적으로 고려하는 것이 중요합니다.최근 OpenAI를 포함한 여러 업체들이 Batch API를 도입하여 제공하고 있습니다. 이러한 배치 API를 활용하면, 개별 요청을 처리할 때보다 비용을 훨씬 절약하면서 추론 작업을 수행할 수 있습니다.  LLM API 비용이 포스트에서는..

    Efficient LLM Inference with KCache

    Efficient LLM Inference with KCache

    🔥🔥[KCache] EFFICIENT LLM INFERENCE WITH KCACHE(@Qiaozhi He, Zhihua Wu)https://arxiv.org/pdf/2404.18057TL; DR이 논문은 "KCache"라는 새로운 기술에 대해 설명합니다. 이 기술은 대형 언어 모델(LLM)의 추론 과정에서 메모리 병목 현상을 완화하고 시스템 처리량을 40% 향상시키면서도 정확성을 유지하는 방법을 제시합니다. KCache는 기존의 KV Cache를 대체하여, 메모리 사용량을 줄이면서 추론 속도를 개선합니다. 이를 위해 K 캐시는 HBM(High Bandwidth Memory)에 유지하고, V 캐시는 CPU 메모리에 저장하여 필요한 정보만 동적으로 선택하고 GPU로 복사합니다.또한, 이 논문은 LLM의 ..

    Triton Inference Server #2. 모델 스케쥴링

    Triton Inference Server #2. 모델 스케쥴링

    딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Server는 이러한 요구에 부응하기 위해 설계된 강력한 도구입니다. 이번 시리즈에서는 Triton Inference Server에 대해 샅샅히 파헤처보는 글을 작성해보려고 합니다. 지난 포스트 다시보기 Triton Inference Server #1. Triton Inference Server란?딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Serverd..

    Triton Inference Server #1. Triton Inference Server란?

    Triton Inference Server #1. Triton Inference Server란?

    딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Server는 이러한 요구에 부응하기 위해 설계된 강력한 도구입니다. 이번 시리즈에서는 Triton Inference Server에 대해 샅샅히 파헤처보는 글을 작성해보려고 합니다.  Triton Inference ServerStandardizes model deployment and delivers fast and scalable AI in production.developer.nvidia.com  Triton Inference Server란?Triton Inference Server는 NVIDIA에서 개..

    LLM 애플리케이션 개발 훑어보기 - LangChain #3 Model I/O

    LLM 애플리케이션 개발 훑어보기 - LangChain #3 Model I/O

    Model I/O LangChain 패키지는 NLP 어플리케이션을 원활하게 만들기 위해서 필요한 여러 모듈을 제공합니다. 오늘은 그 중 Model I/O와 관련된 내용을 다룹니다. 이 모듈을 통해 LangChain은 모든 언어 모델과 상호 작용하고, 모델에 대한 입력을 관리하고 출력에서 정보를 추출하는 등의 작업을 수행할 수 있습니다. Prompts 언어 모델에 입력되는 것은 보통 프롬프트라 불립니다. 종종 앱에서 사용자 입력은 모델에 직접적으로 입력되는 것이 아닙니다. 그 대신, 사용자의 입력은 어떤 방식으로든 변형되어 최종적으로 모델에 들어가는 문자열 또는 메시지의 형태로 생성됩니다. 사용자 입력을 받아 최종 문자열 또는 메시지로 변환하는 객체를 PromptTemplate이라고 합니다. LangCha..