전체 글

전체 글

    오픈소스 릴리즈 노트 읽기 - 24년 9월 2, 3주차

    안녕하세요, AI 오픈소스 프로젝트에 관심을 갖고 계신 여러분!이번 주에도 여러 흥미로운 오픈소스 프로젝트들이 새롭게 릴리즈되었습니다.여러분께 도움이 될 만한 주요 릴리즈 소식을 정리해 보았으니, 관심 있는 프로젝트가 있다면 업데이트된 기능과 버그 수정 내용을 확인해 보세요.  제가 평소에 관심있게 살펴보는 프로젝트들입니다.아래 목록에 추가하고 싶은 오픈소스 프로젝트가 있다면, 댓글로 남겨주세요!langchain-ai/langchainlangchain-ai/langgraphhuggingface/transformersvllm-project/vllmNVIDIA/TensorRT-LLMmicrosoft/DeepSpeedollama/ollama  langchain-ai/langchainlangchain==0.3...

    오픈소스 릴리즈 노트 읽기 - 24년 9월 1주차

    안녕하세요, AI 오픈소스 프로젝트에 관심을 갖고 계신 여러분!이번 주에도 여러 흥미로운 오픈소스 프로젝트들이 새롭게 릴리즈되었습니다.여러분께 도움이 될 만한 주요 릴리즈 소식을 정리해 보았으니, 관심 있는 프로젝트가 있다면 업데이트된 기능과 버그 수정 내용을 확인해 보세요.  제가 평소에 관심있게 살펴보는 프로젝트들입니다.아래 목록에 추가하고 싶은 오픈소스 프로젝트가 있다면, 댓글로 남겨주세요!langchain-ai/langchainlangchain-ai/langgraphhuggingface/transformersvllm-project/vllmNVIDIA/TensorRT-LLMmicrosoft/DeepSpeedollama/ollama  langchain-ai/langchainlangchain-core=..

    nvitop; 대화형 NVIDIA-GPU 프로세스 관리를 위한 원스톱 솔루션

    nvitop; 대화형 NVIDIA-GPU 프로세스 관리를 위한 원스톱 솔루션

    nvitop은 상호작용이 가능한 NVIDIA 장치 및 프로세스 모니터링 도구입니다. 이 도구는 장치와 프로세스의 상태를 지속적으로 업데이트하며, 컬러풀하고 유용한 인터페이스를 제공합니다.https://github.com/XuehaiPan/nvitop?tab=readme-ov-file GitHub - XuehaiPan/nvitop: An interactive NVIDIA-GPU process viewer and beyond, the one-stop solution for GPU process managementAn interactive NVIDIA-GPU process viewer and beyond, the one-stop solution for GPU process management. - Xuehai..

    pipx; 격리된 환경에서 Python 애플리케이션 설치 및 실행

    pipx란?pipx는 Python으로 작성된 최종 사용자 애플리케이션을 설치하고 실행하는 데 도움을 주는 도구입니다. 대략 macOS의 brew, JavaScript의 npx, 그리고 Linux의 apt와 비슷합니다.https://github.com/pypa/pipx?tab=readme-ov-file GitHub - pypa/pipx: Install and Run Python Applications in Isolated EnvironmentsInstall and Run Python Applications in Isolated Environments - pypa/pipxgithub.com pip와 밀접한 관련이 있으며, 실제로 pip를 사용하지만, 주로 명령줄에서 직접 애플리케이션으로 실행할 수 있는 Py..

    오픈소스 릴리즈 노트 읽기 - 8월 5주차

    안녕하세요, AI 오픈소스 프로젝트에 관심을 갖고 계신 여러분!이번 주에도 여러 흥미로운 오픈소스 프로젝트들이 새롭게 릴리즈되었습니다.여러분께 도움이 될 만한 주요 릴리즈 소식을 정리해 보았으니, 관심 있는 프로젝트가 있다면 업데이트된 기능과 버그 수정 내용을 확인해 보세요.  제가 평소에 관심있게 살펴보는 프로젝트들입니다.아래 목록에 추가하고 싶은 오픈소스 프로젝트가 있다면, 댓글로 남겨주세요!langchain-ai/langchainhuggingface/transformersvllm-project/vllmNVIDIA/TensorRT-LLMmicrosoft/DeepSpeedollama/ollama  langchain-ai/langchainlangchain-core==0.2.36https://github...

    LitServe 리뷰

    LitServe 리뷰

    최근 Lightning AI에서 AI 모델을 쉽게 서빙할 수 있도록 하는 프레임워크인 LitServe를 공개하였습니다.https://lightning.ai/docs/litserve Lightning AI | Turn ideas into AI, Lightning fastThe all-in-one platform for AI development. Code together. Prototype. Train. Scale. Serve. From your browser - with zero setup. From the creators of PyTorch Lightning.lightning.ai LitServe는 FastAPI를 기반으로 구축된 AI 모델을 위한 사용하기 쉽고 유연한 서빙 엔진입니다. 배칭(batch..

    🔥 PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS

    🔥 PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS

    https://arxiv.org/abs/2310.08491 Prometheus: Inducing Fine-grained Evaluation Capability in Language ModelsRecently, using a powerful proprietary Large Language Model (LLM) (e.g., GPT-4) as an evaluator for long-form responses has become the de facto standard. However, for practitioners with large-scale evaluation tasks and custom criteria in consideration (e.garxiv.org   논문이 작성되게 된 배경논문 작성 배경은 ..

    LogicKor: 한국어 언어모델 다분야 사고력 벤치마크

    LogicKor: 한국어 언어모델 다분야 사고력 벤치마크

    LogicKor는 한국어 언어모델 다양한 분야에서의 사고력을 측정하기위해 구성된 LLM-as-a-judge 방식의 멀티턴 벤치마크 데이터셋입니다. 본 데이터셋은 6가지(추론, 수학, 글쓰기, 코딩, 이해, 국어)의 카테고리의 멀티턴 프롬프트 총 42개로 구성되어있습니다. 벤치마크 리더보드 LogicKor | 한국어 언어모델 다분야 사고력 벤치마크LogicKor은 한국어 언어모델의 다분야 사고력을 측정하는 벤치마크입니다. 추론, 수학, 글쓰기, 코딩, 이해, 문법 등 다양한 분야의 사고력을 측정합니다.lk.instruct.kr 데이터셋 maywell/LogicKor · Datasets at Hugging Face[ "현대 사회는 급속도로 변화하고 있습니다. 기술의 발전, 세계화, 인구 구조 변화, 환경 문..

    G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment

    G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment

    https://arxiv.org/abs/2303.16634 G-Eval: NLG Evaluation using GPT-4 with Better Human AlignmentThe quality of texts generated by natural language generation (NLG) systems is hard to measure automatically. Conventional reference-based metrics, such as BLEU and ROUGE, have been shown to have relatively low correlation with human judgments, especiallyarxiv.org  논문이 작성되게 된 배경자연어 생성(NLG) 시스템의 평가 어려움:..

    오픈소스 릴리즈 노트 읽기 - 8월 4주차

    안녕하세요, AI 오픈소스 프로젝트에 관심을 갖고 계신 여러분!이번 주에도 여러 흥미로운 오픈소스 프로젝트들이 새롭게 릴리즈되었습니다.여러분께 도움이 될 만한 주요 릴리즈 소식을 정리해 보았으니, 관심 있는 프로젝트가 있다면 업데이트된 기능과 버그 수정 내용을 확인해 보세요.  제가 평소에 관심있게 살펴보는 프로젝트들입니다.아래 목록에 추가하고 싶은 오픈소스 프로젝트가 있다면, 댓글로 남겨주세요!langchain-ai/langchainhuggingface/transformersvllm-project/vllmNVIDIA/TensorRT-LLMmicrosoft/DeepSpeedollama/ollama  langchain-ai/langchainlangchain-core==0.2.34https://github...

    오픈소스 릴리즈 노트 읽기 - 8월 3주차

    안녕하세요, AI 오픈소스 프로젝트에 관심을 갖고 계신 여러분!이번 주에도 여러 흥미로운 오픈소스 프로젝트들이 새롭게 릴리즈되었습니다.여러분께 도움이 될 만한 주요 릴리즈 소식을 정리해 보았으니, 관심 있는 프로젝트가 있다면 업데이트된 기능과 버그 수정 내용을 확인해 보세요.  제가 평소에 관심있게 살펴보는 프로젝트들입니다.아래 목록에 추가하고 싶은 오픈소스 프로젝트가 있다면, 댓글로 남겨주세요!langchain-ai/langchainhuggingface/transformersvllm-project/vllmNVIDIA/TensorRT-LLMmicrosoft/DeepSpeedollama/ollama  langchain-ai/langchainlangchain-core==0.2.31https://github...

    오픈소스 릴리즈 노트 읽기 - 8월 2주차

    안녕하세요, AI 오픈소스 프로젝트에 관심을 갖고 계신 여러분!이번 주에도 여러 흥미로운 오픈소스 프로젝트들이 새롭게 릴리즈되었습니다.여러분께 도움이 될 만한 주요 릴리즈 소식을 정리해 보았으니, 관심 있는 프로젝트가 있다면 업데이트된 기능과 버그 수정 내용을 확인해 보세요.  제가 평소에 관심있게 살펴보는 프로젝트들입니다.아래 목록에 추가하고 싶은 오픈소스 프로젝트가 있다면, 댓글로 남겨주세요!langchain-ai/langchainhuggingface/transformersvllm-project/vllmNVIDIA/TensorRT-LLMmicrosoft/DeepSpeedollama/ollama   langchain-ai/langchainlangchain-core==0.2.29rc1https://git..

    Liveness, Readiness, and Startup Probes

    Liveness, Readiness, 그리고 Startup ProbesKubernetes에는 다양한 유형의 프로브(Probe)가 있습니다:Liveness 프로브Readiness 프로브Startup 프로브 Liveness 프로브Liveness 프로브는 컨테이너를 언제 재시작해야 하는지를 결정합니다. 예를 들어, 애플리케이션이 실행 중이지만 더 이상 진행할 수 없는 교착 상태(데드락)에 빠진 경우, Liveness 프로브가 이를 감지할 수 있습니다.컨테이너가 Liveness 프로브에서 반복적으로 실패할 경우, kubelet은 해당 컨테이너를 재시작합니다. Liveness 프로브는 Readiness 프로브의 성공을 기다리지 않으며, Liveness 프로브를 실행하기 전에 대기하려면 initialDelaySec..

    Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

    Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

    https://arxiv.org/abs/2306.05685 Judging LLM-as-a-Judge with MT-Bench and Chatbot ArenaEvaluating large language model (LLM) based chat assistants is challenging due to their broad capabilities and the inadequacy of existing benchmarks in measuring human preferences. To address this, we explore using strong LLMs as judges to evaluate these marxiv.org 논문이 작성되게 된 배경LLM의 빠른 발전과 평가의 한계: 최근 몇 년간 대형 언..

    오픈소스 릴리즈 노트 읽기 - 8월 1주차

    안녕하세요, AI 오픈소스 프로젝트에 관심을 갖고 계신 여러분!이번 주에도 여러 흥미로운 오픈소스 프로젝트들이 새롭게 릴리즈되었습니다.여러분께 도움이 될 만한 주요 릴리즈 소식을 정리해 보았으니, 관심 있는 프로젝트가 있다면 업데이트된 기능과 버그 수정 내용을 확인해 보세요.  제가 평소에 관심있게 살펴보는 프로젝트들입니다.아래 목록에 추가하고 싶은 오픈소스 프로젝트가 있다면, 댓글로 남겨주세요!langchain-ai/langchainhuggingface/transformersggerganov/llama.cppvllm-project/vllmNVIDIA/TensorRT-LLM  langchain-ai/langchainlangchain-core==0.2.25https://github.com/langchain..

    langchain / 0.2.12

    Langchain v0.2.12의 릴리즈 노트에서 주요 변경 사항을 요약하면 다음과 같습니다:Ambiguous root_validator의 업그레이드: 기존의 root_validator를 @pre_init로 업그레이드하였습니다. 이는 코드의 초기화 단계에서의 검증을 더 명확하게 하기 위한 조치입니다.단위 테스트 수정: Pydantic 2와 관련된 문제를 해결하기 위해 단위 테스트가 업데이트되었습니다.타입 주석 추가: 코드에 누락된 타입 주석이 추가되어 코드의 가독성과 유지보수성이 개선되었습니다.init_chat_model 함수 관련 수정:ChatOllama 클래스의 초기화 문제가 수정되었습니다.init_chat_model() 함수가 langchain-ollama와 langchain-community를 폴..

    ollama / v0.3.3

    이번 Ollama v0.3.3 릴리즈는 여러 가지 중요한 업데이트와 수정 사항을 포함하고 있습니다. 주요 변경 사항은 다음과 같습니다:/api/embed 엔드포인트 업데이트: 이제 이 엔드포인트는 total_duration, load_duration, prompt_eval_count와 같은 통계 데이터를 반환합니다. 이를 통해 임베딩 처리에 대한 더 많은 정보를 제공할 수 있게 되었습니다./v1/embeddings API의 사용량 통계 추가: OpenAI 호환성 API에 사용량 통계가 추가되었습니다. 이를 통해 API 사용에 대한 보다 구체적인 통계 데이터를 얻을 수 있습니다./api/generate의 오류 수정:context가 제공되었을 때 빈 문자열을 반환하는 문제를 해결했습니다.context에 대해..

    transformers / v4.43.3

    이번 Hugging Face의 Transformers 릴리즈(v4.43.3)의 주요 내용은 다음과 같습니다:DeepSpeed 관련 수정:DeepSpeed와 함께 사용될 때 임베딩 크기를 조정하는 기능이 추가되었습니다. 이는 사용자가 모델의 임베딩 크기를 더 유연하게 조정할 수 있도록 돕는 기능입니다.기타 수정 사항:Whisper 모델: 짧은 오디오에 대한 출력 형식을 수정하였습니다. 이로 인해 짧은 오디오 처리 시의 온도 설정이 개선되었습니다.BigBird Pegasus 모델: _supports_param_buffer_assignment를 False로 설정하여 새로운 초고속 초기화 기능에서 일부 모델이 이상하게 동작하는 문제를 방지하였습니다.이번 패치는 주로 버그 수정과 성능 개선을 목표로 하고 있으며,..

    transformers / v4.43.2

    이번 transformers v4.43.2는 주로 몇 가지 버그 수정과 개선 사항을 포함한 패치 릴리즈입니다. 주요 변경 사항은 다음과 같습니다:float8_e4m3fn 수정 (PR #32193):modeling_utils에서 float8_e4m3fn에 대한 문제를 수정했습니다. 이는 특정 유형의 부동 소수점 연산과 관련된 문제일 가능성이 있으며, 정확한 연산 및 모델 동작을 보장하기 위한 수정으로 보입니다.Deepspeed와 함께 임베딩 리사이즈 문제 수정 (PR #32192):Deepspeed와 관련된 임베딩 리사이즈 작업에서 발생하는 문제를 해결했습니다. Deepspeed는 대규모 모델 학습을 최적화하기 위한 도구로, 이번 수정은 Deepspeed를 사용하는 모델에서 임베딩 크기를 조정할 때 발생하..

    vLLM / v0.5.3.post1

    이번 vLLM v0.5.3.post1는 주로 Meta Llama 3.1 모델과의 호환성을 개선하고 몇 가지 버그를 수정한 것이 주요 내용입니다. 아래는 이번 릴리즈의 주요 내용입니다:주요 사항 (Highlights)Meta Llama 3.1과의 호환성 문제 해결: 이번 릴리즈에서는 vLLM과 Meta Llama 3.1 가중치 간의 설정 비호환성을 수정했습니다. 이는 Meta Llama 3.1이 정식으로 릴리즈되기 전 버전으로 테스트된 vLLM과의 호환성 문제를 해결한 것입니다. (#6693)변경 사항 (What's Changed)문서 업데이트: Meta Llama 3.1의 지원을 공식적으로 발표하는 문서가 추가되었습니다.분산 시스템 관련 문서 수정: 문서 내 인수 순서 오류가 수정되었습니다.버그 수정:로..

    Kafka Connect란?

    Kafka Connect란?

    Kafka Connect는 Apache Kafka와 다른 데이터 시스템 간에 데이터를 확장 가능하고 안정적으로 스트리밍할 수 있는 도구입니다. 이를 통해 대용량 데이터 세트를 Kafka 안팎으로 이동시키는 커넥터를 빠르게 정의할 수 있습니다. Kafka Connect는 전체 데이터베이스를 수집하거나 모든 애플리케이션 서버의 메트릭을 Kafka topic으로 수집하여, 저지연으로 스트림 처리를 가능하게 합니다. 또한, export 커넥터를 통해 Kafka topic에서 Elasticsearch와 같은 2차 인덱스 또는 오프라인 분석을 위한 Hadoop과 같은 배치 시스템으로 데이터를 전달할 수 있습니다.이 포스트에서는 Kafka Connect의 작동 방식과 중요 용어 및 핵심 개념을 설명합니다. Kafka..

    WebLLM, EEVE 모델을 Web GPU로 서빙하기

    WebLLM, EEVE 모델을 Web GPU로 서빙하기

    오늘은 브라우저에서 직접 언어 모델 추론을 가능하게 하는 고성능 인퍼런스 엔진인 WebLLM에 대해 다뤄 보고자 합니다.WebLLM은 하드웨어 가속을 통해 서버 지원 없이 모든 작업을 브라우저 내에서 실행하며, WebGPU로 가속됩니다. 이러한 기능을 통해 누구나 AI 비서를 구축하면서도 개인정보를 보호할 수 있는 다양한 기회를 얻을 수 있습니다. GitHub - mlc-ai/web-llm: High-performance In-browser LLM Inference EngineHigh-performance In-browser LLM Inference Engine . Contribute to mlc-ai/web-llm development by creating an account on GitHub.git..

    Llama.cpp, GGUF 포맷, 그리고 양자화(Quantization)

    Llama.cpp, GGUF 포맷, 그리고 양자화(Quantization)

    오늘은 LLM(Large Language Model) 인퍼런스에서 모델 사이즈를 줄이고 더 빠르게 추론하기 위한 방법론 중 가장 인기가 많은 양자화(Quantization)에 대해 다루겠습니다. 양자화는 모델의 크기를 축소하고 추론 속도를 향상시키는 기술로, 특히 LLM에서 효과적입니다.양자화는 모델의 가중치와 활성화를 저비트(bit) 정밀도로 변환하여 메모리 사용량을 줄이고 계산 속도를 높이는 방법입니다. 예를 들어, 32비트 부동소수점 수치를 8비트 정수로 변환하면 메모리 사용량이 약 4분의 1로 감소하고, 계산 속도도 크게 향상됩니다. 이는 특히 하드웨어 자원이 제한된 환경에서 매우 유용합니다.이전 블로그 글에서 양자화에 대한 기본적인 개념과 다양한 기법을 다루었으니, 자세한 내용을 알고 싶다면 해..

    Triton Inference Server #5. Python Backend

    Triton Inference Server #5. Python Backend

    딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Server는 이러한 요구에 부응하기 위해 설계된 강력한 도구입니다. 이번 시리즈에서는 Triton Inference Server에 대해 샅샅히 파헤처보는 글을 작성해보려고 합니다.  지난 포스트 살펴보기 Triton Inference Server #1. Triton Inference Server란?딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Server..

    Triton Inference Server #4. Model Configuration

    Triton Inference Server #4. Model Configuration

    딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Server는 이러한 요구에 부응하기 위해 설계된 강력한 도구입니다. 이번 시리즈에서는 Triton Inference Server에 대해 샅샅히 파헤처보는 글을 작성해보려고 합니다.  지난 포스트 다시보기 Triton Inference Server #1. Triton Inference Server란?딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Server..

    Triton Inference Server #3. Model Management & Repository

    Triton Inference Server #3. Model Management & Repository

    딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Server는 이러한 요구에 부응하기 위해 설계된 강력한 도구입니다. 이번 시리즈에서는 Triton Inference Server에 대해 샅샅히 파헤처보는 글을 작성해보려고 합니다. 지난 포스트 다시보기 Triton Inference Server #1. Triton Inference Server란?딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Serverd..

    주요 LLM API 비용 정리 (ChatGPT, Gemini, Claude, HyperClova + LLaMA3)

    주요 LLM API 비용 정리 (ChatGPT, Gemini, Claude, HyperClova + LLaMA3)

    TL; DRLLaMA3 70B 모델을 직접 운영할 경우, 최대 효율에서는 GPT-4 Turbo, Gemini Pro 1.5, Claude 3 Sonnet, 그리고 HyperCLOVA HCX-003 모델과 비교했을 때 훨씬 더 비용 효율적으로 서비스를 제공할 수 있습니다.실제 서비스 프로덕션 환경에서는 자원을 100% 활용하는 경우가 매우 드물기 때문에, 이러한 최대 효율성만을 기준으로 결정을 내리기보다는 비용 효율성과 자원 활용률을 종합적으로 고려하는 것이 중요합니다.최근 OpenAI를 포함한 여러 업체들이 Batch API를 도입하여 제공하고 있습니다. 이러한 배치 API를 활용하면, 개별 요청을 처리할 때보다 비용을 훨씬 절약하면서 추론 작업을 수행할 수 있습니다.  LLM API 비용이 포스트에서는..

    Efficient LLM Inference with KCache

    Efficient LLM Inference with KCache

    🔥🔥[KCache] EFFICIENT LLM INFERENCE WITH KCACHE(@Qiaozhi He, Zhihua Wu)https://arxiv.org/pdf/2404.18057TL; DR이 논문은 "KCache"라는 새로운 기술에 대해 설명합니다. 이 기술은 대형 언어 모델(LLM)의 추론 과정에서 메모리 병목 현상을 완화하고 시스템 처리량을 40% 향상시키면서도 정확성을 유지하는 방법을 제시합니다. KCache는 기존의 KV Cache를 대체하여, 메모리 사용량을 줄이면서 추론 속도를 개선합니다. 이를 위해 K 캐시는 HBM(High Bandwidth Memory)에 유지하고, V 캐시는 CPU 메모리에 저장하여 필요한 정보만 동적으로 선택하고 GPU로 복사합니다.또한, 이 논문은 LLM의 ..

    Triton Inference Server #2. 모델 스케쥴링

    Triton Inference Server #2. 모델 스케쥴링

    딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Server는 이러한 요구에 부응하기 위해 설계된 강력한 도구입니다. 이번 시리즈에서는 Triton Inference Server에 대해 샅샅히 파헤처보는 글을 작성해보려고 합니다. 지난 포스트 다시보기 Triton Inference Server #1. Triton Inference Server란?딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Serverd..

    Triton Inference Server #1. Triton Inference Server란?

    Triton Inference Server #1. Triton Inference Server란?

    딥러닝 모델의 성능을 최적화하고 배포하는 것은 현대 AI 애플리케이션의 핵심 요소 중 하나입니다. 그 중에서도 모델을 효율적으로 관리하고 운영하는 것은 매우 중요합니다. Triton Inference Server는 이러한 요구에 부응하기 위해 설계된 강력한 도구입니다. 이번 시리즈에서는 Triton Inference Server에 대해 샅샅히 파헤처보는 글을 작성해보려고 합니다.  Triton Inference ServerStandardizes model deployment and delivers fast and scalable AI in production.developer.nvidia.com  Triton Inference Server란?Triton Inference Server는 NVIDIA에서 개..