All

    강의 노트: LoRa로 빠르게 나만의 모델을 만들어보자

    강의 노트: LoRa로 빠르게 나만의 모델을 만들어보자

    본 정리글은 "[챗GPT 러닝데이 | 챗GPT말고 LLM] LoRa로 빠르게 나만의 모델을 만들어보자 - 김용담"을 보고 작성하였습니다. LoRa가 등장한 배경 Large-Scale Pretrained Model 대용량 데이터와 대규모 파라미터로 학습된 모델들 GPT-3 (175B) LSPM limitation Over-parametrized model이다 보통 pre-trained model을 fine-tuning해서 donwstream task를 푸는데, 필요한 정보는 일부임 기존 연구들을 통해서 필요한 정보는 'intrinsic dimension'에 있을 것이라고 판단했음 이러한 intrinsic dimension을 찾기 위해 'Low-Rank space'로 변환하는 방식을 사용하면 더 적은 파라미..

    [GPT로 영어 공부] 23. 07. 06

    업무를 하면서 영어 회화의 중요성을 느끼고 있는 요즘입니다. openAI의 chatGPT에게 영어를 배워보면 재미있을 것 같아서, 자주자주 GPT와 놀아볼 예정입니다. 이 대화의 instruction 및 prompt는 ChatGPT에게 생성 요청하였습니다. Me Let's have a small talk in English! What topic would you like to discuss? ChatGPT Sure, let's have a small talk! How about we discuss travel? It's always interesting to talk about different destinations, experiences, and travel tips. Do yo..

    강의 노트: 입문 - 자연어처리 시작하기

    본 정리글은 "[챗GPT 러닝데이] 입문 - 자연어처리 시작하기 - 김준영"을 보고 작성하였습니다. 자연어 처리? 자연어 처리 = 인간의 언어 텍스트를 컴퓨터로 표현하기 근본은 사실 확률적 언어 생성이다. => 입력된 제시 조건(문장, 단어 등)에서부터 내용을 잘 파악해서 어떤 말들이 이어서 나올 가능성이 높았는가? 컴퓨터로 문장과 문단의 의미를 다루기 위해서는 문장을 형태소로 분리하고 -> 토큰화(tokenizing) 형태소마다의 의미를 수로 표현할 수 있어야 함 -> 임베딩(embedding) Tokenizer 크게 두가지 tokenizer가 있음 전문가 분석/지도학습 기반 Okyt, Komoran, Mecab, Hannanum, Kkma 등 비지도학습 기반 sentencepiece, soynlp 등..

    [GPT로 영어 공부] 23. 07. 05

    업무를 하면서 영어 회화의 중요성을 느끼고 있는 요즘입니다. openAI의 chatGPT에게 영어를 배워보면 재미있을 것 같아서, 자주자주 GPT와 놀아볼 예정입니다. 이 대화의 instruction 및 prompt는 ChatGPT에게 생성 요청하였습니다. Me Let's have a small talk in English! What topic would you like to discuss? ChatGPT Sure! How about we discuss traveling? It's always a fascinating topic. Where is your favorite travel destination, and what makes it special to you? Me traveling?..

    [Storage] Object vs File vs Block Storage: 차이점이 무엇인가?

    파일, 개체 및 블록 스토리지, 주요 차이점 및 요구 사항에 가장 적합한 유형을 살펴보십시오. 조직의 데이터는 가장 귀중한 자산 중 하나입니다. 고객 정보, 빅 데이터 분석, 재무 정보, 직원 기록, 맞춤형 애플리케이션 등 각 데이터 또는 더 큰 데이터 세트는 정보를 저장하는 위치와 방법에 대한 중요한 결정을 내려야 합니다. 조직에서 여러 유형의 스토리지를 사용하는 경우가 많지만 스토리지는 데이터 수준에서 결정해야 합니다. 객체 스토리지란 무엇입니까? 개체 스토리지 는 데이터를 별도의 독립된 단위로 나누고 모든 개체가 동일한 수준에 있는 평평한 환경에 다시 저장되는 시스템입니다. 파일 저장소에 사용되는 것과 같은 폴더나 하위 디렉터리가 없습니다. 또한 오브젝트 스토리지는 모든 데이터를 단일 파일에 함께 ..

    [Traefik] Traefik Proxy

    [Traefik] Traefik Proxy

    Traefik Proxy Documentation - Traefik Welcome Traefik is an open-source Edge Router that makes publishing your services a fun and easy experience. It receives requests on behalf of your system and finds out which components are responsible for handling them. What sets Traefik apart, besides it doc.traefik.io Architecture Overview traefik은 모든 요청을 인터셉트하고 해당하는 백엔드 서버에 라우트함 전통적인 리버스 프록시들과는 다르게, serv..

    [Istio] Introduction - Istio란?

    [Istio] Introduction - Istio란?

    이 글은 istio 공식 문서에서 발췌한 내용들로 구성되어 있습니다. The Istio service mesh What is Service Mesh? 일반적으로 모던 어플리케이션들은 몇몇의 이산적인 비즈니스 로직을 수행하는 분산된 마이크로서비스 집합들로 설계됨 서비스메시는 전용 인프라 계층(dedicated infrastructure layer)이라서 자체 코드를 추가하지 않고도 observability, traffic management, security 같은 기능을 추가할 수 있음 "서비스 메시"라는 용어는 이 패턴을 구현하는 데 사용하는 소프트웨어 유형과 해당 소프트웨어를 사용할 때 생성되는 보안 또는 네트워크 도메인을 모두 설명 운영 요구사항: 검색, 로드 밸런싱, 장애 복구, 메트릭 및 모니터링..

    [마이크로서비스 패턴] 분해 전략

    [마이크로서비스 패턴] 분해 전략

    마이크로서비스 아키텍처란 무엇인가? 마이크로서비스 아키텍처의 핵심 사상은 기능 분해이다. 이전에는 확장성, 신뢰성, 보안 등이 아키텍처의 주요 목표였지만, 이제는 신속, 안전하게 소프트웨어를 전달하는 능력도 매우 중요해졌다. 마이크로서비스 아키텍처는 관리성, 테스트성, 배포성이 높은 아키텍처 스타일. ▶ 소프트웨어 아키텍처의 4+1 뷰 모델 애플리케이션 아키텍처를 바라보는 관점은 다양하다. 필립 크러첸(Phillip Krutchen)은 소프트웨어 아키텍처가 4+1 뷰 모델이라고 기술한 논문을 발표했다. 4+1 뷰 모델은 소프트웨어 아키텍처를 바라보는 상이한 4뷰를 정의한다. 논리 뷰 (logical view): 개발자가 작성한 소프트웨어 엘리먼트: 클래스, 패키지 (객체 지향). 상속(inheritanc..

    [마이크로 서비스 패턴] 모놀리식 지옥에서 벗어나라

    [마이크로 서비스 패턴] 모놀리식 지옥에서 벗어나라

    FTGO 애플리케이션 아키텍처 모놀리스(monolith): 일체형 비즈니스 로직 각자가 도메인 객체 컬렉션인 모듈(예: 주문 관리, 배달 관리, 과금, 지불)로 구성됨 외부 시스템과 연계하는 어댑터 REST API, 웹 UI 어댑터 등 비즈니스 요청을 호출하여 처리하는 인바운드 어댑터 비즈니스 로직에서 MySQL DB에 접근하거나 트윌리오, 스트라이프 등 클라우드 서비스를 호출하게 해주는 아웃바운드 어댑터 모놀리식 아키텍처의 장점 규모가 작은 초기에는 모놀리식 아키텍처의 장점이 많았음 개발이 간단 애플리케이션을 쉽게 변경할 수 있음 테스트하기 쉬움 배포하기 쉬움 확장하기 쉬움 하지만 시간이 흐를수록 개발, 테스트, 배포, 확장하기가 쉽지 않음 모놀리식 지옥의 실상 너무 복잡해서 개발자가 주눅 듬 개발이 ..

    [스파크 완벽 가이드] Part 3. 저수준 API

    [스파크 완벽 가이드] Part 3. 저수준 API

    대부분의 상황에서는 구조적 API를 사용하는 것이 좋다. 그러나 비즈니스가 기술적 문제를 고수준 API를 사용해 모두 처리할 수 있는 것은 아니므로, 스파크의 저수준 API를 사용해야 할 수도 있다. CHAPTER 12. RDD 사용자가 실행한 모든 DataFrame이나 Dataset 코드는 RDD로 컴파일된다. RDD는 간단히 말해 불변성을 가지며 병렬로 처리할 수 있는 파티셔닝된 레코드의 모음이다. RDD의 레코드는 자바, 스칼라, 파이썬의 객체일 뿐이다. 또한 구조적 API와는 다르게 레코드의 내부 구조를 스파크에서 파악할 수 없으므로, 최적화를 하려면 훨씬 많은 수작업이 필요하다. RDD에는 수많은 하위 클래스가 존재하며, DataFrame API에서 최적화된 물리적 실행 계획을 만드는데 대부분 ..