모델 배포 이해
배포는 LLMOps의 핵심 운영 구성 요소입니다. 언어 모델을 개발하고 평가한 후에는 LLM에 고유한 실질적인 배포 결정을 내려야 합니다. LLM을 운영하기 위한 세 가지 주요 방법은 재사용 프롬프트 구조화, 복잡한 AI 워크플로 오케스트레이션 및 최종 사용자에게 모델 제공입니다. 이러한 항목을 살펴보겠습니다.
프롬프트를 구성하는 방법
먼저 핵심 방법 중 하나는 엔지니어링된 프롬프트를 사용하는 것입니다. 엔지니어링된 프롬프트는 LLM이 원하는 결과를 생성하도록 안내하는 신중하게 작성된 프롬프트입니다. 이러한 프롬프트를 템플릿으로 저장하면 여러 애플리케이션에서 다시 사용할 수 있으므로 배포 프로세스에서 일관성과 효율성을 보장할 수 있습니다.
복잡한 AI 워크플로를 오케스트레이션하는 방법
또 다른 강력한 방법은 체인을 사용하는 것입니다. LangChain 및 LlamaIndex와 같은 도구를 사용하면 여러 단계를 통해 데이터를 처리하고 변환하는 작업 시퀀스인 체인을 만들 수 있습니다. 이러한 체인 내의 여러 지점에서 LLM을 사용하면 정교한 데이터 처리 및 변환 기능을 활용할 수 있습니다.
최종 사용자에게 모델을 제공하는 방법
LLM을 사용하는 경우 가장 일반적으로 미리 학습된 모델을 사용합니다. 이러한 모델은 대규모 데이터 세트에 대해 미리 학습되며 다양한 애플리케이션에 기본으로 사용할 수 있습니다. 광범위한 학습 없이도 생성형 AI를 빠르고 쉽게 배포할 수 있는 방법을 제공합니다.
미리 학습된 모델에 액세스하려면 다음과 같은 두 가지 옵션이 있습니다.
- 내부 또는 자체 호스팅 기본 모델: 사용자 고유의 조직 내에서 호스트되는 모델로, 특정 요구 사항에 맞게 모델을 조정하는 추가 제어 및 사용자 지정을 제공합니다.
- 외부 독점 모델 공급자: API 호출을 통해 제공되는 모델(예: Azure OpenAI)로, 이 모델을 통해 광범위한 인프라 없이도 고급 AI 기능을 통합할 수 있으므로 편리하고 비용 효율적인 옵션입니다.
팁
Databricks DBRX와 같은 자체 호스팅 기본 모델 및 Azure OpenAI와 같은 외부 모델 공급자에 대해 자세히 알아봅니다.
LLM을 프로덕션 환경에 통합하여 최종 사용자 또는 다른 시스템이 예측 또는 완성을 생성할 수 있도록 하려면 모델을 배포해야 합니다.
다음과 같은 네 가지 배포 전략이 있습니다.
- 일괄 처리: 텍스트 입력 또는 프롬프트 테이블에 완성을 생성하고 저장합니다. 예를 들어 재무 보고서를 요약하고 인사이트를 생성합니다.
- 스트리밍: 텍스트 입력 또는 프롬프트가 처리될 때 마이크로 일괄 처리로 완성을 생성하고 저장합니다. 예를 들어 마케팅 메시지를 개인 설정합니다.
- 실시간: 개별 입력 또는 프롬프트에서 실시간으로 비동기적으로 완성을 생성합니다. 예를 들어 고객 서비스에 사용되는 챗봇의 경우입니다.
- 포함 또는 에지: 로컬 디바이스 또는 에지 서버에 모델을 배포하여 낮은 대기 시간 응답 및 오프라인 기능을 제공합니다. 예를 들어 음성 명령을 사용하여 자동차의 에어컨 온도를 수정합니다.
참고 항목
에지(디바이스 내) 배포는 공간 요구 사항으로 인해 LLM을 사용하기가 어렵습니다. 에지에 언어 모델을 배포하려는 경우 Phi-3 모델과 같은 SLM(소규모 언어 모델)을 탐색할 수 있습니다.