Visual Studio Code에서 KAITO(AI 도구 체인 연산자)를 사용하여 유추 모델 배포 및 테스트

2025-06-23

이 문서에서는 Visual Studio Code용 AKS(Azure Kubernetes Service) 확장에서 KAITO(AI 도구 체인 연산자) 추가 기능을 사용하는 방법을 알아봅니다. KAITO는 적절한 크기의 GPU 노드를 자동으로 프로비전하고 유추 서버를 AI 모델에 대한 엔드포인트 서버로 설정하여 AKS에서 AI를 쉽게 테스트하고 실험할 수 있도록 합니다.

필수 조건

KAITO 환경을 사용하려면 Visual Studio Code용 AKS(Azure Kubernetes Service) 확장을 설치해야 합니다. 자세한 내용은 Visual Studio Code용 AKS(Azure Kubernetes Service) 확장 설치를 참조하세요.
배포할 클러스터는 표준 클러스터입니다 (Kaito는 현재 자동 클러스터에 설치할 수 없음).
KAITO 모델 작업 영역을 확인하여 Azure 구독에 선택한 모델에 대한 GPU 할당량이 있는지 확인합니다.

클러스터에 KAITO 설치

Kubernetes 탭의 클라우드>>구독>KAITO를 사용하여 LLM을 배포하고 클러스터를 마우스 오른쪽 단추로 클릭하고 KAITO 설치를 선택합니다.
페이지에서 KAITO 설치를 선택하여 KAITO 설치 프로세스를 시작합니다.
설치가 완료되면 모델 배포 페이지로 리디렉션되는 작업 영역 생성 단추가 표시됩니다.

KAITO 작업 영역 만들기

KAITO 작업 영역을 만들 때 기본 작업 영역 CRD를 AKS 클러스터에 직접 배포하거나 CRD를 저장하고 필요에 맞게 사용자 지정할 수 있습니다.

Kubernetes 탭의 클라우드Azure>>구독>이 KAITO를 사용하여 LLM을 배포하고 클러스터를 마우스 오른쪽 단추로 클릭하고 KAITO 작업 영역 만들기를 선택합니다.
배포할 모델을 찾아 선택합니다.
기본 작업 영역 CRD 배포를 선택하거나 작업 영역 CRD 사용자 지정을 선택합니다.
기본 작업 영역 CRD 배포를 선택하여 모델을 배포합니다. 모델의 진행률을 추적하고 모델이 성공적으로 배포되면 알 수 있습니다. 또한 모델이 클러스터에 이미 배포되지 않은 경우에도 알 수 있습니다.
배포가 완료되면 배포 관리 페이지로 리디렉션되는 배포된 모델 보기 단추가 표시됩니다.

KAITO 모델 관리

KAITO 모델 관리 페이지에서 AKS 클러스터에 배포된 모든 모델을 해당 상태(진행 중, 성공 또는 실패)와 함께 볼 수 있습니다.

Kubernetes 탭의 클라우드>>구독>KAITO를 사용하여 LLM을 배포하고 클러스터를 마우스 오른쪽 단추로 클릭하고 KAITO 모델 관리를 선택합니다.
이 페이지에서 다음 작업 중 하나를 수행하도록 선택할 수 있습니다.
- 로그 가져오기: 로그 가져오기를 선택하여 배포에 대한 KAITO 작업 영역 Pod에서 최신 로그에 액세스합니다. 이 작업은 최근 500줄의 로그를 포함하는 새 텍스트 파일을 생성합니다.
- 모델 삭제: 작업 영역 삭제(또는 진행 중인 배포의 경우 취소)를 선택합니다. 실패한 배포의 경우 기본 CRD 재배포를 선택하여 현재 배포를 제거하고 모델 배포 프로세스를 처음부터 다시 시작합니다.
- 모델 테스트: 테스트를 선택합니다. 이 작업을 수행하면 채팅 인터페이스를 통해 배포된 모델과 상호 작용할 수 있는 새 페이지로 이동됩니다.

모델 테스트

Kubernetes 탭의 클라우드>>구독>KAITO를 사용하여 LLM을 배포하고 클러스터를 마우스 오른쪽 단추로 클릭하고 KAITO 모델 관리를 선택합니다.
테스트를 선택합니다. 이 작업을 수행하면 프롬프트 상자 채팅 인터페이스를 통해 배포된 모델과 상호 작용할 수 있는 새 페이지로 이동됩니다.
필요에 따라 매개 변수를 조정할 수 있습니다.
- 온도: 모델 출력의 무작위성을 제어합니다. 낮은 온도는 수학 문제와 같은 정밀도가 필요한 작업에 적합하지만, 고온은 창의적인 글쓰기와 같은 작업에 더 좋습니다.
- 상위 P: 다음 단어 선택 항목을 누적 확률 임계값에 따라 결정되는 어휘의 동적 하위 집합으로 제한합니다.
- Top K: 다음 단어 선택 영역을 가장 가능성이 큰 단어로 K 제한합니다. 값이 작을수록 K 예측 가능한 출력이 늘어나고 값이 클수록 가변성이 증가합니다.
- 반복 처벌: 동일한 구, 단어 또는 시퀀스를 반복하기 위해 모델을 처벌합니다. 이는 특히 더 긴 세대에서 반복 또는 반복 출력을 방지하는 데 유용합니다.
- 최대 길이: 생성된 출력의 최대 토큰 수(단어 또는 하위 단어)를 정의합니다.

자세한 내용은 Visual Studio Code 기능을 위한 AKS 확장을 참조하세요.

모델 유추 배포 삭제

모델 테스트를 완료하고 클러스터에서 할당된 GPU 리소스를 확보하려면 Kubernetes 탭으로 이동하고 클라우드 Azure> 구독>이 KAITO로 LLM을 배포하면 클러스터를 마우스 오른쪽 단추로 클릭하고 KAITO 모델 관리를 선택합니다.
배포된 각 모델에 대해 작업 영역 삭제 를 선택하여 유추 배포에서 만든 할당된 모든 리소스를 지웁니다.

제품 지원 및 피드백

질문이 있거나 제품에 대한 피드백을 제공하려고 한다면 AKS 확장 GitHub 리포지토리에서 문제를 여세요.

다음 단계

기타 AKS 추가 기능 및 확장에 대해 자세히 알아보려면 추가 기능, 확장 및 AKS를 위한 기타 통합을 참조하세요.