Azure Databricks의 생성 AI 및 LLM(대규모 언어 모델)
이 문서에서는 Databricks의 생성 AI에 대한 개요를 제공하고 예제 Notebook 및 데모에 대한 링크를 포함합니다.
생성 AI란?
생성 AI는 컴퓨터가 모델을 사용하여 이미지, 텍스트, 코드 및 합성 데이터와 같은 콘텐츠를 만드는 기능에 초점을 맞춘 인공 지능의 한 유형입니다.
생성 AI 애플리케이션은 LLM(대규모 언어 모델) 및 기본 모델을 기반으로 합니다.
- LLM은 대규모 데이터 세트를 사용하고 학습하여 언어 처리 작업에서 뛰어난 능력을 발휘하는 딥 러닝 모델입니다. 학습 데이터를 기반으로 자연어를 모방하는 새로운 텍스트 조합을 만듭니다.
- 기본 모델은 보다 구체적인 언어 이해 및 생성 작업을 위해 미세 조정되도록 미리 학습된 대규모 ML 모델 입니다. 이러한 모델은 입력 데이터 내의 패턴을 분별하는 데 사용됩니다.
이러한 모델이 학습 프로세스를 완료한 후 메시지가 표시되면 통계적으로 가능한 출력을 생성하고 다음을 비롯한 다양한 작업을 수행하기 위해 사용할 수 있습니다.
- 기존 이미지를 기반으로 이미지를 생성하거나 한 이미지의 스타일을 활용하여 새 이미지를 수정하거나 만듭니다.
- 전사, 번역, 질문/답변 생성, 텍스트의 의도 또는 의미 해석과 같은 음성 작업입니다.
Important
많은 LLM 또는 기타 생성 AI 모델에는 안전 장치가 있지만 여전히 유해하거나 부정확한 정보를 생성할 수 있습니다.
생성 AI에는 다음과 같은 디자인 패턴이 있습니다.
- 프롬프트 엔지니어링: LLM 동작을 안내하는 특수 프롬프트 만들기
- RAG(검색 증강 생성): LLM과 외부 지식 검색 결합
- 미세 조정: 미리 학습된 LLM을 특정 할 일 데이터 집합에 맞게 조정기본
- 사전 교육: 처음부터 LLM 학습
Azure Databricks에서 생성 AI 및 LLM 개발
Azure Databricks는 데이터 수집 및 준비에서 모델 개발 및 LLMOps, 서비스 및 모니터링에 이르기까지 AI 수명 주기를 통합합니다. 다음 기능은 생성 AI 애플리케이션의 개발을 용이하게 하기 위해 특별히 최적화되어 있습니다.
- 데이터, 기능, 모델 및 함수에 대한 거버넌스, 검색, 버전 관리 및 액세스 제어를 위한 Unity 카탈로그 입니다.
- 모델 개발 추적 및 LLM 평가를 위한 MLflow입니다.
- 기능 엔지니어링 및 서비스.
- LLM 배포를 위한 Databricks 모델 서비스 . 특히 기본 모델에 액세스하기 위해 엔드포인트를 제공하는 모델을 구성할 수 있습니다.
- 파운데이션 모델 API를 사용하는 최신 오픈 LLM.
- Databricks 외부에서 호스트되는 타사 모델입니다. Databricks 모델 서비스 내의 외부 모델을 참조하세요.
- Databricks Vector Search는 포함 벡터를 저장하고 기술 자료 자동으로 동기화하도록 구성할 수 있는 쿼리 가능한 벡터 데이터베이스를 제공합니다.
- 유추 테이블이 있는 자동 페이로드 로깅을 사용하여 데이터 모니터링 및 추적 모델 예측 품질 및 드리프트에 대한 Lakehouse 모니터링
- Databricks 작업 영역에서 기본 모델을 테스트하기 위한 AI 플레이그라운드 입니다. 시스템 프롬프트 및 유추 매개 변수와 같은 설정을 프롬프트, 비교 및 조정할 수 있습니다.
- 사용자 고유의 데이터를 사용하여 기본 모델을 사용자 지정하여 특정 애플리케이션에 대한 성능을 최적화하기 위한 기초 모델 교육 입니다.
추가 리소스
- Azure Databricks에서 RAG(검색 보강 세대)를 참조 하세요.
- LLama2 및 Databricks를 사용하여 Q&A 챗봇 빌드를 참조 하세요.
- Databricks에서 포옹 얼굴 모델을 사용하는 방법에 대한 자세한 내용은 포옹 얼굴 변환기를 참조 하세요.
- Github의 databricks-ml-examples 리포지토리에는 SOTA(최신) LLM의 예제 구현이 포함되어 있습니다.
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기