Azure Databricks의 RAG(검색 증강 생성)

아티클
09/30/2024

Important

이 기능은 공개 미리 보기 상태입니다.

에이전트 프레임워크는 개발자가 RAG(검색 증강 세대) 애플리케이션과 같은 프로덕션 품질 AI 에이전트를 빌드, 배포 및 평가하는 데 도움이 되도록 설계된 Databricks의 도구 집합으로 구성됩니다.

이 문서에서는 RAG의 정의와 Azure Databricks에서 RAG 응용 프로그램을 개발할 때의 이점에 대해 설명합니다.

LLMOps 다이어그램 간소화

에이전트 프레임워크를 사용하면 개발자가 엔드투엔드 LLMOps 워크플로를 사용하여 RAG 개발의 모든 측면을 신속하게 반복할 수 있습니다.

요구 사항

작업 영역에서 Azure AI 기반 AI 보조 기능을 사용하도록 설정해야 합니다.
에이전트 응용 프로그램의 모든 구성 요소는 단일 작업 영역에 있어야 합니다. 예를 들어 RAG 응용 프로그램의 경우 서비스 모델과 벡터 검색 인스턴스가 동일한 작업 영역에 있어야 합니다.

RAG란?

RAG는 외부 지식으로 LLM(대규모 언어 모델)을 향상시키는 생성형 AI 디자인 기술입니다. 이 기술은 다음과 같은 방법으로 LLM을 향상시킵니다.

독점 지식: RAG는 도메인 관련 질문에 답변하기 위해 메모, 이메일 및 문서와 같이 LLM을 학습시키는 데 처음에 사용되지 않는 독점 정보를 포함할 수 있습니다.
최신 정보: RAG 응용 프로그램은 업데이트된 데이터 원본의 정보를 LLM에 제공할 수 있습니다.
출처 인용: RAG를 사용하면 LLM이 특정 출처를 인용할 수 있으므로 사용자가 응답의 사실 정확도를 확인할 수 있습니다.
ACL(데이터 보안 및 액세스 제어 목록): 검색 단계는 사용자 자격 증명에 따라 개인 또는 독점 정보를 선택적으로 검색하도록 설계할 수 있습니다.

복합 AI 시스템

RAG 응용 프로그램은 복합 AI 시스템의 예입니다. 다른 도구 및 절차와 결합하여 LLM의 언어 기능을 확장합니다.

가장 간단한 형식으로 RAG 응용 프로그램은 다음을 수행합니다.

검색: 사용자의 요청은 벡터 저장소, 텍스트 키워드 검색 또는 SQL Database와 같은 외부 데이터 저장소를 쿼리하는 데 사용됩니다. 목표는 LLM의 응답에 대한 지원 데이터를 가져오는 것입니다.
증강: 검색된 데이터는 사용자의 요청과 결합되며, 종종 추가 서식 및 지침이 있는 템플릿을 사용하여 프롬프트를 만듭니다.
생성: 프롬프트가 LLM에 전달된 다음 쿼리에 대한 응답을 생성합니다.

비구조적과 구조적 RAG 데이터 비교

RAG 아키텍처는 비구조적 또는 구조적 지원 데이터에서 작동할 수 있습니다. RAG에서 사용하는 데이터는 사용 사례에 따라 달라집니다.

비구조적 데이터: 특정 구조나 조직이 없는 데이터입니다. 텍스트 및 이미지 또는 멀티미디어 콘텐츠(예: 오디오 또는 비디오)가 포함된 문서입니다.

PDF
Google/Office 문서
Wiki
이미지
동영상

정형 데이터: 데이터베이스의 테이블과 같이 특정 스키마가 있는 행 및 열로 정렬된 테이블 형식 데이터입니다.

BI 또는 Data Warehouse 시스템의 고객 레코드
SQL Database의 트랜잭션 데이터
응용 프로그램 API의 데이터(예: SAP, Salesforce 등)

다음 섹션에서는 비구조적 데이터에 대한 RAG 응용 프로그램에 대해 설명합니다.

RAG 데이터 파이프라인

RAG 데이터 파이프라인은 빠르고 정확한 검색을 위해 문서를 전처리하고 인덱싱합니다.

아래 다이어그램은 의미 체계 검색 알고리즘을 사용하여 비구조적 데이터 세트에 대한 샘플 데이터 파이프라인을 보여 줍니다. Databricks 작업은 각 단계를 오케스트레이션합니다.

RAG 데이터 파이프라인

데이터 수집 - 독점 출처에서 데이터를 수집합니다. 이 데이터를 델타 테이블 또는 Unity 카탈로그 볼륨에 저장합니다.
문서 처리: Databricks Jobs, Databricks Notebook 및 Delta Live Tables를 사용하여 이러한 작업을 수행할 수 있습니다.
- 원시 문서 구문 분석: 원시 데이터를 사용 가능한 형식으로 변환합니다. 예를 들어 PDF 컬렉션에서 텍스트, 테이블 및 이미지를 추출하거나 광학 인식 기술을 사용하여 이미지에서 텍스트를 추출합니다.
- 메타데이터 추출: 검색 단계 쿼리를 보다 정확하게 수행할 수 있도록 문서 제목, 페이지 번호 및 URL과 같은 문서 메타데이터를 추출합니다.
- 청크 문서: LLM 컨텍스트 창에 맞는 청크로 데이터를 분할합니다. 전체 문서가 아닌 이러한 포커스가 있는 청크를 검색하면 LLM이 응답을 생성할 수 있는 보다 타겟팅된 콘텐츠를 제공합니다.
임베딩 청크 - 임베딩 모델은 청크를 사용하여 벡터 포함이라는 정보의 숫자 표현을 만듭니다. 벡터는 표면 수준 키워드 뿐만 아니라 텍스트의 의미 체계 의미를 나타냅니다. 이 시나리오에서는 임베딩을 계산하고 모델 제공을 사용하여 임베딩 모델을 제공합니다.
임베딩 스토리지 - 벡터 검색과 동기화된 델타 테이블에 벡터 포함 및 청크 텍스트를 저장합니다.
벡터 데이터베이스 - 벡터 검색의 일부로 임베딩 및 메타데이터는 RAG 에이전트에서 쉽게 쿼리할 수 있는 인덱싱되고 벡터 데이터베이스에 저장됩니다. 사용자가 쿼리를 만들면 해당 요청이 벡터에 포함됩니다. 그런 다음 데이터베이스는 벡터 인덱스를 사용하여 가장 유사한 청크를 찾아 반환합니다.

각 단계에는 RAG 응용 프로그램의 품질에 영향을 주는 엔지니어링 결정이 포함됩니다. 예를 들어 단계(3)에서 적절한 청크 크기를 선택하면 LLM이 구체적이면서 상황에 맞는 정보를 수신하고, 단계(4)에서 적절한 임베딩 모델을 선택하면 검색 중에 반환되는 청크의 정확도가 결정됩니다.

Databricks Vector Search

컴퓨팅 유사성은 계산 비용이 많이 드는 경우가 많지만 Databricks Vector Search와 같은 벡터 인덱스는 임베딩을 효율적으로 구성하여 이를 최적화합니다. 벡터 검색은 각 임베딩을 사용자의 쿼리와 개별적으로 비교하지 않고도 가장 관련성이 높은 결과의 순위를 빠르게 지정합니다.

벡터 검색은 델타 테이블에 추가된 새 임베딩을 자동으로 동기화하고 벡터 검색 인덱스를 업데이트합니다.

RAG 에이전트란?

RAG(검색 증강 생성) 에이전트는 외부 데이터 검색을 통합하여 LLM(대규모 언어 모델)의 기능을 향상시키는 RAG 응용 프로그램의 핵심 부분입니다. RAG 에이전트는 사용자 쿼리를 처리하고, 벡터 데이터베이스에서 관련 데이터를 검색하고, 이 데이터를 LLM에 전달하여 응답을 생성합니다.

LangChain 또는 Pyfunc와 같은 도구는 입력 및 출력을 연결하여 이러한 단계를 연결합니다.

아래 다이어그램에서는 챗봇에 대한 RAG 에이전트와 각 에이전트를 구축하는 데 사용되는 Databricks 기능을 보여 줍니다.

RAG 챗봇 아키텍처 워크플로

쿼리 전처리 - 사용자가 쿼리를 제출하면, 전처리되어 벡터 데이터베이스 쿼리에 적합합니다. 여기에는 템플릿에 요청을 배치하거나 키워드를 추출하는 작업이 포함될 수 있습니다.
쿼리 벡터화 - 모델 서비스를 사용하여 데이터 파이프라인에 청크를 포함하는 데 사용되는 것과 동일한 임베딩 모델을 사용하여 요청을 포함합니다. 이러한 임베딩을 사용하면 요청과 전처리된 청크 간의 의미 체계 유사성을 비교할 수 있습니다.
검색 단계 - 관련 정보 가져오기를 담당하는 응용 프로그램인 리트리버가 벡터화된 쿼리를 사용하고 벡터 검색을 사용하여 벡터 유사성 검색을 수행합니다. 가장 관련성이 높은 데이터 청크는 쿼리와 유사성에 따라 순위가 지정되고 검색됩니다.
프롬프트 증강 - 리트리버는 검색된 데이터 청크를 원래 쿼리와 결합하여 LLM에 추가 컨텍스트를 제공합니다. 프롬프트는 LLM이 쿼리의 컨텍스트를 이해할 수 있도록 신중하게 구성됩니다. 종종 LLM에는 응답의 서식을 지정하기 위한 템플릿이 있습니다. 프롬프트를 조정하는 이 프로세스를 프롬프트 엔지니어링이라고 합니다.
LLM 생성 단계 - LLM은 검색 결과에 의해 보강된 증강 쿼리를 사용하여 응답을 생성합니다. LLM은 사용자 지정 모델 또는 기본 모델일 수 있습니다.
사후 처리 - LLM의 응답을 처리하여 추가 비즈니스 논리를 적용하거나, 인용을 추가하거나, 미리 정의된 규칙 또는 제약 조건에 따라 생성된 텍스트를 구체화할 수 있습니다.

엔터프라이즈 정책을 준수하기 위해 이 프로세스 전체에서 다양한 가드레일을 적용할 수 있습니다. 여기에는 적절한 요청을 필터링하고, 데이터 원본에 액세스하기 전에 사용자 권한을 확인하고, 생성된 응답에 대한 콘텐츠 조정 기술을 사용하는 것이 포함될 수 있습니다.

프로덕션 수준 RAG 에이전트 개발

다음 기능을 사용하여 에이전트 개발을 신속하게 반복합니다.

라이브러리 및 MLflow를 사용하여 에이전트를 만들고 기록합니다. 에이전트를 매개 변수화하여 에이전트 개발을 신속하게 실험하고 반복합니다.

토큰 스트리밍 및 요청/응답 로깅에 대한 기본 지원과 에이전트에 대한 사용자 피드백을 얻기 위한 기본 제공 검토 앱을 사용하여 프로덕션에 에이전트를 배포합니다.

에이전트 추적을 사용하면 에이전트 코드에서 추적을 기록, 분석 및 비교하여 에이전트가 요청에 응답하는 방식을 디버그하고 이해할 수 있습니다.

평가 및 모니터링

평가 및 모니터링은 RAG 응용 프로그램이 품질, 비용 및 대기 시간 요구 사항을 충족하는지 여부를 결정하는 데 도움이 됩니다. 응용 프로그램이 프로덕션에 배포되면 모니터링이 수행되는 동안 개발 중에 평가가 수행됩니다.

비구조적 데이터에 대한 RAG에는 품질에 영향을 주는 많은 구성 요소가 있습니다. 예를 들어 데이터 서식 변경은 검색된 청크 및 관련 응답을 생성하는 LLM의 기능에 영향을 줄 수 있습니다. 따라서 전체 응용 프로그램 외에도 개별 구성 요소를 평가하는 것이 중요합니다.

자세한 내용은 Mosaic AI 에이전트 평가란?을 참조하세요.

사용 가능 지역

에이전트 프레임워크의 사용 가능 지역은 사용 가능 지역이 제한된 기능을 참조하세요.

다음을 통해 공유

Azure Databricks의 RAG(검색 증강 생성)

요구 사항

RAG란?

복합 AI 시스템

비구조적과 구조적 RAG 데이터 비교

RAG 데이터 파이프라인

Databricks Vector Search

RAG 에이전트란?

프로덕션 수준 RAG 에이전트 개발

평가 및 모니터링

사용 가능 지역

피드백

추가 리소스