다음을 통해 공유


Azure API Management에서 LLM API에 대한 의미 체계 캐싱 사용

적용 대상: 모든 API Management 계층

LLM API 요청에 대한 응답의 의미 체계 캐싱을 사용하도록 설정하여 백 엔드 API에 적용되는 대역폭 및 처리 요구 사항을 줄이고 API 소비자가 인식하는 대기 시간을 낮춥니다. 의미 체계 캐싱을 사용하면 텍스트가 동일하지 않더라도 동일한 프롬프트 및 의미와 유사한 프롬프트에 대해 캐시된 응답을 반환할 수 있습니다. 배경 정보는 자습서: Azure Managed Redis를 시맨틱 캐시로 사용하기를 참조하세요.

참고

이 문서의 구성 단계에서는 Microsoft Foundry 모델의 Azure OpenAI에서 API Management에 추가된 API에 대한 의미 체계 캐싱을 사용하도록 설정하는 방법을 보여 줍니다. 유사한 단계를 적용하여 Azure AI 모델 유추 API 또는 타사 유추 공급자를 통해 제공되는 OpenAI 호환 모델을 통해 사용할 수 있는 해당 LLM(대규모 언어 모델) API에 대한 의미 체계 캐싱을 사용하도록 설정할 수 있습니다.

필수 조건

  • Microsoft Foundry 모델 배포에서 하나 이상의 Azure OpenAI를 API Management 인스턴스에 API로 추가합니다. 자세한 내용은 Azure API Management에 Azure OpenAI API 추가를 참조하세요.

  • 다음 API에 대한 배포를 만듭니다.

    • 채팅 완료 API - API 소비자 호출에 사용되는 배포
    • 임베딩 API - 의미론적 캐싱에 사용되는 배치
  • Azure OpenAI API에 대한 관리 ID 인증을 사용하도록 API Management 인스턴스를 구성합니다. 자세한 내용은 Azure API Management를 사용하여 Azure OpenAI API에 대한 액세스 인증 및 권한 부여를 참조하세요.

  • Redis 캐시에서 RediSearch 모듈을 사용하도록 설정된 Azure Managed Redis 인스턴스입니다.

    참고

    새 Azure Managed Redis 캐시를 만들 때만 RediSearch 모듈을 사용하도록 설정할 수 있습니다. 기존 캐시에 모듈을 추가할 수 없습니다. 자세한 정보

  • Azure API Management 인스턴스에서 Azure Managed Redis 인스턴스를 외부 캐시로 구성합니다. 단계는 Azure API Management에서 외부 Redis 호환 캐시 사용을 참조 하세요.

채팅 API 배포 테스트

먼저 Azure OpenAI 배포를 테스트하여 채팅 완료 API 또는 채팅 API가 예상대로 작동하는지 확인합니다. 단계는 Azure API Management로 Azure OpenAI API 가져오기를 참조하세요.

예를 들어, 요청 본문에 프롬프트가 포함된 API 엔드포인트에 POST 요청을 보내 Azure OpenAI 채팅 API를 테스트합니다. 응답에는 프롬프트 완료가 포함되어야 합니다. 요청 예:

POST https://my-api-management.azure-api.net/my-api/openai/deployments/chat-deployment/chat/completions?api-version=2024-02-01

요청 본문:

{"messages":[{"role":"user","content":"Hello"}]}

요청이 성공하면 응답에 채팅 메시지 완료가 포함됩니다.

임베딩 API를 위한 백엔드 만들기

다음 설정을 사용하여 포함 API 배포에 대한 백 엔드 리소스를 만듭니다.

  • 이름 - embeddings-backend와 같이 선택한 이름입니다. 이 이름을 사용하여 정책에서 백 엔드를 참조하세요.

  • 형식 - 사용자 지정 URL을 선택합니다.

  • 런타임 URL - Azure OpenAI에 포함 API 배포의 URL(쿼리 매개 변수 제외)과 유사합니다 https://my-aoai.openai.azure.com/openai/deployments/embeddings-deployment/embeddings .

  • 권한 부여 자격 증명 - 관리 ID 탭으로 이동합니다.

    • 클라이언트 ID - 시스템 할당 ID 를 선택하거나 사용자 할당 관리 ID 클라이언트 ID를 입력합니다.
    • 리소스 ID - Azure OpenAI에 https://cognitiveservices.azure.com/ 를 입력합니다.

테스트 임베딩 백엔드

임베딩 백엔드를 테스트하려면 Azure OpenAI API에 대한 API 작업을 생성합니다.

  1. API의 디자인 탭에서 + 작업 추가를 선택합니다.
  2. 표시 이름Embeddings와 같이 입력하고 필요에 따라 작업의 이름을 입력합니다.
  3. 프런트 엔드 섹션의 URL에서 POST를 선택하고 경로 /을 입력합니다.
  4. 헤더 탭에서 이름이 Content-Type이고 값이 application/json인 필수 헤더를 추가합니다.
  5. 저장을 선택합니다.

API 작업의 인바운드 처리 섹션에서 다음 정책을 구성합니다. set-backend-service 정책에서 만든 백 엔드 이름을 대체합니다.

<policies>
    <inbound>
        <set-backend-service backend-id="embeddings-backend" />
        <authentication-managed-identity resource="https://cognitiveservices.azure.com/" />
        [...]
    </inbound>
    [...]
</policies>

테스트 탭에서 api-version과 같은 값을 가진 2024-02-01 쿼리 매개 변수를 추가하여 작업을 테스트합니다. 유효한 요청 본문을 제공합니다. 예시:

{"input":"Hello"}

요청이 성공하면 응답에 입력 텍스트의 벡터 표현이 포함됩니다. 응답 예제:

{
    "object": "list",
    "data": [{
        "object": "embedding",
        "index": 0,
        "embedding": [
            -0.021829502,
            -0.007157768,
            -0.028619017,
            [...]
        ]
    }]
}

시맨틱 캐싱 정책 구성

Azure API Management에서 Azure OpenAI API에 대한 의미 체계 캐싱을 사용하도록 설정하려면 다음 정책을 적용합니다. 하나는 요청(조회)을 보내기 전에 캐시를 확인하고 다른 하나는 향후 재사용(저장소)에 대한 응답을 저장합니다.

  • API의 인바운드 처리 섹션에서 azure-openai-semantic-cache-lookup 정책을 추가합니다. embeddings-backend-id 속성에서 생성한 Embeddings API 백엔드를 지정합니다.

    참고

    다른 큰 언어 모델 API에 대한 의미 체계 캐싱을 사용하도록 설정하는 경우 llm-semantic-cache-lookup 정책을 대신 사용합니다.

    예시:

    <azure-openai-semantic-cache-lookup
        score-threshold="0.15"
        embeddings-backend-id="embeddings-backend"
        embeddings-backend-auth="system-assigned"
        ignore-system-messages="true"
        max-message-count="10">
        <vary-by>@(context.Subscription.Id)</vary-by>
    </azure-openai-semantic-cache-lookup>
    <rate-limit calls="10" renewal-period="60" />
    

    참고

    캐시 조회 후에 호출 횟수를 줄이고 캐시가 없을 경우 백엔드 서비스 과부하를 방지하기 위해 레이트 제한 정책(또는 키별 레이트 리밋 정책)을 추가하세요.

  • API의 아웃바운드 처리 섹션에서 azure-openai-semantic-cache-store 정책을 추가합니다.

    참고

    다른 큰 언어 모델 API에 대한 의미 체계 캐싱을 사용하도록 설정하는 경우 llm-semantic-cache-store 정책을 대신 사용합니다.

    예시:

    <azure-openai-semantic-cache-store duration="60" />
    

캐싱 확인

의미 체계 캐싱이 예상대로 작동하는지 확인하려면 포털에서 테스트 콘솔을 사용하여 테스트 완료 또는 채팅 완료 작업을 추적합니다. 추적을 검사하여 후속 시도에서 캐시가 사용되는지 확인합니다. Azure API Management에서 API 호출 추적에 대해 자세히 알아봅니다.

들어오는 프롬프트가 score-threshold 캐시된 프롬프트와 일치하여 저장된 응답을 반환해야 하는 정도를 제어하도록 조회 정책의 특성을 조정합니다. 점수 임계값이 낮을수록 프롬프트는 캐시된 응답을 반환하기 위해 더 높은 의미 체계 유사성을 가져야 합니다. 임계값을 초과하는 점수가 있는 프롬프트는 캐시된 응답을 사용하지 않습니다.

예를 들어 캐시를 사용하는 경우 출력 섹션에는 다음 스크린샷과 유사한 항목이 포함됩니다.

Azure Portal의 요청 추적 스크린샷.