Udostępnij za pośrednictwem


Uzyskiwanie opinii na temat jakości aplikacji agenta

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

W tym artykule pokazano, jak używać aplikacji do przeglądu usługi Databricks w celu zbierania opinii na temat jakości aplikacji agenta od recenzentów ludzkich.

Aplikacja Mosaic AI Agent Evaluation umożliwia deweloperom szybkie i niezawodne ocenianie jakości, kosztów i opóźnień aplikacji generującej sztuczną inteligencję. Możliwości oceny agenta są ujednolicone między fazami programowania, przemieszczania i produkcji cyklu życia LLMops.

Ocena agenta jest częścią naszej oferty programu Mosaic AI Agent Framework, która została zaprojektowana w celu ułatwienia deweloperom wdrażania wysokiej jakości aplikacji generacyjnych sztucznej inteligencji. Aplikacje wysokiej jakości to aplikacje, w których dane wyjściowe są oceniane jako dokładne, bezpieczne i zarządzane.

Co się dzieje w ocenie ludzkiej?

Aplikacja do przeglądu umożliwia zbieranie opinii od ekspertów biorących udział w projekcie aplikacji. Pomaga to zapewnić jakość i bezpieczeństwo zapewnianych przez nią odpowiedzi.

Istnieją trzy sposoby zbierania opinii przy użyciu aplikacji do przeglądu. Eksperci biorący udział w projekcie:

  • Porozmawiaj z botem aplikacji i prześlij opinię na temat tych konwersacji.
  • Prześlij opinię na temat dzienników historycznych od innych użytkowników.
  • Prześlij opinię na temat wszelkich wyselekcjonowanych śladów i danych wyjściowych agenta.

W aplikacji do przeglądu usługi Databricks llM jest wystawiana w środowisku, w którym uczestnicy ekspertów mogą z nią korzystać — innymi słowy, mają konwersację, zadają pytania itd.

Wymagania

Aby użyć aplikacji do przeglądu w celu oceny aplikacji agenta przez człowieka, należy skonfigurować następujące elementy:

  • Tabele wnioskowania muszą być włączone w punkcie końcowym obsługującym agenta. Dzięki temu aplikacja do przeglądu może zbierać i rejestrować dane dotyczące aplikacji agenta.
  • Dostęp do obszaru roboczego przeglądu aplikacji dla każdego recenzenta. Zobacz następną sekcję Konfigurowanie uprawnień aplikacji.

Konfigurowanie uprawnień do obszaru roboczego przeglądu aplikacji

Jeśli recenzenci mają już dostęp do obszaru roboczego zawierającego aplikację do przeglądu, nie musisz nic robić.

Jeśli recenzenci nie mają jeszcze dostępu, administratorzy kont mogą używać aprowizacji SCIM na poziomie konta, aby automatycznie synchronizować użytkowników i grupy z dostawcy tożsamości do konta usługi Azure Databricks. Możesz również ręcznie zarejestrować tych użytkowników i grupy podczas konfigurowania tożsamości w usłudze Databricks. Umożliwia to ich dołączanie jako uprawnionych recenzentów. Zobacz Synchronizowanie użytkowników i grup od dostawcy tożsamości.


  from databricks.agents import set_permissions
  from databricks.agents.entities import PermissionLevel

  set_permissions(model_fqn, ["user.name@databricks.com"], PermissionLevel.CAN_QUERY)

W przypadku nowych klientów z publiczną wersją zapoznawcza, którzy mają problemy z udzieleniem recenzentom dostępu do aplikacji do przeglądu, skontaktuj się z zespołem ds. kont bazy danych, aby włączyć tę funkcję.

Podaj instrukcje dla recenzentów

Napisz tekst niestandardowy dla instrukcji wyświetlanych dla recenzentów i prześlij go, jak pokazano w poniższym przykładzie kodu:

  from databricks.agents import set_review_instructions, get_review_instructions

  set_review_instructions(uc_model_name, "Thank you for testing the bot. Use your domain expertise to evaluate and give feedback on the bot's responses, ensuring it aligns with the needs and expectations of users like yourself.")
  get_review_instructions(uc_model_name)

Zrzut ekranu przedstawiający instrukcje dotyczące przeglądania aplikacji określone w przykładzie języka Python.

Omówienie interfejsu użytkownika aplikacji przeglądu

Podstawowy przepływ pracy oceny ekspertów w aplikacji przeglądu:

  1. Otwórz podany adres URL przeglądu aplikacji.

  2. Przejrzyj wstępnie wypełniane czaty.

    Liczba i stan wstępnie wypełnionych czatów w aplikacji do przeglądu.

  3. Porozmawiaj z botem i prześlij oceny swoich odpowiedzi.

    Porozmawiaj z botem i prześlij oceny swoich odpowiedzi.

Opcje uruchamiania oceny z uczestnikami projektu

Eksperci rozmawiają z aplikacją do przeglądu

Aby użyć tej opcji, wywołaj deploy_model(…) i ustaw odpowiednie uprawnienia. Na poniższym diagramie pokazano, jak działa ta opcja.

Uruchom aplikację do przeglądu, w której eksperci rozmawiają z aplikacją agentów i przekazują opinię.

Odp. Eksperci rozmawiają z aplikacją agentyczną B. Opinia na temat odpowiedzi C. Żądanie aplikacji/odpowiedź D. Żądanie/odpowiedź aplikacji + ślad i opinia

Eksperci przeglądają dzienniki

Aby użyć tej opcji, najpierw wdróż aplikację agenta przy użyciu polecenia deploy_model(...). Po interakcji użytkowników z interfejsem API REST lub przejrzeniu aplikacji możesz załadować te ślady z powrotem do aplikacji przeglądu przy użyciu następującego kodu.


  from databricks.agents import enable_trace_reviews

  enable_trace_reviews(
    model_name=model_fqn,
    request_ids=[
        "52ee973e-0689-4db1-bd05-90d60f94e79f",
        "1b203587-7333-4721-b0d5-bba161e4643a",
        "e68451f4-8e7b-4bfc-998e-4bda66992809",
    ],
  )

Użyj wartości z request_id kolumny tabeli dzienników żądań.

Uwaga

Jeśli masz włączoną zaporę usługi Azure Storage, skontaktuj się z zespołem konta usługi Azure Databricks, aby włączyć tabele wnioskowania dla punktów końcowych.

Uruchom przegląd śledzenia, w którym recenzenci wchodzą w interakcje z aplikacją do przeglądu lub interfejsem API REST, aby przekazać opinię.

A. enable_trace_reviews([request_id]) B. Załadowane czaty C. Ekspertów uczestników projektu czatów z aplikacją D. Opinie na temat odpowiedzi E. Żądania użycia aplikacji frontonu lub przejrzyj użycie aplikacji F. Żądanie aplikacji/odpowiedź G. Żądanie/odpowiedź aplikacji + śledzenia i opinie

Uruchamianie oceny w tabeli dzienników żądań

W poniższym notesie pokazano, jak używać dzienników z aplikacji przeglądu jako danych wejściowych do przebiegu oceny przy użyciu polecenia mlflow.evaluate().

Uruchamianie oceny w notesie dzienników żądań

Pobierz notes

Ograniczenie

Jeśli wdrażasz aplikację bez inicjowania przeglądów przy użyciu enable_trace_reviews wywołania i masz CAN_MANAGE uprawnienia do wdrożenia, usługa zwraca NO_PERMISSIONS odpowiedź po wywołaniu punktu końcowego get_permissions . Jest to znany problem, a odpowiednie poziomy uprawnień są utrzymywane w całym systemie.

Jeśli używasz enable_trace_reviews funkcji do generowania artefaktów przeglądu, upewnij się, że wszyscy użytkownicy mają przypisane niezbędne uprawnienia do przeprowadzania przeglądów lub zarządzania nimi. W tym celu użyj interfejsu set_permissions API.