Wzbogacanie danych przy użyciu funkcji sztucznej inteligencji

Ważna

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Funkcje sztucznej inteligencji to wbudowane funkcje, których można używać do stosowania funkcji LLM lub najnowocześniejszych technik badawczych dotyczących danych przechowywanych na Azure Databricks na potrzeby przekształcania i wzbogacania danych. Można je uruchamiać z dowolnego miejsca w usłudze Databricks, w tym w usłudze Databricks SQL, notatnikach, potokach deklaratywnych Lakeflow Spark i przepływach pracy Workflows.

Funkcje sztucznej inteligencji są proste w użyciu, szybkie i skalowalne. Analitycy mogą ich używać do stosowania analizy danych do własnych danych, podczas gdy inżynierowie danych, analitycy danych i inżynierowie uczenia maszynowego mogą ich używać do tworzenia potoków wsadowych klasy produkcyjnej.

Zadanie specyficzne i ogólnego przeznaczenia

Funkcje sztucznej inteligencji mają funkcje specyficzne dla zadań i ogólnego przeznaczenia:

Funkcje sztucznej inteligencji specyficzne dla zadań — wbudowane funkcje przeznaczone do określonego zadania, takie jak analizowanie dokumentów, wyodrębnianie jednostek, klasyfikacja i analiza tonacji. Te funkcje są obsługiwane przez systemy Azure Databricks wspierane badaniami. Niektóre funkcje obejmują interakcje z interfejsem użytkownika. Zobacz Funkcje sztucznej inteligencji specyficzne dla zadań , aby zapoznać się z obsługiwanymi funkcjami i modelami.
ai_query — Funkcja ogólnego przeznaczenia na potrzeby zadań i elastyczności modelu. Podaj zapytanie i wybierz dowolny obsługiwany interfejs API modelu bazowego. Zobacz Użycie ai_query.

Drzewo decyzyjne dla funkcji sztucznej inteligencji specyficznych dla zadań i ai_query

funkcje sztucznej inteligencji specyficzne dla zadań

Funkcje specyficzne dla zadania są ograniczone do określonego zadania, dzięki czemu można zautomatyzować rutynowe przekształcenia, takie jak wyodrębnianie jednostek, tłumaczenie i klasyfikacja. Usługa Databricks zaleca te funkcje do rozpoczęcia pracy, ponieważ wywołują najnowocześniejsze techniki badawcze obsługiwane przez usługę Databricks i nie wymagają żadnych dostosowań.

Zobacz Analizowanie recenzji klientów za pomocą funkcji sztucznej inteligencji, aby zapoznać się z przykładem.

W poniższej tabeli wymieniono obsługiwane funkcje i zadania, które wykonują.

Funkcja	Opis
ai_parse_document	Analizowanie zawartości ustrukturyzowanej (tekstu, tabel, opisów rysunków) i układu z dokumentów bez struktury przy użyciu najnowocześniejszych technik badawczych.
ai_extract	Wyodrębnij pola ustrukturyzowane z dokumentów lub tekstu przy użyciu zdefiniowanego schematu.
ai_classify	Klasyfikuj tekst wejściowy zgodnie z etykietami, które udostępniasz przy użyciu najnowocześniejszych technik badawczych.
ai_analiza_nastrojów	Przeprowadź analizę sentymentu w tekście wejściowym używając najnowocześniejszego generatywnego modelu sztucznej inteligencji.
ai_popraw_gramatykę	Poprawianie błędów gramatycznych w tekście przy użyciu najnowocześniejszego modelu generowania sztucznej inteligencji.
ai_gen	Odpowiedz na monit dostarczony przez użytkownika przy użyciu najnowocześniejszego modelu generowania sztucznej inteligencji.
ai_mask	Maskuj określone jednostki w tekście przy użyciu najnowocześniejszego modelu generowania sztucznej inteligencji.
ai_parse_document	Wyodrębnianie zawartości ustrukturyzowanej z dokumentów bez struktury przy użyciu najnowocześniejszego modelu generowania sztucznej inteligencji.
ai_prep_search	Przekształć przeanalizowane dane wyjściowe dokumentu w fragmenty gotowe do wyszukiwania zoptymalizowane pod kątem wyszukiwania wektorów i potoków RAG.
ai_query	Funkcja sztucznej inteligencji ogólnego przeznaczenia dla zadań, które wykraczają poza ofertę funkcji specyficznych dla zadań. Podaj niestandardowe polecenie i wybierz dowolny obsługiwany model API Foundation Model.
ai_similarity	Porównaj dwa ciągi znaków i oblicz wynik podobieństwa semantycznego przy użyciu najnowocześniejszego generatywnego modelu sztucznej inteligencji.
ai_summarize	Wygeneruj podsumowanie tekstu przy użyciu języka SQL i najnowocześniejszego modelu generowania sztucznej inteligencji.
ai_translate	Tłumaczenie tekstu na określony język docelowy przy użyciu najnowocześniejszego modelu generowania sztucznej inteligencji.
ai_forecast	Prognoza danych na określony horyzont. Ta funkcja o wartości tabeli została zaprojektowana w celu ekstrapolacji danych szeregów czasowych w przyszłości.
vector_search	Wyszukiwanie i wykonywanie zapytań względem indeksu Mosaic AI Vector Search przy użyciu najnowocześniejszego generatywnego modelu AI.

Korzystanie z funkcji sztucznej inteligencji w przepływach pracy produkcyjnych

W przypadku wnioskowania wsadowego na dużą skalę można zintegrować funkcje sztucznej inteligencji specyficzne dla zadań lub funkcję ai_query ogólnego przeznaczenia z przepływami pracy produkcyjnych, takimi jak potoki deklaratywne platformy Lakeflow, przepływy pracy usługi Databricks i przesyłanie strumieniowe ze strukturą. Umożliwia to przetwarzanie klasy produkcyjnej na dużą skalę.

Najlepsze rozwiązania dotyczące funkcji sztucznej inteligencji w środowisku produkcyjnym:

Pozwól usłudze AI Functions obsługiwać obciążenie na dużą skalę: Funkcje sztucznej inteligencji automatycznie zarządzają przetwarzaniem równoległym, ponawianiem prób i skalowaniem. Zaleca się przesłanie pełnego zestawu danych w jednym zapytaniu, a nie ręczne podzielenie go na małe partie. Wydajność może nie być skalowana liniowo z bardzo małych obciążeń do obciążeń na dużą skalę.

Korzystanie z modeli bazowych hostowanych w usłudze Databricks: W przypadku korzystania z funkcji AI ai_query, należy używać modeli bazowych hostowanych w usłudze Databricks (poprzedzonych prefiksem databricks-), a nie przepływności zapewnionej. Te punkty końcowe bez aprowizacji są w pełni zarządzane i działają najlepiej w przypadku przetwarzania wsadowego.

Zobacz Wdrażanie potoków wnioskowania wsadowego, aby uzyskać przykłady i szczegóły.

Monitorowanie postępu funkcji sztucznej inteligencji

Aby dowiedzieć się, ile wniosków zostało ukończonych lub zakończonych niepowodzeniem i rozwiązać problemy z wydajnością, możesz monitorować postęp funkcji sztucznej inteligencji przy użyciu funkcji profilu zapytania.

W środowisku Databricks Runtime 16.1 ML lub nowszym w oknie zapytania edytora SQL w obszarze roboczym:

Wybierz link Running--- w dolnej części okna Raw results. Po prawej stronie zostanie wyświetlone okno wydajności .
Kliknij pozycję Zobacz profil zapytania , aby wyświetlić szczegóły wydajności.
Kliknij Zapytanie AI, aby wyświetlić metryki dla tego konkretnego zapytania, w tym liczbę ukończonych i nieudanych wnioskowań oraz całkowity czas realizacji żądania.

Wyświetlanie kosztów obciążeń funkcji sztucznej inteligencji

Koszty funkcji sztucznej inteligencji są rejestrowane jako część produktu w ramach oferty typu MODEL_SERVING. Zobacz Wyświetlanie kosztów obciążeń wnioskowania wsadowego , aby zapoznać się z przykładowym zapytaniem.

Uwaga / Notatka

W przypadku ai_parse_document, ai_extract i ai_classify koszty są rejestrowane jako część produktu AI_FUNCTIONS. Zobacz Wyświetlanie kosztów przebiegówai_parse_document, aby zapoznać się z przykładowym zapytaniem.

Wyświetlanie kosztów zadań wnioskowania wsadowego

W poniższych przykładach pokazano, jak filtrować obciążenia wnioskowania wsadowego na podstawie zadań, obliczeń, magazynów SQL i potoków deklaratywnych platformy Spark w usłudze Lakeflow.

Zobacz Monitorowanie kosztów serwowania modelu w celu zapoznania się z ogólnymi przykładami wyświetlania kosztów zadań wnioskowania wsadowego wykorzystujących funkcje sztucznej inteligencji.

Jobs

Poniższe zapytanie pokazuje, które zadania są używane do wnioskowania wsadowego przy użyciu tabeli systemów system.workflow.jobs. Zobacz Monitorowanie kosztów zadań i wydajności przy użyciu tabel systemowych.


SELECT *
FROM system.billing.usage u
  JOIN system.workflow.jobs x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.job_id = x.job_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Compute

Poniżej pokazano, które klastry są używane do wnioskowania wsadowego przy użyciu tabeli system.compute.clusters systems.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Potoki deklaratywne platformy Spark w usłudze Lakeflow

Poniżej przedstawiono, które Lakeflow Spark Deklaratywne Linie Przetwarzania są używane do wnioskowania wsadowego przy użyciu tabeli system.lakeflow.pipelines systems.

SELECT *
FROM system.billing.usage u
  JOIN system.lakeflow.pipelines x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.dlt_pipeline_id = x.pipeline_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

SQL Warehouse

Poniżej przedstawiono, które magazyny SQL są używane na potrzeby wnioskowania wsadowego za pomocą tabeli systems system.compute.warehouses.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Wyświetl koszty przebiegów `ai_parse_document`

W poniższym przykładzie pokazano, jak wykonywać zapytania do tabel systemu rozliczeniowego w celu wyświetlania kosztów uruchomienia ai_parse_document.


SELECT *
FROM system.billing.usage u
WHERE u.workspace_id = <workspace_id>
  AND u.billing_origin_product = "AI_FUNCTIONS"
  AND u.product_features.ai_functions.ai_function = "AI_PARSE_DOCUMENT";

Opinia

Czy ta strona była pomocna?

Last updated on 2026-04-08