Operacje generowania sztucznej inteligencji dla organizacji z inwestycjami w metodykę MLOps

2025-05-09

Ten artykuł zawiera wskazówki dla zespołów obciążeń, które mają istniejące inwestycje w operacje uczenia maszynowego (MLOps) i chcą rozszerzyć te inwestycje, aby uwzględnić generowanie technologii sztucznej inteligencji i wzorców w ich obciążeniu. Aby operacjonalizować funkcje obciążeń generatywnej sztucznej inteligencji, należy rozszerzyć inwestycje metodyki MLOps przy użyciu operacji generatywnej sztucznej inteligencji (GenAIOps), czasami nazywanych LLMOps. W tym artykule opisano wzorce techniczne wspólne dla tradycyjnych obciążeń uczenia maszynowego i generowania sztucznej inteligencji oraz wzorce unikatowe dla generowania sztucznej inteligencji. Dowiedz się, gdzie można zastosować istniejące inwestycje przy procesie operacjonalizacji i gdzie należy te inwestycje rozszerzyć.

Planowanie i implementacja metodyki MLOps i GenAIOps są częścią podstawowego obszaru projektowania obciążeń sztucznej inteligencji na platformie Azure. Aby uzyskać więcej informacji o tym, dlaczego te obciążenia wymagają wyspecjalizowanych operacji, zobacz Metodyki MLOps i GenAIOps dla obciążeń sztucznej inteligencji na platformie Azure.

Wzorce techniczne generowania sztucznej inteligencji

Obciążenia generowania sztucznej inteligencji różnią się od tradycyjnych obciążeń uczenia maszynowego na kilka sposobów:

Skoncentruj się na modelach generowania. Tradycyjne obciążenia uczenia maszynowego koncentrują się na trenowaniu nowych modeli pod kątem określonych zadań. Obciążenia związane z generatywną sztuczną inteligencją zużywają i czasami dostrajają modele generatywne, które mogą uwzględniać szeroki zakres przypadków użycia. Niektóre z tych modeli są wielomodalne.
Skoncentruj się na rozszerzaniu modeli. Kluczowym zasobem tradycyjnego uczenia maszynowego jest wytrenowany i wdrożony model. Dostęp do modelu jest zapewniany kodowi klienta w jednym lub kilku zadaniach, ale zadania zazwyczaj nie są częścią procesu MLOps. W przypadku generujących rozwiązań sztucznej inteligencji kluczowy aspekt rozwiązania to polecenie dostarczone do modelu generowania. Monit musi składać się z instrukcji i często zawiera dane kontekstowe z co najmniej jednego magazynu danych. System, który organizuje logikę, wywołuje różne zaplecza lub agentów, generuje monit i wywołuje model generatywny, jest częścią systemu generatywnej sztucznej inteligencji, którym zarządzasz za pomocą GenAIOps.

Niektóre rozwiązania generowania sztucznej inteligencji używają tradycyjnych praktyk uczenia maszynowego, takich jak trenowanie modeli i dostrajanie. Jednak te rozwiązania wprowadzają nowe wzorce, które należy standandaryzować. Istnieją trzy szerokie kategorie wzorców technicznych dla generowania rozwiązań sztucznej inteligencji:

Wstępne trenowanie i dostrajanie
Inżynieria poleceń
Generacja wspomagana pobieraniem (RAG)

Trenowanie i dostrajanie modeli językowych

Wiele generacyjnych rozwiązań sztucznej inteligencji używa istniejących podstawowych modeli językowych, które nie wymagają precyzyjnego dostrajania przed użyciem. Jednak niektóre przypadki użycia mogą korzystać z precyzyjnego dostrajania modelu podstawowego lub trenowania nowego modelu generowania sztucznej inteligencji, takiego jak mały model językowy (SLM).

Trenowanie nowego modelu SLM i dostrajanie modelu podstawy generowania jest zgodne z tymi samymi procesami logicznymi co trenowanie tradycyjnych modeli uczenia maszynowego. Te procesy powinny korzystać z istniejących inwestycji w metodyki MLOps.

Inżynieria poleceń

Inżynieria promptów obejmuje wszystkie procesy zawarte w projektowaniu efektywnego promptu wysyłanego jako dane wejściowe do modelu generatywnego. Zazwyczaj istnieje orkiestrator, który kontroluje przepływ pracy generujący komunikat. Orkiestrator może wywoływać różne magazyny danych bezpośrednio lub pośrednio przez agentów, aby zebrać informacje, w tym dane uziemienia. Następnie stosuje wymaganą logikę w celu wygenerowania najbardziej efektywnego monitu. Orkiestrator jest następnie wdrażany jako punkt końcowy interfejsu API, do którego uzyskuje dostęp kod klienta w inteligentnej aplikacji.

Na poniższym diagramie przedstawiono architekturę projektowania promptów.

Ta kategoria wzorców technicznych może dotyczyć wielu przypadków użycia:

Klasyfikacja
Tłumaczenie
Podsumowanie
RAG

RAG

RAG to wzorzec architektury, który wykorzystuje techniki inżynierii promptów do integracji danych specyficznych dla domeny jako danych bazowych dla modelu językowego. Model językowy jest trenowany względem określonego zestawu danych. Twoje obciążenie pracą może wymagać wnioskowania o danych, które są specyficzne dla Twojej firmy, klientów lub dziedziny. W przypadku rozwiązań RAG dane są odpytywane, a najbardziej odpowiednie wyniki są dostarczane do modelu językowego w ramach podpowiedzi, zwykle za pośrednictwem warstwy orkiestracji.

Typowa implementacja RAG polega na podzieleniu danych źródłowych na fragmenty i przechowywaniu ich w magazynie wektorów wraz z metadanymi. Magazyny wektorowe, takie jak usługa Azure AI Search, umożliwiają wykonywanie wyszukiwań tekstowych i wektorowych w celu zwracania kontekstowo odpowiednich wyników. Rozwiązania RAG mogą również używać innych magazynów danych do zwracania danych bazowych.

Na poniższym diagramie przedstawiono architekturę RAG zawierającą dane z dokumentów.

Rozszerzanie metodyki MLOps na potrzeby generowania wzorców technicznych sztucznej inteligencji

Proces MLOps dotyczy zarówno pętli wewnętrznej, jak i procesów pętli zewnętrznej. Generacyjne wzorce techniczne sztucznej inteligencji również mają wiele tych samych działań. W niektórych przypadkach stosujesz istniejące inwestycje mlOps. W innych przypadkach należy je rozszerzyć:

Pętla wewnętrzna
Pętla zewnętrzna
- Wdrożenie
- wnioskowanie i monitorowanie
- Pętla opinii

DataOps

Metodyki MLOps i GenAIOps stosują podstawy operacji danych (DataOps), aby tworzyć rozszerzalne i powtarzalne przepływy pracy. Te przepływy pracy zapewniają, że dane są czyszczone, przekształcone i sformatowane poprawnie na potrzeby eksperymentowania i oceny. Powtarzalność przepływu pracy i przechowywanie wersji danych są ważnymi funkcjami metodyki DataOps dla wszystkich wzorców technicznych. Źródła, typy i intencja danych zależą od wzorca.

Trenowanie i dostrajanie

Ten wzorzec techniczny powinien maksymalnie wykorzystać istniejące inwestycje DataOps z implementacji MLOps. Powtarzalność i przechowywanie wersji danych umożliwiają eksperymentowanie z różnymi danymi inżynierii cech, porównywanie wydajności różnych modeli i odtwarzanie wyników.

RAG i inżynieria promptów

Celem danych w rozwiązaniach RAG jest zapewnienie danych uziemiających (lub kontekstu) przedstawionych modelowi językowemu w ramach polecenia. Rozwiązania RAG często wymagają przetwarzania dużych dokumentów lub zestawów danych na kolekcję fragmentów o odpowiednim rozmiarze i semantycznie odpowiednich fragmentach oraz przechowywania tych fragmentów w magazynie wektorów. Aby uzyskać więcej informacji, zobacz Zaprojektuj i opracuj rozwiązanie RAG. Odtwarzalność i wersjonowanie danych dla rozwiązań RAG umożliwia eksperymentowanie z różnymi strategiami podziału na fragmenty i osadzania, porównywanie wydajności oraz przywracanie poprzednich wersji.

Potoki danych do chunkingu dokumentów nie są częścią DataOps w tradycyjnym MLOps, więc trzeba rozszerzyć architekturę i operacje. Potoki danych mogą odczytywać dane z różnych źródeł, które obejmują zarówno dane ustrukturyzowane, jak i nieustrukturyzowane. Mogą również zapisywać przekształcone dane w różnych miejscach docelowych. Należy rozszerzyć potoki, aby uwzględniały magazyny danych, które używasz do przechowywania danych referencyjnych. Typowe magazyny danych dla tych wzorców to magazyny wektorów, takie jak wyszukiwanie sztucznej inteligencji.

Podobnie jak trenowanie i dostrajanie, pipeliny usługi Azure Machine Learning lub inne narzędzia do przetwarzania danych mogą być używane do organizowania etapów dzielenia na fragmenty.

Konserwacja indeksu wyszukiwania

Należy również rozszerzyć operacje, aby zachować świeżość i ważność indeksów wyszukiwania w magazynach danych. Może być konieczne okresowe ponowne kompilowanie tych indeksów, jeśli nie można przyrostowo dodawać, usuwać ani aktualizować danych. Aktualizacje indeksów muszą spełniać wymagania biznesowe dotyczące aktualności danych, wymagania niefunkcjonalne, takie jak wydajność i dostępność, oraz wymagania dotyczące zgodności, takie jak prawo do zapomnienia żądań. Należy rozszerzyć istniejący proces MLOps, aby uwzględnić utrzymanie i aktualizowanie indeksów wyszukiwania w celu zapewnienia dokładności, zgodności i optymalnej wydajności.

Eksperymenty

Eksperymentowanie, część pętli wewnętrznej, to iteracyjny proces tworzenia, ocenianiai udoskonalania rozwiązania. W poniższych sekcjach opisano eksperymenty dla typowych wzorców technicznych generacyjnych sztucznej inteligencji.

Trenowanie i dostrajanie

Jeśli dostosujesz istniejący model językowy lub wytrenujesz model SLM, możesz wykorzystać obecne inwestycje w MLOps. Na przykład pipeline'y Machine Learning udostępniają zestaw narzędzi do wydajnego i efektywnego przeprowadzania eksperymentów. Te sekwencje przetwarzania umożliwiają zarządzanie całym procesem dostrajania (fine-tuning), od wstępnego przetwarzania danych do szkolenia i ewaluacji modelu.

RAG i inżynieria promptów

Eksperymentowanie z inżynierią promptów i obciążeniami RAG wymaga rozszerzenia inwestycji w MLOps. W przypadku tych wzorców technicznych obciążenie nie kończy się na modelu. Obciążenie wymaga orkiestratora, który jest systemem, który może uruchamiać logikę, wywoływać magazyny danych lub agentów w celu uzyskania wymaganych informacji, takich jak dane uziemienia, generowanie monitów i wywoływanie modeli językowych. Magazyny danych i indeksy w sklepach są również częścią obciążenia roboczego. Musisz rozszerzyć operacje, aby zarządzać tymi aspektami obciążenia.

Możesz eksperymentować z wieloma wymiarami, aby uzyskać rozwiązania do tworzenia monitów inżynieryjnych, w tym różne instrukcje, osoby, przykłady, ograniczenia i zaawansowane techniki, takie jak łańcuch monitów. Eksperymentowanie z rozwiązaniami RAG umożliwia również eksperymentowanie z innymi obszarami:

Strategie fragmentowania
Metody wzbogacania fragmentów
Wybieranie modelu osadzania
Konfiguracja indeksu wyszukiwania
Typy wyszukiwań do wykonania, takie jak wektor, tekst pełnotekstowy i hybrydowy

Jak opisano w artykule DataOps, powtarzalność i przechowywanie wersji danych są kluczem do eksperymentowania. Dobra struktura eksperymentowania umożliwia przechowywanie danych wejściowych, takich jak zmiany hiperparametrów lub monitów, wraz z danymi wyjściowymi, które mają być używane podczas oceniania eksperymentu.

Podobnie jak w istniejącym środowisku MLOps, możesz korzystać z frameworków takich jak potoki uczenia maszynowego. Potoki uczenia maszynowego mają funkcje wspierające indeksowanie poprzez integrację z magazynami wektorowymi, takimi jak AI Search. Środowisko GenAIOps może korzystać z dostępnych funkcji potoku i łączyć je z funkcjami przepływu poleceń, które odpowiadają za zarządzanie tworzeniem poleceń oraz niestandardową logiką przetwarzania wstępnego.

Ocena i eksperymentowanie

Ocena jest kluczowa w procesie iteracyjnym eksperymentowania podczas tworzenia, oceniania i udoskonalania rozwiązania. Ocena zmian dostarcza opinii potrzebnej do wprowadzenia poprawek lub potwierdzenia, że bieżąca wersja spełnia Twoje wymagania. W poniższych sekcjach opisano ocenę w fazie eksperymentowania dla typowych wzorców technicznych generacyjnych sztucznej inteligencji.

Trenowanie i dostrajanie

W celu oceny dostrojonych lub wytrenowanych modeli generatywnej sztucznej inteligencji należy skorzystać z istniejących inwestycji w MLOps. Jeśli na przykład używasz potoków uczenia maszynowego do organizowania trenowania modelu uczenia maszynowego, możesz użyć tych samych funkcji oceny, aby dostosować bazowe modele językowe lub wytrenować nowe SLM. Te funkcje obejmują Evaluate Model component, który oblicza standardowe metryki oceny dla określonych typów modeli i porównuje wyniki między modelami. Jeśli obciążenie korzysta z rozwiązania Azure AI Foundry, możesz rozszerzyć proces MLOps, aby uwzględnić jego możliwości oceny dostępne w zestawie SDK do oceny.

RAG i inżynieria promptów

Aby ocenić generatywne rozwiązania sztucznej inteligencji, należy rozszerzyć istniejące inwestycje w metodykę MLOps. Możesz użyć narzędzi, takich jak przepływ monitów, który zapewnia platformę do oceny. Przepływ poleceń umożliwia zespołom definiowanie niestandardowej logiki oceny poprzez określenie kryteriów i metryk, aby ocenić wydajność różnych wariantów monitów oraz dużych modeli języka (LLMs). Takie podejście ustrukturyzowane umożliwia porównywanie różnych konfiguracji obok siebie, takich jak hiperparametr lub odmiany architektury, w celu zidentyfikowania optymalnej konfiguracji dla określonych zadań.

Zadania w przepływie monitów automatycznie przechwytują zarówno dane wejściowe, jak i wyjściowe w całym procesie eksperymentowania w celu utworzenia kompleksowego rekordu wersji próbnej. Możesz uzyskać szczegółowe informacje i zidentyfikować obiecujące konfiguracje, które mogą informować przyszłe iteracji, analizując te dane. Możesz przyspieszyć rozwój generacyjnych rozwiązań sztucznej inteligencji, korzystając z przepływów promptów do przeprowadzania wydajnych i systematycznych eksperymentów.

Proces eksperymentowania pozostaje spójny, niezależnie od przypadku użycia rozwiązania do generowania sztucznej inteligencji. Te przypadki użycia obejmują klasyfikację, podsumowanie, tłumaczenie i RAG. Ważną różnicą jest metryki używane do oceny różnych przypadków użycia. Rozważ następujące metryki na podstawie przypadku użycia:

Tłumaczenie: BLEU
Podsumowanie: ROUGE, BLEU, BERTScore, METEOR
Klasyfikacja: precyzja, czułość, dokładność, entropia krzyżowa
RAG: Ugruntowanie, Trafność

Uwaga

Aby uzyskać więcej informacji na temat oceniania modeli językowych i rozwiązań RAG, zobacz Ocena kompleksowa LLM.

Rozwiązania generatywnej sztucznej inteligencji zazwyczaj rozszerzają zakres obowiązków zespołu uczenia maszynowego od trenowania modeli do inżynierii promptów oraz zarządzania danymi bazowymi. Ponieważ inżynieria promptów oraz eksperymentowanie i ocena RAG niekoniecznie wymagają analityków danych, możesz być skuszony do użycia innych ról, takich jak inżynierowie oprogramowania i inżynierowie danych, do wykonywania tych funkcji. Możesz napotkać wyzwania, jeśli pominiesz naukowców danych w procesie eksperymentowania z inżynierią promptów i rozwiązaniami RAG. Inne role często nie mają specjalistycznego szkolenia potrzebnego do naukowego oceniania wyników tak skutecznie, jak analitycy danych. Aby uzyskać więcej informacji, zobacz Zaprojektuj i opracuj rozwiązanie RAG.

Inwestowanie w generowanie rozwiązań sztucznej inteligencji pomaga złagodzić niektóre obciążenia zasobów nauki o danych. Rola inżynierów oprogramowania rozszerza się w tych rozwiązaniach. Na przykład inżynierowie oprogramowania są doskonałymi zasobami do zarządzania procesem orkiestracji rozwiązań w generatywnej sztucznej inteligencji i są biegli w konfigurowaniu metryk oceny w takich narzędziach, jak Prompt Flow. Ważne jest, aby analitycy danych przejrzeli tę pracę. Mają doświadczenie i szkolenia, aby zrozumieć, jak prawidłowo ocenić eksperymenty.

Wdrożenie

Niektóre rozwiązania generowania sztucznej inteligencji obejmują wdrażanie niestandardowych wytrenowanych modeli lub dostrajanie istniejących modeli. W przypadku generacyjnych rozwiązań sztucznej inteligencji należy uwzględnić dodatkowe zadania wdrażania orkiestratorów i wszystkich magazynów danych. W poniższych sekcjach opisano wdrażanie typowych wzorców technicznych generacyjnych sztucznej inteligencji.

Trenowanie i dostrajanie

Należy użyć istniejących inwestycji MLOps, z pewnymi możliwymi korektami, aby wdrożyć modele generatywne AI i dostroić modele bazowe. Aby na przykład dostosować moduł LLM w usłudze Azure OpenAI Service, musisz upewnić się, że zestawy danych szkoleniowych i weryfikacyjnych są w formacie JSONL i musisz przekazać dane za pośrednictwem interfejsu API REST. Należy również utworzyć zadanie dostrajania. Aby wdrożyć wytrenowany program SLM, możesz skorzystać z istniejących inwestycji w metodykę MLOps.

RAG i inżynieria promptów

W przypadku inżynierii RAG i projektowania monitów inne zagadnienia obejmują logikę orkiestracji, modyfikacje repozytoriów danych, takie jak indeksy i schematy, oraz korekty logiki potoku danych. Logika orkiestracji jest zwykle zawarta w strukturach, takich jak przepływ monitów, Semantyczne Jądro lub LangChain. Orkiestrator można wdrożyć w różnych zasobach obliczeniowych, w tym w zasobach, w których obecnie wdrażane są modele niestandardowe. Aby uzyskać więcej informacji na temat wdrażania przepływu monitów do punktów końcowych online zarządzanych przez usługę Machine Learning lub do usługi Azure App Service, zobacz Podstawowa architektura referencyjna czatu rozwiązania AI Foundry. Aby wdrożyć w usłudze App Service, architektura czatu Azure OpenAI spakowuje przebieg procesów i jego zależności jako kontener. Ta praktyka zwiększa przenośność i spójność w różnych środowiskach.

Wdrożenia zmian w zasobach bazy danych, takie jak zmiany modeli danych lub indeksów, to nowe zadania, które muszą być obsługiwane w usłudze GenAIOps. Typowym rozwiązaniem podczas pracy z modelami LLM jest użycie bramy przed modelem LLM.

Wiele generacyjnych architektur sztucznej inteligencji korzystających z modeli językowych hostowanych na platformie, takich jak te obsługiwane w usłudze Azure OpenAI, obejmują bramę , na przykład azure API Management. Przypadki użycia bramy obejmują równoważenie obciążenia, uwierzytelnianie i monitorowanie. Brama może odgrywać rolę we wdrożeniu nowo wytrenowanych lub dostrojonych modeli, co pozwala stopniowo wdrażać nowe modele. Użycie bramy wraz z przechowywaniem wersji modelu umożliwia zminimalizowanie ryzyka podczas wdrażania zmian i wycofywania do poprzednich wersji w przypadku wystąpienia problemów.

Wdrożenia elementów specyficznych dla generowania sztucznej inteligencji, takich jak orkiestrator, powinny postępować zgodnie z odpowiednimi procedurami operacyjnymi:

Rygorystyczne testy, w tym testy jednostkowe
Testy integracji
Testy A/B
Kompleksowe testy
Strategie wdrażania, takie jak wdrożenia kanarowe lub wdrożenia niebiesko-zielone

Ponieważ obowiązki związane z wdrażaniem aplikacji generacyjnych sztucznej inteligencji wykraczają poza wdrożenie modelu, może być konieczne dodatkowe role zadań do zarządzania wdrażaniem i monitorowaniem składników, takich jak interfejs użytkownika, orkiestrator i magazyny danych. Te role są często dostosowane do zestawów umiejętności inżynierów devOps.

Wnioskowanie i monitorowanie

Wnioskowanie to proces przekazywania danych wejściowych do wytrenowanego i wdrożonego modelu, który następnie generuje odpowiedź. Należy monitorować zarówno tradycyjne rozwiązania uczenia maszynowego, jak i generacyjne rozwiązania sztucznej inteligencji z perspektywy monitorowania operacyjnego, uczenia się na podstawie środowiska produkcyjnego i zarządzania zasobami.

Monitorowanie operacyjne

Monitorowanie operacyjne to proces obserwacji bieżących operacji systemu, w tym metodyki DataOps i trenowania modelu. Ten typ monitorowania wyszukuje odchylenia, w tym błędy, zmiany współczynników błędów i zmiany czasów przetwarzania.

W przypadku trenowania modelu i dostrajania zazwyczaj obserwujesz operacje DataOps przy przetwarzaniu danych cech, trenowaniu modelu i dostrajaniu. Monitorowanie tych procesów pętli wewnętrznej powinno korzystać z istniejących inwestycji w metodykę MLOps i metodykę DataOps.

Podczas projektowania promptów w rozwiązaniach generacyjnych sztucznej inteligencji masz dodatkowe kwestie dotyczące monitorowania. Należy monitorować potoki danych, które przetwarzają dane wyjściowe lub inne dane używane do generowania wywołań. To przetwarzanie może obejmować operacje magazynu danych, takie jak kompilowanie lub ponowne kompilowanie indeksów.

W systemie wieloagentowym należy monitorować dostępność, charakterystykę wydajności oraz jakość i spójność odpowiedzi agentów, z którymi współpracuje orkiestrator.

Uczenie się od produkcji

Kluczowym aspektem monitorowania na etapie wnioskowania jest uczenie się z produkcji. Monitorowanie tradycyjnych modeli uczenia maszynowego śledzi metryki, takie jak dokładność, precyzja i czułość. Kluczowym celem jest uniknięcie dryfu w przewidywaniach. Rozwiązania wykorzystujące modele generatywne do przewidywań, takie jak model GPT używany do klasyfikacji, powinny wykorzystywać istniejące inwestycje w monitorowanie w ramach MLOps.

Rozwiązania wykorzystujące modele generatywne do analizy danych bazowych używają metryk, takich jak osadzenie, kompletność, wykorzystanie i trafność. Celem jest zapewnienie, że model w pełni odpowiada na zapytanie i opiera odpowiedź na jego kontekście. W tym rozwiązaniu należy spróbować zapobiec problemom takim jak dryf danych. Chcesz mieć pewność, że dane podstawowe i prompt podany do modelu są maksymalnie istotne dla zapytania użytkownika.

Rozwiązania korzystające z generatywnych modeli dla zadań niepredykcyjnych, takich jak rozwiązania RAG, często czerpią korzyści z informacji zwrotnych od użytkowników końcowych w celu oceny przydatności. Interfejsy użytkownika mogą przechwytywać opinie, takie jak kciuki w górę lub w dół. Za pomocą tych danych można okresowo oceniać odpowiedzi.

Typowym wzorcem dla rozwiązań generatywnej sztucznej inteligencji jest wdrożenie bramy sieciowej przed modelami generatywnymi. Jednym z przypadków użycia bramy jest monitorowanie modeli podstawowych. Brama służy do rejestrowania monitów wejściowych i danych wyjściowych modelu.

Innym kluczowym obszarem monitorowania rozwiązań generujących jest bezpieczeństwo zawartości. Celem jest moderowanie odpowiedzi i wykrywanie szkodliwej lub niepożądanej zawartości. Microsoft Azure AI Content Safety Studio to narzędzie, którego można użyć do moderowania zawartości.

Zarządzanie zasobami

Rozwiązania generowania, które korzystają z modeli uwidocznionych jako usługa, takich jak Azure OpenAI, mają inne problemy związane z zarządzaniem zasobami niż modele wdrażane samodzielnie. W przypadku modeli, które są uwidocznione jako usługa, zarządzanie infrastrukturą nie jest problemem. Zamiast tego koncentruje się na przepustowości usługi, limicie i ograniczaniu. Usługa Azure OpenAI używa tokenów do rozliczeń, ograniczania przepustowości i limitów przydziału. Należy monitorować użycie limitów przydziału na potrzeby zarządzania kosztami i wydajności. Usługa Azure OpenAI udostępnia również funkcje rejestrowania do śledzenia użycia tokenów.

Narzędzia

Wielu praktyków MLOps używa standardowego zestawu narzędzi do organizowania działań, takich jak automatyzacja, śledzenie, wdrażanie i eksperymentowanie. Takie podejście stanowi abstrakcję typowych problemów i szczegółów implementacji, co sprawia, że te procesy są bardziej wydajne i możliwe do zarządzania. Popularna ujednolicona platforma to MLflow. Przed wyszukaniem nowych narzędzi do obsługi wzorców GenAIOps należy przejrzeć istniejące narzędzia MLOps, aby ocenić jego obsługę generowania sztucznej inteligencji. Na przykład platforma MLflow obsługuje szeroką gamę funkcji modeli językowych.

Możesz również zapoznać się z korzyściami i kompromisami wprowadzania nowych narzędzi do twojego procesu pracy. Na przykład zestaw SDK oceny sztucznej inteligencji platformy Azure dla języka Python może być opcją wykonalną, ponieważ ma natywną obsługę w portalu Azure AI Foundry.

Modele dojrzałości MLOps i GenAIOps

Możliwe, że użyłeś modelu dojrzałości MLOps, aby ocenić dojrzałość swojego obecnego MLOps i środowiska. W miarę rozszerzania inwestycji w metodykę MLOps na potrzeby obciążeń generowania sztucznej inteligencji należy użyć modelu dojrzałości GenAIOps do oceny tych operacji. Warto połączyć dwa modele dojrzałości, ale zalecamy samodzielne pomiary poszczególnych modeli, ponieważ metodyki MLOps i GenAIOps ewoluują oddzielnie. Na przykład możesz być na poziomie czwartym w modelu dojrzałości MLOps, ale tylko na poziomie jednym w modelu dojrzałości GenAIOps.

Użyj oceny modelu dojrzałości GenAIOps. Ta ocena pomaga zrozumieć postęp inwestycji w metodyce GenAIOps.

Podsumowanie

Gdy zaczniesz rozszerzać inwestycje w metodykę MLOps w celu uwzględnienia generowania sztucznej inteligencji, ważne jest, aby zrozumieć, że nie musisz zaczynać od nowa. Możesz użyć istniejących inwestycji w rozwiązania MLOps dla kilku wzorców technicznych generatywnej sztucznej inteligencji. Dostrajanie modeli generowania jest doskonałym przykładem. Niektóre procesy w rozwiązaniach generacyjnych sztucznej inteligencji, takich jak inżynieria monitu i RAG, są nowe. Ponieważ nie są one częścią tradycyjnych przepływów pracy sztucznej inteligencji, musisz rozszerzyć istniejące inwestycje w operacje i zdobyć nowe umiejętności, aby skutecznie ich używać.

Współautorzy

Firma Microsoft utrzymuje ten artykuł. Następujący współautorzy napisali ten artykuł.

Luiz Braz | Starszy specjalista techniczny
Marco Aurelio Cardoso | Starszy inżynier oprogramowania
Paulo Lacerda | Architekt rozwiązań w chmurze
Ritesh Modi | Główny inżynier oprogramowania

Aby wyświetlić niepubliczne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Udostępnij za pośrednictwem

Operacje generowania sztucznej inteligencji dla organizacji z inwestycjami w metodykę MLOps

Wzorce techniczne generowania sztucznej inteligencji

Trenowanie i dostrajanie modeli językowych

Inżynieria poleceń

RAG

Rozszerzanie metodyki MLOps na potrzeby generowania wzorców technicznych sztucznej inteligencji

DataOps

Trenowanie i dostrajanie

RAG i inżynieria promptów

Konserwacja indeksu wyszukiwania

Eksperymenty

Trenowanie i dostrajanie

RAG i inżynieria promptów

Ocena i eksperymentowanie

Trenowanie i dostrajanie

RAG i inżynieria promptów

Wdrożenie

Trenowanie i dostrajanie

RAG i inżynieria promptów

Wnioskowanie i monitorowanie

Monitorowanie operacyjne

Uczenie się od produkcji

Zarządzanie zasobami

Narzędzia

Modele dojrzałości MLOps i GenAIOps

Podsumowanie

Współautorzy

Następne kroki

Powiązane zasoby

Opinia

Dodatkowe zasoby