Udostępnij za pośrednictwem


Operacjonalizacja siatki danych na potrzeby inżynierii cech opartej na sztucznej inteligencji/uczeniu maszynowym

Siatka danych ułatwia organizacjom przechodzenie ze scentralizowanego magazynu danych typu data lake lub data warehouse do opartej na domenie decentralizacji danych analitycznych podkreślonych przez cztery zasady: własność domeny, dane jako produkt, samoobsługowa platforma danych i federacyjny nadzór obliczeniowy. Siatka danych zapewnia korzyści wynikające z posiadania rozproszonych danych oraz lepszą jakość danych i ład, które przyspieszają działalność i czas na wartość dla organizacji.

Implementacja siatki danych

Typowa implementacja siatki danych obejmuje zespoły domen z inżynierami danych, którzy tworzą potoki danych. Zespół utrzymuje operacyjne i analityczne magazyny danych, takie jak magazyny danych, magazyn danych lub magazyn data lakehouse. Zwalniają potoki jako produkty danych dla innych zespołów domeny lub zespołów nauki o danych do użytku. Inne zespoły korzystają z produktów danych przy użyciu centralnej platformy zarządzania danymi, jak pokazano na poniższym diagramie.

Diagram architektury przedstawiający implementację siatki danych.

Siatka danych jest jasne, w jaki sposób produkty danych obsługują przekształcone i zagregowane zestawy danych na potrzeby analizy biznesowej. Jednak nie jest to jawne podejście, które organizacje powinny podjąć w celu tworzenia modeli sztucznej inteligencji/uczenia maszynowego. Nie ma też wskazówek dotyczących struktury zespołów nauki o danych, ładu modelu sztucznej inteligencji/uczenia maszynowego i udostępniania modeli sztucznej inteligencji/uczenia maszynowego między zespołami domeny.

W poniższej sekcji opisano kilka strategii, których organizacje mogą używać do opracowywania funkcji sztucznej inteligencji/uczenia maszynowego w ramach siatki danych. Zostanie wyświetlona propozycja strategii dotyczącej inżynierii cech opartej na domenie lub siatki cech.

Strategie sztucznej inteligencji/uczenia maszynowego dla siatki danych

Jedną z typowych strategii jest przyjęcie zespołów nauki o danych przez organizację jako konsumentów danych. Zespoły te uzyskują dostęp do różnych produktów danych domeny w siatkach danych zgodnie z przypadkiem użycia. Wykonują eksplorację danych i inżynierię cech, aby opracowywać i tworzyć modele sztucznej inteligencji/uczenia maszynowego. W niektórych przypadkach zespoły domen opracowują również własne modele sztucznej inteligencji/uczenia maszynowego przy użyciu danych i produktu danych innych zespołów w celu rozszerzenia i uzyskania nowych funkcji.

Inżynieria cech jest podstawą tworzenia modeli i jest zwykle złożona i wymaga wiedzy specjalistycznej. Powyższa strategia może być czasochłonna, ponieważ zespoły nauki o danych muszą analizować różne produkty danych. Mogą nie mieć pełnej wiedzy na temat domeny w celu tworzenia wysokiej jakości funkcji. Brak wiedzy o domenie może prowadzić do zduplikowania prac inżynieryjnych funkcji między zespołami domeny. Problemy, takie jak powtarzalność modelu sztucznej inteligencji/uczenia maszynowego z powodu niespójnych zestawów funkcji w różnych zespołach. Zespoły ds. nauki o danych lub domenach muszą stale odświeżać funkcje w miarę wydawania nowych wersji produktów danych.

Inną strategią jest udostępnienie przez zespoły domen modeli sztucznej inteligencji/uczenia maszynowego w formacie, na przykład Open Neural Network Exchange (ONNX), ale wyniki te są czarnymi polami i połączeniem sztucznej inteligencji/modeli lub funkcji w różnych domenach byłoby trudne.

Czy istnieje sposób decentralizacji modelu sztucznej inteligencji/uczenia maszynowego w zespołach ds. domen i nauki o danych, aby sprostać wyzwaniom? Proponowana strategia inżynierii cech lub siatki cech opartej na domenie jest opcją.

Inżynieria cech lub siatka cech oparta na domenie

Oparta na domenie strategia inżynierii cech lub siatki cech oferuje zdecentralizowane podejście do tworzenia modeli sztucznej inteligencji/uczenia maszynowego w ustawieniu siatki danych. Na poniższym diagramie przedstawiono strategię i sposób, w jaki odnosi się do czterech głównych zasad siatki danych.

Diagram architektury przedstawiający strategię inżynierii cech i siatki cech opartej na domenie.

Inżynieria cech własności domeny przez zespoły domen

W ramach tej strategii organizacja łączy analityków danych z inżynierami danych w zespole domeny, aby uruchomić eksplorację danych na temat czystych i przekształconych danych, na przykład w usłudze Data Lake. Inżynieria generuje funkcje przechowywane w magazynie funkcji. Magazyn funkcji to repozytorium danych, które służy do uczenia i wnioskowania oraz ułatwia śledzenie wersji funkcji, metadanych i statystyk. Ta funkcja umożliwia analitykom danych w zespole domeny ścisłą współpracę z ekspertami z dziedziny i odświeżanie funkcji w miarę zmian danych w domenie.

Dane jako produkt: zestawy funkcji

Funkcje generowane przez zespół domeny, nazywanymi funkcjami domeny lub funkcjami lokalnymi, publikują je w wykazie danych na platformie ładu danych jako zestawy funkcji. Te zestawy funkcji mogą być używane przez zespoły nauki o danych lub inne zespoły domen do tworzenia modeli sztucznej inteligencji/uczenia maszynowego. Podczas opracowywania modeli sztucznej inteligencji/uczenia maszynowego zespoły ds. nauki o danych lub domenach mogą łączyć funkcje domeny w celu tworzenia nowych funkcji, nazywanych funkcjami udostępnionymi lub globalnymi. Te funkcje udostępnione są publikowane z powrotem w wykazie zestawów funkcji do użycia.

Samoobsługowa platforma danych i ład obliczeniowy federacyjny: standaryzacja funkcji i jakość

Ta strategia może prowadzić do przyjęcia innego stosu technologii dla potoków inżynierii cech i niespójnych definicji cech między zespołami domeny. Zasady samoobsługowej platformy danych zapewniają, że zespoły domen używają wspólnej infrastruktury i narzędzi do tworzenia potoków inżynierii cech i wymuszania kontroli dostępu. Zasada zapewniania ładu obliczeniowego federacyjnego zapewnia współdziałanie zestawów funkcji za pośrednictwem globalnej standaryzacji i kontroli jakości funkcji.

Korzystanie z inżynierii cech opartych na domenie lub strategii siatki cech oferuje zdecentralizowane podejście do tworzenia modeli sztucznej inteligencji/uczenia maszynowego dla organizacji w celu skrócenia czasu opracowywania modeli sztucznej inteligencji/uczenia maszynowego. Ta strategia pomaga zachować spójność funkcji między zespołami domeny. Pozwala uniknąć duplikowania wysiłków i zapewnia wysokiej jakości funkcje w celu uzyskania bardziej dokładnych modeli sztucznej inteligencji/uczenia maszynowego, co zwiększa wartość firmy.

Implementacja siatki danych na platformie Azure

W tym artykule opisano pojęcia dotyczące operacjonalizacji sztucznej inteligencji/uczenia maszynowego w siatce danych i nie obejmują narzędzi ani architektur do tworzenia tych strategii. Platforma Azure oferuje oferty sklepów funkcji, takie jak magazyn funkcji usługi Azure Databricks i usługa Feathr z serwisu LinkedIn. Możesz tworzyć łączniki niestandardowe usługi Microsoft Purview , aby zarządzać magazynami funkcji i zarządzać nimi.

Następne kroki