Ta architektura zapewnia predykcyjną strukturę analizy kondycji w chmurze, aby przyspieszyć ścieżkę tworzenia, wdrażania i zużycia modelu.
Architektura
Ta struktura korzysta z natywnych usług analizy platformy Azure na potrzeby pozyskiwania danych, magazynowania, przetwarzania danych, analizy i wdrażania modelu.
Pobierz plik programu Visio z tą architekturą.
Przepływ pracy
Przepływ pracy tej architektury jest opisany pod względem ról uczestników.
inżynierowie danych: Odpowiedzialne za pozyskiwanie danych z systemów źródłowych i organizowanie potoków danych w celu przeniesienia danych ze źródła do miejsca docelowego. Może być również odpowiedzialny za wykonywanie przekształceń danych pierwotnych.
- W tym scenariuszu dane odczytu historycznego szpitala są przechowywane w lokalnej bazie danych SQL Server.
- Oczekiwane dane wyjściowe to odczyty danych przechowywanych na koncie magazynu w chmurze.
badacze dancyh: Odpowiedzialne za wykonywanie różnych zadań na danych w docelowej warstwie magazynu, aby przygotować je do przewidywania modelu. Zadania obejmują czyszczenie, inżynierię cech i standaryzację danych.
- Oczyszczanie: Wstępnie przetworzyj dane, usuwając wartości null, upuszczając niepotrzebne kolumny itd. W tym scenariuszu upuść kolumny z zbyt wieloma brakującymi wartościami.
- Inżynieria cech:
- Określ dane wejściowe, które są potrzebne do przewidywania żądanych danych wyjściowych.
- Określ możliwe predyktory dla readmittance, być może rozmawiając z specjalistami, takimi jak lekarze i pielęgniarki. Na przykład rzeczywiste dowody mogą sugerować, że pacjent z cukrzycą ma nadwagę jest prognostą dla readmisji szpitalnej.
- Standaryzacja danych:
- Scharakteryzowanie lokalizacji i zmienności danych w celu przygotowania ich do zadań uczenia maszynowego. Charakterystyka powinna obejmować rozkład danych, niesymetryczność i kurtozę.
- Niesymetryczność odpowiada na pytanie: Jaki jest kształt rozkładu?
- Kurtosis odpowiada na pytanie: Jaka jest miara grubości lub ciężkości rozkładu?
- Identyfikowanie i poprawianie anomalii w zestawie danych — model przewidywania powinien być wykonywany na zestawie danych z rozkładem normalnym.
- Oczekiwane dane wyjściowe to następujące zestawy danych szkoleniowych:
- Jeden do użycia do tworzenia zadowalającego modelu przewidywania, który jest gotowy do wdrożenia.
- Taki, który można nadać obywatelowi badacze dancyh na potrzeby automatycznego przewidywania modelu (AutoML).
- Scharakteryzowanie lokalizacji i zmienności danych w celu przygotowania ich do zadań uczenia maszynowego. Charakterystyka powinna obejmować rozkład danych, niesymetryczność i kurtozę.
Badacze dancyh obywatela: Odpowiedzialne za tworzenie modelu przewidywania opartego na danych szkoleniowych z badacze dancyh. Badacze dancyh Citizen najprawdopodobniej korzysta z funkcji AutoML, która nie wymaga wysokich umiejętności kodowania w celu tworzenia modeli przewidywania.
Oczekiwane dane wyjściowe to zadowalający model przewidywania, który jest gotowy do wdrożenia.
Analityk analizy biznesowej (BI): Odpowiedzialny za wykonywanie analizy operacyjnej na nieprzetworzonych danych generowanych przez inżynierowie danych. Analityk analizy biznesowej może być zaangażowany w tworzenie danych relacyjnych na podstawie danych bez struktury, pisanie skryptów SQL i tworzenie pulpitów nawigacyjnych.
Oczekiwane dane wyjściowe to zapytania relacyjne, raporty analizy biznesowej i pulpity nawigacyjne.
Inżynier metodyki MLOps: Odpowiedzialny za wprowadzenie modeli do produkcji, które zapewnia badacze dancyh lub Citizen badacze dancyh.
Oczekiwane dane wyjściowe to modele gotowe do produkcji i odtwarzalne.
Chociaż ta lista zawiera kompleksowy widok wszystkich potencjalnych ról, które mogą wchodzić w interakcje z danymi opieki zdrowotnej w dowolnym momencie przepływu pracy, role mogą być skonsolidowane lub rozwinięte w razie potrzeby.
Składniki
- Azure Data Factory to usługa orkiestracji, która może przenosić dane z systemów lokalnych na platformę Azure do pracy z innymi usługami danych platformy Azure. Potoki są używane do przenoszenia danych, a przepływy mapowania danych służą do wykonywania różnych zadań przekształcania, takich jak wyodrębnianie, przekształcanie, ładowanie (ETL) i wyodrębnianie, ładowanie, przekształcanie (ELT). W tej architekturze inżynierowie danych używa usługi Data Factory do uruchamiania potoku, który kopiuje dane odczytu historycznego szpitala z lokalnego SQL Server do magazynu w chmurze.
- Azure Databricks to oparta na platformie Spark usługa analizy i uczenia maszynowego używana do inżynierii danych i obciążeń uczenia maszynowego. W tej architekturze inżynierowie danych używa usługi Databricks do wywołania potoku usługi Data Factory w celu uruchomienia notesu usługi Databricks. Notes jest opracowywany przez badacze dancyh do obsługi początkowych zadań związanych z czyszczeniem danych i funkcjami. Badacze dancyh może pisać kod w dodatkowych notesach, aby ustandaryzować dane oraz tworzyć i wdrażać modele przewidywania.
- Azure Data Lake Storage to wysoce skalowalna i bezpieczna usługa magazynu na potrzeby obciążeń analitycznych o wysokiej wydajności. W tej architekturze inżynierowie danych używa usługi Data Lake Storage do definiowania początkowej strefy docelowej dla danych lokalnych załadowanych na platformę Azure oraz ostatecznej strefy docelowej dla danych szkoleniowych. Dane w formacie nieprzetworzonym lub końcowym są gotowe do użycia przez różne systemy podrzędne.
- Usługa Azure Machine Learning to środowisko współpracy używane do trenowania, wdrażania, automatyzowania, zarządzania i śledzenia modeli uczenia maszynowego. Zautomatyzowane uczenie maszynowe (AutoML) to funkcja, która automatyzuje czasochłonne i iteracyjne zadania, które są zaangażowane w opracowywanie modeli uczenia maszynowego. Badacze dancyh używa usługi Machine Learning do śledzenia przebiegów uczenia maszynowego z usługi Databricks i tworzenia modeli autoML, aby służyć jako test porównawczy wydajności dla modeli uczenia maszynowego badacze dancyh. Usługa Citizen badacze dancyh używa tej usługi do szybkiego uruchamiania danych szkoleniowych za pomocą rozwiązania AutoML do generowania modeli bez konieczności szczegółowej wiedzy na temat algorytmów uczenia maszynowego.
- Azure Synapse Analytics to usługa analizy, która łączy integrację danych, magazynowanie danych przedsiębiorstwa i analizę danych big data. Użytkownicy mają swobodę wykonywania zapytań dotyczących danych przy użyciu zasobów bezserwerowych lub dedykowanych na dużą skalę. W tej architekturze:
- Inżynierowie danych używa usługi Synapse Analytics do łatwego tworzenia tabel relacyjnych na podstawie danych w usłudze Data Lake jako podstawy do analizy operacyjnej.
- Badacze dancyh używa go do szybkiego wykonywania zapytań o dane w usłudze Data Lake i opracowywania modeli przewidywania przy użyciu notesów platformy Spark.
- Analityk analizy biznesowej używa go do uruchamiania zapytań przy użyciu znanej składni SQL.
- Microsoft Power BI to kolekcja usług, aplikacji i łączników oprogramowania, które współpracują ze sobą, aby przekształcić niepowiązane źródła danych w spójne, wizualne immersyjne i interaktywne szczegółowe informacje. Analityk analizy biznesowej używa usługi Power BI do tworzenia wizualizacji z danych, takich jak mapa lokalizacji domowej każdego pacjenta i najbliższego szpitala.
- Azure Active Directory (Azure AD) to oparta na chmurze usługa zarządzania tożsamościami i dostępem. W tej architekturze kontroluje dostęp do usług platformy Azure.
- Azure Key Vault to usługa w chmurze, która zapewnia bezpieczny magazyn wpisów tajnych, takich jak klucze, hasła i certyfikaty. Key Vault przechowuje wpisy tajne używane przez usługę Databricks do uzyskiwania dostępu do zapisu w usłudze Data Lake.
- Microsoft Defender for Cloud to ujednolicony system zarządzania zabezpieczeniami infrastruktury, który wzmacnia stan zabezpieczeń centrów danych i zapewnia zaawansowaną ochronę przed zagrożeniami w ramach obciążeń hybrydowych w chmurze i lokalnie. Służy do monitorowania zagrożeń bezpieczeństwa w środowisku platformy Azure.
- Azure Kubernetes Service (AKS) to w pełni zarządzana usługa Kubernetes służąca do wdrażania konteneryzowanych aplikacji i zarządzania nimi. Usługa AKS upraszcza wdrażanie zarządzanego klastra usługi AKS na platformie Azure, odciążając obciążenie operacyjne na platformę Azure.
Alternatywy
Przenoszenie danych: Usługi Databricks można użyć do kopiowania danych z systemu lokalnego do usługi Data Lake. Zazwyczaj usługa Databricks jest odpowiednia dla danych, które mają wymagania dotyczące przesyłania strumieniowego lub w czasie rzeczywistym, takie jak dane telemetryczne z urządzenia medycznego.
Uczenie maszynowe: H2O.ai, DataRobot, Dataiku i inni dostawcy oferują funkcje zautomatyzowanego uczenia maszynowego podobne do zautomatyzowanego uczenia maszynowego. Za pomocą takich platform można uzupełniać działania związane z inżynierią danych platformy Azure i uczeniem maszynowym.
Szczegóły scenariusza
Ta architektura reprezentuje przykładowy przepływ pracy umożliwiający przewidywanie readmisji szpitalnych dla pacjentów z cukrzycą przy użyciu publicznie dostępnych danych z 130 szpitali amerykańskich w ciągu 10 lat od 1999 do 2008 roku. Najpierw ocenia algorytm klasyfikacji binarnej dla mocy predykcyjnej, a następnie przeprowadza testy porównawcze względem modeli predykcyjnych generowanych przy użyciu zautomatyzowanego uczenia maszynowego. W sytuacjach, w których zautomatyzowane uczenie maszynowe nie może poprawić równowagi danych, należy zastosować alternatywne techniki. Ostatni model jest wybierany do wdrożenia i użycia.
Ponieważ organizacje opieki zdrowotnej i nauki o życiu starają się zapewnić bardziej spersonalizowane środowisko dla pacjentów i opiekunów, są one kwestionowane, aby używać danych ze starszych systemów w celu zapewnienia szczegółowych informacji predykcyjnych, które są istotne, dokładne i terminowe. Zbieranie danych wykraczało poza tradycyjne systemy operacyjne i elektroniczne rejestry zdrowia (EHRs) i coraz bardziej w postaci nieustrukturyzowanej z aplikacji zdrowotnych konsumentów, urządzeń do noszenia fitness i inteligentnych urządzeń medycznych. Organizacje potrzebują możliwości szybkiego scentralizacji tych danych i wykorzystania możliwości nauki o danych i uczenia maszynowego, aby zachować znaczenie dla swoich klientów.
Aby osiągnąć te cele, organizacje opieki zdrowotnej i nauki o życiu powinny dążyć do:
- Utwórz źródło danych, na podstawie którego analiza predykcyjna może zapewnić wartość w czasie rzeczywistym dostawcom opieki zdrowotnej, administratorom szpitali, producentom leków i innym osobom.
- Uwzględnij swoich ekspertów w dziedzinie zagadnień branżowych (MŚP), którzy nie mają umiejętności nauki o danych i uczenia maszynowego.
- Udostępniaj mśpom naukę o danych i uczenie maszynowe (ML) elastyczne narzędzia, które muszą tworzyć i wdrażać modele predykcyjne wydajnie, dokładnie i na dużą skalę.
Potencjalne przypadki użycia
- Przewidywanie readmisji szpitalnych
- Przyspieszanie diagnostyki pacjentów za pomocą obrazowania opartego na ml
- Wykonywanie analizy tekstu na notatkach lekarskich
- Przewidywanie zdarzeń niepożądanych przez analizowanie danych monitorowania zdalnego pacjenta z Internetu rzeczy medycznych (IoMT)
Zagadnienia do rozważenia
Te zagadnienia implementują filary platformy Azure Well-Architected Framework, która jest zestawem podstawowych zestawów, które mogą służyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Microsoft Azure Well-Architected Framework.
Dostępność
Zapewnianie danych klinicznych i szczegółowych informacji w czasie rzeczywistym ma kluczowe znaczenie dla wielu organizacji opieki zdrowotnej. Oto sposoby zminimalizowania przestojów i zapewnienia bezpieczeństwa danych:
- Data Lake Storage jest zawsze replikowany trzy razy w regionie podstawowym, z opcją wyboru magazynu lokalnie nadmiarowego (LRS) lub magazynu strefowo nadmiarowego (ZRS).
- Usługa Synapse Analytics zapewnia punkty przywracania bazy danych i odzyskiwanie po awarii.
- Dane usługi Data Factory są przechowywane i replikowane w sparowanym regionie świadczenia usługi Azure w celu zapewnienia ciągłości działania i odzyskiwania po awarii.
- Usługa Databricks udostępnia wskazówki dotyczące odzyskiwania po awarii dla swojej platformy analizy danych.
- Wdrożenie usługi Machine Learning może być wieloregionalne.
Wydajność
Własne środowisko Integration Runtime usługi Data Factory można skalować w górę w celu zapewnienia wysokiej dostępności i skalowalności.
Zabezpieczenia
Zabezpieczenia zapewniają ochronę przed celowymi atakami i nadużyciami cennych danych i systemów. Aby uzyskać więcej informacji, zobacz Omówienie filaru zabezpieczeń.
Dane opieki zdrowotnej często obejmują poufne chronione informacje o zdrowiu (PHI) i dane osobowe. Następujące zasoby są dostępne do zabezpieczenia tych danych:
- Data Lake Storage używa kontroli dostępu opartej na rolach (RBAC) platformy Azure i list kontroli dostępu (ACL) w celu utworzenia modelu kontroli dostępu.
- Usługa Synapse Analytics udostępnia szereg mechanizmów kontroli dostępu i zabezpieczeń na poziomach bazy danych, kolumn i wierszy. Dane mogą być również chronione na poziomie komórki i za pomocą szyfrowania danych.
- Usługa Data Factory zapewnia podstawową infrastrukturę zabezpieczeń do przenoszenia danych zarówno w scenariuszach hybrydowych, jak i w chmurze.
Optymalizacja kosztów
Optymalizacja kosztów dotyczy sposobów zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Omówienie filaru optymalizacji kosztów.
Ceny dla tego rozwiązania są oparte na:
- Używane usługi platformy Azure.
- Ilość danych.
- Wymagania dotyczące pojemności i przepływności.
- Potrzebne przekształcenia ETL/ELT.
- Zasoby obliczeniowe potrzebne do wykonywania zadań uczenia maszynowego.
Koszty można oszacować przy użyciu kalkulatora cen platformy Azure.
Współautorzy
Ten artykuł jest obsługiwany przez firmę Microsoft. Został pierwotnie napisany przez następujących współautorów.
Autorzy zabezpieczeń:
- Matt Hansen | Starszy architekt rozwiązań w chmurze
- Sandy Su | Architekt rozwiązań w chmurze
Następne kroki
Usługi platformy Azure
- Co to jest usługa Azure Data Factory?
- Co to jest usługa Azure Databricks?
- Śledzenie modeli uczenia maszynowego za pomocą platformy MLflow i usługi Azure Machine Learning
- Wprowadzenie do usługi Azure Data Lake Storage Gen2
- Co to jest usługa Azure Machine Learning?
- Co to jest zautomatyzowane uczenie maszynowe (AutoML)?
- Co to jest usługa Azure Synapse Analytics?
- Uwolnij możliwości analizy predykcyjnej w Azure Synapse dzięki uczeniu maszynowem i sztucznej inteligencji
- Architektura zaawansowanej analizy
- Co to jest usługa Power BI?
- Co to jest usługa Azure Active Directory?
- Informacje o usłudze Azure Key Vault
- Co to jest Microsoft Defender dla chmury?
Rozwiązania dla opieki zdrowotnej
- Microsoft Cloud for Healthcare
- Platforma Azure dla opieki zdrowotnej
- Interfejs API platformy Azure dla standardu FHIR
- Łącznik IoMT FHIR dla platformy Azure
- Zdalne monitorowanie pacjentów za pomocą Internetu rzeczy medycznych (IoMT)
Powiązane zasoby
- Ocenianie wsadowe modeli języka Python na platformie Azure
- Citizen AI with the Power Platform
- Wdrażanie sztucznej inteligencji i uczenia maszynowego w środowisku lokalnym i na brzegu sieci
- Metodologia MLOps na potrzeby modeli języka Python z zastosowaniem usługi Azure Machine Learning
- Nauka o danych i uczenie maszynowe za pomocą usługi Azure Databricks
- Przewidywanie długości pobytu i przepływu pacjentów
- Zarządzanie stanem zdrowia populacji dla służby zdrowia