Przewidywanie gotowości szpitalnych przy użyciu tradycyjnych i zautomatyzowanych technik uczenia maszynowego

Usługa Machine Learning
Synapse Analytics
Data Factory

Ta architektura zapewnia predykcyjną strukturę analizy kondycji w chmurze, aby przyspieszyć ścieżkę tworzenia, wdrażania i zużycia modelu.

Architektura

Ta struktura korzysta z natywnych usług analizy platformy Azure na potrzeby pozyskiwania danych, magazynowania, przetwarzania danych, analizy i wdrażania modelu.

Diagram przedstawia architekturę aplikacji wielowarstwowej.

Pobierz plik programu Visio z tą architekturą.

Przepływ pracy

Przepływ pracy tej architektury jest opisany pod względem ról uczestników.

  1. inżynierowie danych: Odpowiedzialne za pozyskiwanie danych z systemów źródłowych i organizowanie potoków danych w celu przeniesienia danych ze źródła do miejsca docelowego. Może być również odpowiedzialny za wykonywanie przekształceń danych pierwotnych.

    • W tym scenariuszu dane odczytu historycznego szpitala są przechowywane w lokalnej bazie danych SQL Server.
    • Oczekiwane dane wyjściowe to odczyty danych przechowywanych na koncie magazynu w chmurze.
  2. badacze dancyh: Odpowiedzialne za wykonywanie różnych zadań na danych w docelowej warstwie magazynu, aby przygotować je do przewidywania modelu. Zadania obejmują czyszczenie, inżynierię cech i standaryzację danych.

    • Oczyszczanie: Wstępnie przetworzyj dane, usuwając wartości null, upuszczając niepotrzebne kolumny itd. W tym scenariuszu upuść kolumny z zbyt wieloma brakującymi wartościami.
    • Inżynieria cech:
      1. Określ dane wejściowe, które są potrzebne do przewidywania żądanych danych wyjściowych.
      2. Określ możliwe predyktory dla readmittance, być może rozmawiając z specjalistami, takimi jak lekarze i pielęgniarki. Na przykład rzeczywiste dowody mogą sugerować, że pacjent z cukrzycą ma nadwagę jest prognostą dla readmisji szpitalnej.
    • Standaryzacja danych:
      1. Scharakteryzowanie lokalizacji i zmienności danych w celu przygotowania ich do zadań uczenia maszynowego. Charakterystyka powinna obejmować rozkład danych, niesymetryczność i kurtozę.
        • Niesymetryczność odpowiada na pytanie: Jaki jest kształt rozkładu?
        • Kurtosis odpowiada na pytanie: Jaka jest miara grubości lub ciężkości rozkładu?
      2. Identyfikowanie i poprawianie anomalii w zestawie danych — model przewidywania powinien być wykonywany na zestawie danych z rozkładem normalnym.
      3. Oczekiwane dane wyjściowe to następujące zestawy danych szkoleniowych:
        • Jeden do użycia do tworzenia zadowalającego modelu przewidywania, który jest gotowy do wdrożenia.
        • Taki, który można nadać obywatelowi badacze dancyh na potrzeby automatycznego przewidywania modelu (AutoML).
  3. Badacze dancyh obywatela: Odpowiedzialne za tworzenie modelu przewidywania opartego na danych szkoleniowych z badacze dancyh. Badacze dancyh Citizen najprawdopodobniej korzysta z funkcji AutoML, która nie wymaga wysokich umiejętności kodowania w celu tworzenia modeli przewidywania.

    Oczekiwane dane wyjściowe to zadowalający model przewidywania, który jest gotowy do wdrożenia.

  4. Analityk analizy biznesowej (BI): Odpowiedzialny za wykonywanie analizy operacyjnej na nieprzetworzonych danych generowanych przez inżynierowie danych. Analityk analizy biznesowej może być zaangażowany w tworzenie danych relacyjnych na podstawie danych bez struktury, pisanie skryptów SQL i tworzenie pulpitów nawigacyjnych.

    Oczekiwane dane wyjściowe to zapytania relacyjne, raporty analizy biznesowej i pulpity nawigacyjne.

  5. Inżynier metodyki MLOps: Odpowiedzialny za wprowadzenie modeli do produkcji, które zapewnia badacze dancyh lub Citizen badacze dancyh.

    Oczekiwane dane wyjściowe to modele gotowe do produkcji i odtwarzalne.

Chociaż ta lista zawiera kompleksowy widok wszystkich potencjalnych ról, które mogą wchodzić w interakcje z danymi opieki zdrowotnej w dowolnym momencie przepływu pracy, role mogą być skonsolidowane lub rozwinięte w razie potrzeby.

Składniki

  • Azure Data Factory to usługa orkiestracji, która może przenosić dane z systemów lokalnych na platformę Azure do pracy z innymi usługami danych platformy Azure. Potoki są używane do przenoszenia danych, a przepływy mapowania danych służą do wykonywania różnych zadań przekształcania, takich jak wyodrębnianie, przekształcanie, ładowanie (ETL) i wyodrębnianie, ładowanie, przekształcanie (ELT). W tej architekturze inżynierowie danych używa usługi Data Factory do uruchamiania potoku, który kopiuje dane odczytu historycznego szpitala z lokalnego SQL Server do magazynu w chmurze.
  • Azure Databricks to oparta na platformie Spark usługa analizy i uczenia maszynowego używana do inżynierii danych i obciążeń uczenia maszynowego. W tej architekturze inżynierowie danych używa usługi Databricks do wywołania potoku usługi Data Factory w celu uruchomienia notesu usługi Databricks. Notes jest opracowywany przez badacze dancyh do obsługi początkowych zadań związanych z czyszczeniem danych i funkcjami. Badacze dancyh może pisać kod w dodatkowych notesach, aby ustandaryzować dane oraz tworzyć i wdrażać modele przewidywania.
  • Azure Data Lake Storage to wysoce skalowalna i bezpieczna usługa magazynu na potrzeby obciążeń analitycznych o wysokiej wydajności. W tej architekturze inżynierowie danych używa usługi Data Lake Storage do definiowania początkowej strefy docelowej dla danych lokalnych załadowanych na platformę Azure oraz ostatecznej strefy docelowej dla danych szkoleniowych. Dane w formacie nieprzetworzonym lub końcowym są gotowe do użycia przez różne systemy podrzędne.
  • Usługa Azure Machine Learning to środowisko współpracy używane do trenowania, wdrażania, automatyzowania, zarządzania i śledzenia modeli uczenia maszynowego. Zautomatyzowane uczenie maszynowe (AutoML) to funkcja, która automatyzuje czasochłonne i iteracyjne zadania, które są zaangażowane w opracowywanie modeli uczenia maszynowego. Badacze dancyh używa usługi Machine Learning do śledzenia przebiegów uczenia maszynowego z usługi Databricks i tworzenia modeli autoML, aby służyć jako test porównawczy wydajności dla modeli uczenia maszynowego badacze dancyh. Usługa Citizen badacze dancyh używa tej usługi do szybkiego uruchamiania danych szkoleniowych za pomocą rozwiązania AutoML do generowania modeli bez konieczności szczegółowej wiedzy na temat algorytmów uczenia maszynowego.
  • Azure Synapse Analytics to usługa analizy, która łączy integrację danych, magazynowanie danych przedsiębiorstwa i analizę danych big data. Użytkownicy mają swobodę wykonywania zapytań dotyczących danych przy użyciu zasobów bezserwerowych lub dedykowanych na dużą skalę. W tej architekturze:
    • Inżynierowie danych używa usługi Synapse Analytics do łatwego tworzenia tabel relacyjnych na podstawie danych w usłudze Data Lake jako podstawy do analizy operacyjnej.
    • Badacze dancyh używa go do szybkiego wykonywania zapytań o dane w usłudze Data Lake i opracowywania modeli przewidywania przy użyciu notesów platformy Spark.
    • Analityk analizy biznesowej używa go do uruchamiania zapytań przy użyciu znanej składni SQL.
  • Microsoft Power BI to kolekcja usług, aplikacji i łączników oprogramowania, które współpracują ze sobą, aby przekształcić niepowiązane źródła danych w spójne, wizualne immersyjne i interaktywne szczegółowe informacje. Analityk analizy biznesowej używa usługi Power BI do tworzenia wizualizacji z danych, takich jak mapa lokalizacji domowej każdego pacjenta i najbliższego szpitala.
  • Azure Active Directory (Azure AD) to oparta na chmurze usługa zarządzania tożsamościami i dostępem. W tej architekturze kontroluje dostęp do usług platformy Azure.
  • Azure Key Vault to usługa w chmurze, która zapewnia bezpieczny magazyn wpisów tajnych, takich jak klucze, hasła i certyfikaty. Key Vault przechowuje wpisy tajne używane przez usługę Databricks do uzyskiwania dostępu do zapisu w usłudze Data Lake.
  • Microsoft Defender for Cloud to ujednolicony system zarządzania zabezpieczeniami infrastruktury, który wzmacnia stan zabezpieczeń centrów danych i zapewnia zaawansowaną ochronę przed zagrożeniami w ramach obciążeń hybrydowych w chmurze i lokalnie. Służy do monitorowania zagrożeń bezpieczeństwa w środowisku platformy Azure.
  • Azure Kubernetes Service (AKS) to w pełni zarządzana usługa Kubernetes służąca do wdrażania konteneryzowanych aplikacji i zarządzania nimi. Usługa AKS upraszcza wdrażanie zarządzanego klastra usługi AKS na platformie Azure, odciążając obciążenie operacyjne na platformę Azure.

Alternatywy

  • Przenoszenie danych: Usługi Databricks można użyć do kopiowania danych z systemu lokalnego do usługi Data Lake. Zazwyczaj usługa Databricks jest odpowiednia dla danych, które mają wymagania dotyczące przesyłania strumieniowego lub w czasie rzeczywistym, takie jak dane telemetryczne z urządzenia medycznego.

  • Uczenie maszynowe: H2O.ai, DataRobot, Dataiku i inni dostawcy oferują funkcje zautomatyzowanego uczenia maszynowego podobne do zautomatyzowanego uczenia maszynowego. Za pomocą takich platform można uzupełniać działania związane z inżynierią danych platformy Azure i uczeniem maszynowym.

Szczegóły scenariusza

Ta architektura reprezentuje przykładowy przepływ pracy umożliwiający przewidywanie readmisji szpitalnych dla pacjentów z cukrzycą przy użyciu publicznie dostępnych danych z 130 szpitali amerykańskich w ciągu 10 lat od 1999 do 2008 roku. Najpierw ocenia algorytm klasyfikacji binarnej dla mocy predykcyjnej, a następnie przeprowadza testy porównawcze względem modeli predykcyjnych generowanych przy użyciu zautomatyzowanego uczenia maszynowego. W sytuacjach, w których zautomatyzowane uczenie maszynowe nie może poprawić równowagi danych, należy zastosować alternatywne techniki. Ostatni model jest wybierany do wdrożenia i użycia.

Ponieważ organizacje opieki zdrowotnej i nauki o życiu starają się zapewnić bardziej spersonalizowane środowisko dla pacjentów i opiekunów, są one kwestionowane, aby używać danych ze starszych systemów w celu zapewnienia szczegółowych informacji predykcyjnych, które są istotne, dokładne i terminowe. Zbieranie danych wykraczało poza tradycyjne systemy operacyjne i elektroniczne rejestry zdrowia (EHRs) i coraz bardziej w postaci nieustrukturyzowanej z aplikacji zdrowotnych konsumentów, urządzeń do noszenia fitness i inteligentnych urządzeń medycznych. Organizacje potrzebują możliwości szybkiego scentralizacji tych danych i wykorzystania możliwości nauki o danych i uczenia maszynowego, aby zachować znaczenie dla swoich klientów.

Aby osiągnąć te cele, organizacje opieki zdrowotnej i nauki o życiu powinny dążyć do:

  • Utwórz źródło danych, na podstawie którego analiza predykcyjna może zapewnić wartość w czasie rzeczywistym dostawcom opieki zdrowotnej, administratorom szpitali, producentom leków i innym osobom.
  • Uwzględnij swoich ekspertów w dziedzinie zagadnień branżowych (MŚP), którzy nie mają umiejętności nauki o danych i uczenia maszynowego.
  • Udostępniaj mśpom naukę o danych i uczenie maszynowe (ML) elastyczne narzędzia, które muszą tworzyć i wdrażać modele predykcyjne wydajnie, dokładnie i na dużą skalę.

Potencjalne przypadki użycia

  • Przewidywanie readmisji szpitalnych
  • Przyspieszanie diagnostyki pacjentów za pomocą obrazowania opartego na ml
  • Wykonywanie analizy tekstu na notatkach lekarskich
  • Przewidywanie zdarzeń niepożądanych przez analizowanie danych monitorowania zdalnego pacjenta z Internetu rzeczy medycznych (IoMT)

Zagadnienia do rozważenia

Te zagadnienia implementują filary platformy Azure Well-Architected Framework, która jest zestawem podstawowych zestawów, które mogą służyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Microsoft Azure Well-Architected Framework.

Dostępność

Zapewnianie danych klinicznych i szczegółowych informacji w czasie rzeczywistym ma kluczowe znaczenie dla wielu organizacji opieki zdrowotnej. Oto sposoby zminimalizowania przestojów i zapewnienia bezpieczeństwa danych:

Wydajność

Własne środowisko Integration Runtime usługi Data Factory można skalować w górę w celu zapewnienia wysokiej dostępności i skalowalności.

Zabezpieczenia

Zabezpieczenia zapewniają ochronę przed celowymi atakami i nadużyciami cennych danych i systemów. Aby uzyskać więcej informacji, zobacz Omówienie filaru zabezpieczeń.

Dane opieki zdrowotnej często obejmują poufne chronione informacje o zdrowiu (PHI) i dane osobowe. Następujące zasoby są dostępne do zabezpieczenia tych danych:

Optymalizacja kosztów

Optymalizacja kosztów dotyczy sposobów zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Omówienie filaru optymalizacji kosztów.

Ceny dla tego rozwiązania są oparte na:

  • Używane usługi platformy Azure.
  • Ilość danych.
  • Wymagania dotyczące pojemności i przepływności.
  • Potrzebne przekształcenia ETL/ELT.
  • Zasoby obliczeniowe potrzebne do wykonywania zadań uczenia maszynowego.

Koszty można oszacować przy użyciu kalkulatora cen platformy Azure.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Został pierwotnie napisany przez następujących współautorów.

Autorzy zabezpieczeń:

  • Matt Hansen | Starszy architekt rozwiązań w chmurze
  • Sandy Su | Architekt rozwiązań w chmurze

Następne kroki

Usługi platformy Azure

Rozwiązania dla opieki zdrowotnej