Przewidywanie gotowości szpitalnych przy użyciu tradycyjnych i zautomatyzowanych technik uczenia maszynowego

Azure Machine Learning
Azure Synapse Analytics
Azure Data Factory

Ta architektura zapewnia platformę analizy kondycji predykcyjnej w chmurze, aby przyspieszyć ścieżkę tworzenia, wdrażania i zużycia modelu.

Architektura

Ta struktura korzysta z natywnych usług analizy platformy Azure na potrzeby pozyskiwania, magazynowania, przetwarzania danych, analizy i wdrażania modelu.

Diagram demonstrates the architecture of a multi-tier app.

Pobierz plik programu Visio z tą architekturą.

Workflow

Przepływ pracy tej architektury jest opisany pod względem ról uczestników.

  1. inżynierowie danych: Odpowiedzialny za pozyskiwanie danych z systemów źródłowych i organizowanie potoków danych w celu przeniesienia danych ze źródła do miejsca docelowego. Może być również odpowiedzialny za wykonywanie przekształceń danych na danych pierwotnych.

    • W tym scenariuszu historyczne dane readmisji szpitalnych są przechowywane w lokalnej bazie danych programu SQL Server.
    • Oczekiwane dane wyjściowe to dane readmisje przechowywane na koncie magazynu w chmurze.
  2. badacze dancyh: Odpowiedzialny za wykonywanie różnych zadań na danych w docelowej warstwie magazynu w celu przygotowania ich do przewidywania modelu. Zadania obejmują czyszczenie, inżynierię cech i standaryzację danych.

    • Czyszczenie: wstępnie przetworzyj dane, usuwając wartości null, upuszczając niepotrzebne kolumny itd. W tym scenariuszu upuść kolumny z zbyt wieloma brakującymi wartościami.
    • Inżynieria cech:
      1. Określ dane wejściowe potrzebne do przewidywania żądanych danych wyjściowych.
      2. Określ możliwe predyktory dla readmittance, być może rozmawiając z specjalistami, takimi jak lekarze i pielęgniarki. Na przykład rzeczywiste dowody mogą sugerować, że pacjent z cukrzycą z nadwagą jest predyktorem dla readmisji szpitalnej.
    • Standaryzacja danych:
      1. Scharakteryzowanie lokalizacji i zmienności danych w celu przygotowania ich do zadań uczenia maszynowego. Charakterystyka powinna obejmować rozkład danych, niesymetryczność i kurtozę.
        • Niesymetryczność odpowiada na pytanie: Jaki jest kształt rozkładu?
        • Kurtosis odpowiada na pytanie: Jaka jest miara grubości lub ciężkości rozkładu?
      2. Identyfikowanie i poprawianie anomalii w zestawie danych — model przewidywania powinien być wykonywany na zestawie danych z rozkładem normalnym.
      3. Oczekiwane dane wyjściowe to następujące zestawy danych treningowych:
        • Służy do tworzenia zadowalającego modelu przewidywania, który jest gotowy do wdrożenia.
        • Taki, który można podać obywatelowi badacze dancyh na potrzeby automatycznego przewidywania modelu (AutoML).
  3. Badacze dancyh obywatela: Odpowiedzialny za tworzenie modelu przewidywania opartego na danych szkoleniowych z badacze dancyh. Obywatel badacze dancyh najprawdopodobniej używa funkcji automl, która nie wymaga dużych umiejętności kodowania w celu tworzenia modeli przewidywania.

    Oczekiwane dane wyjściowe to zadowalający model przewidywania, który jest gotowy do wdrożenia.

  4. Analityk analizy biznesowej (BI): Odpowiedzialny za wykonywanie analiz operacyjnych na danych pierwotnych generowanych przez inżynierowie danych. Analityk analizy biznesowej może być zaangażowany w tworzenie danych relacyjnych na podstawie danych bez struktury, pisanie skryptów SQL i tworzenie pulpitów nawigacyjnych.

    Oczekiwane dane wyjściowe to zapytania relacyjne, raporty analizy biznesowej i pulpity nawigacyjne.

  5. Inżynier metodyki MLOps: odpowiedzialny za umieszczenie modeli w środowisku produkcyjnym, które zapewnia badacze dancyh lub Citizen badacze dancyh.

    Oczekiwane dane wyjściowe to modele, które są gotowe do produkcji i odtwarzania.

Chociaż ta lista zawiera kompleksowy widok wszystkich potencjalnych ról, które mogą wchodzić w interakcje z danymi opieki zdrowotnej w dowolnym momencie przepływu pracy, role mogą być skonsolidowane lub rozwinięte w razie potrzeby.

Elementy

  • Azure Data Factory to usługa orkiestracji, która umożliwia przenoszenie danych z systemów lokalnych na platformę Azure do pracy z innymi usługami danych platformy Azure. Potoki są używane do przenoszenia danych, a przepływy mapowania danych są używane do wykonywania różnych zadań przekształcania, takich jak wyodrębnianie, przekształcanie, ładowanie (ETL) i wyodrębnianie, ładowanie, przekształcanie (ELT). W tej architekturze inżynierowie danych używa usługi Data Factory do uruchomienia potoku, który kopiuje historyczne dane odczytu szpitala z lokalnego programu SQL Server do magazynu w chmurze.
  • Azure Databricks to oparta na platformie Spark usługa analizy i uczenia maszynowego, która jest używana na potrzeby obciążeń inżynierii danych i uczenia maszynowego. W tej architekturze inżynierowie danych używa usługi Databricks do wywoływania potoku usługi Data Factory w celu uruchomienia notesu usługi Databricks. Notes jest opracowywany przez badacze dancyh w celu obsługi początkowych zadań związanych z czyszczeniem danych i inżynierią cech. Badacze dancyh może pisać kod w dodatkowych notesach w celu standaryzacji danych oraz tworzenia i wdrażania modeli przewidywania.
  • Azure Data Lake Storage to wysoce skalowalna i bezpieczna usługa magazynu dla obciążeń analitycznych o wysokiej wydajności. W tej architekturze inżynierowie danych używa usługi Data Lake Storage do zdefiniowania początkowej strefy docelowej dla danych lokalnych załadowanych na platformę Azure oraz końcowej strefy docelowej dla danych treningowych. Dane w formacie nieprzetworzonym lub końcowym są gotowe do użycia przez różne systemy podrzędne.
  • Usługa Azure Machine Edukacja to środowisko współpracy używane do trenowania, wdrażania, automatyzowania i śledzenia modeli uczenia maszynowego oraz zarządzania nimi. Zautomatyzowane uczenie maszynowe (AutoML) to funkcja, która automatyzuje czasochłonne i iteracyjne zadania związane z opracowywaniem modeli uczenia maszynowego. Badacze dancyh używa Edukacja Machine do śledzenia przebiegów uczenia maszynowego z usługi Databricks i tworzenia modeli automatycznego uczenia maszynowego w celu służyć jako test porównawczy wydajności dla modeli uczenia maszynowego badacze dancyh. Usługa Citizen badacze dancyh używa tej usługi do szybkiego uruchamiania danych szkoleniowych za pomocą rozwiązania AutoML w celu generowania modeli bez konieczności posiadania szczegółowej wiedzy na temat algorytmów uczenia maszynowego.
  • Azure Synapse Analytics to usługa analityczna, która łączy integrację danych, magazynowanie danych przedsiębiorstwa i analizę danych big data. Użytkownicy mają swobodę wykonywania zapytań dotyczących danych przy użyciu zasobów bezserwerowych lub dedykowanych na dużą skalę. W tej architekturze:
    • Inżynierowie danych używa usługi Synapse Analytics do łatwego tworzenia tabel relacyjnych na podstawie danych w usłudze Data Lake jako podstawy do analizy operacyjnej.
    • Badacze dancyh używa go do szybkiego wykonywania zapytań o dane w usłudze Data Lake i opracowywania modeli przewidywania przy użyciu notesów platformy Spark.
    • Analityk analizy biznesowej używa go do uruchamiania zapytań przy użyciu znanej składni SQL.
  • Microsoft Power BI to zbiór usług oprogramowania, aplikacji i łączników, które współpracują ze sobą, aby przekształcić niepowiązane źródła danych w spójne, atrakcyjne wizualnie i interaktywne szczegółowe informacje. Analityk analizy biznesowej używa usługi Power BI do opracowywania wizualizacji z danych, takich jak mapa lokalizacji domowej każdego pacjenta i najbliższego szpitala.
  • Microsoft Entra ID to oparta na chmurze usługa zarządzania tożsamościami i dostępem. W tej architekturze kontroluje dostęp do usług platformy Azure.
  • Azure Key Vault to usługa w chmurze, która zapewnia bezpieczny magazyn wpisów tajnych, takich jak klucze, hasła i certyfikaty. Usługa Key Vault przechowuje wpisy tajne używane przez usługę Databricks do uzyskiwania dostępu do zapisu w usłudze Data Lake.
  • Microsoft Defender dla Chmury to ujednolicony system zarządzania zabezpieczeniami infrastruktury, który wzmacnia poziom zabezpieczeń centrów danych i zapewnia zaawansowaną ochronę przed zagrożeniami w obciążeniach hybrydowych w chmurze i lokalnie. Służy do monitorowania zagrożeń bezpieczeństwa w środowisku platformy Azure.
  • Usługa Azure Kubernetes Service (AKS) to w pełni zarządzana usługa Kubernetes służąca do wdrażania konteneryzowanych aplikacji i zarządzania nimi. Usługa AKS upraszcza wdrażanie zarządzanego klastra usługi AKS na platformie Azure, odciążając obciążenie operacyjne na platformę Azure.

Alternatywy

  • Przenoszenie danych: możesz użyć usługi Databricks do kopiowania danych z systemu lokalnego do usługi Data Lake. Zazwyczaj usługa Databricks jest odpowiednia dla danych z wymaganiami dotyczącymi przesyłania strumieniowego lub w czasie rzeczywistym, takich jak dane telemetryczne z urządzenia medycznego.

  • Edukacja maszynowe: H2O.ai, DataRobot, Dataiku i inni dostawcy oferują zautomatyzowane możliwości uczenia maszynowego podobne do maszynowego Edukacja AutoML. Takie platformy umożliwiają uzupełnienie działań związanych z inżynierią danych platformy Azure i uczeniem maszynowym.

Szczegóły scenariusza

Ta architektura reprezentuje przykładowy przepływ pracy na potrzeby przewidywania gotowości szpitalnych dla pacjentów z cukrzycą, używając publicznie dostępnych danych ze 130 szpitali amerykańskich w ciągu 10 lat od 1999 do 2008 roku. Najpierw ocenia algorytm klasyfikacji binarnej dla mocy predykcyjnej, a następnie przeprowadza testy porównawcze względem modeli predykcyjnych generowanych przy użyciu zautomatyzowanego uczenia maszynowego. W sytuacjach, gdy zautomatyzowane uczenie maszynowe nie może poprawić pod kątem niezrównoważonych danych, należy zastosować alternatywne techniki. Ostatni model jest wybierany do wdrożenia i użycia.

Ponieważ organizacje opieki zdrowotnej i nauki o życiu dążą do zapewnienia bardziej spersonalizowanego środowiska dla pacjentów i opiekunów, muszą używać danych ze starszych systemów w celu zapewnienia szczegółowych informacji predykcyjnych, które są istotne, dokładne i terminowe. Zbieranie danych wykraczało poza tradycyjne systemy operacyjne i elektroniczne rejestry zdrowia (EHR) i coraz bardziej w postaci nieustrukturyzowanej z aplikacji zdrowia konsumentów, urządzeń do noszenia fitness i inteligentnych urządzeń medycznych. Organizacje muszą szybko scentralizować te dane i wykorzystać możliwości nauki o danych i uczenia maszynowego, aby zachować znaczenie dla swoich klientów.

Aby osiągnąć te cele, organizacje opieki zdrowotnej i nauki o życiu powinny dążyć do:

  • Utwórz źródło danych, z którego analiza predykcyjna może zapewnić wartość w czasie rzeczywistym dostawcom opieki zdrowotnej, administratorom szpitali, producentom leków i innym osobom.
  • Uwzględnij ekspertów z branży (MŚP), którzy nie mają umiejętności nauki o danych i uczenia maszynowego.
  • Udostępniaj MŚP do nauki o danych i uczenia maszynowego (ML) elastyczne narzędzia potrzebne do wydajnego, dokładnego i na dużą skalę tworzenia i wdrażania modeli predykcyjnych.

Potencjalne przypadki użycia

  • Przewidywanie gotowości szpitalnych
  • Przyspieszanie diagnostyki pacjentów za pomocą obrazowania opartego na ml
  • Wykonywanie analizy tekstu na notatkach lekarza
  • Przewidywanie zdarzeń niepożądanych przez analizowanie danych zdalnego monitorowania pacjentów z Internetu rzeczy medycznych (IoMT)

Zagadnienia do rozważenia

Te zagadnienia implementują filary struktury Azure Well-Architected Framework, która jest zestawem wytycznych, które mogą służyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Microsoft Azure Well-Architected Framework.

Dostępność

Zapewnianie danych klinicznych i szczegółowych informacji w czasie rzeczywistym ma kluczowe znaczenie dla wielu organizacji opieki zdrowotnej. Poniżej przedstawiono sposoby zminimalizowania przestojów i zapewnienia bezpieczeństwa danych:

Wydajność

Własne środowisko Integration Runtime usługi Data Factory można skalować w górę w celu zapewnienia wysokiej dostępności i skalowalności.

Zabezpieczenia

Zabezpieczenia zapewniają ochronę przed celowymi atakami i nadużyciami cennych danych i systemów. Aby uzyskać więcej informacji, zobacz Omówienie filaru zabezpieczeń.

Dane opieki zdrowotnej często zawierają poufne informacje o zdrowiu chronione (PHI) i dane osobowe. Następujące zasoby są dostępne do zabezpieczenia tych danych:

  • Usługa Data Lake Storage używa kontroli dostępu opartej na rolach (RBAC) platformy Azure i list kontroli dostępu (ACL) w celu utworzenia modelu kontroli dostępu.
  • Usługa Synapse Analytics udostępnia szereg mechanizmów kontroli dostępu i zabezpieczeń na poziomie bazy danych, kolumny i wiersza. Dane mogą być również chronione na poziomie komórki i za pomocą szyfrowania danych.
  • Usługa Data Factory zapewnia podstawową infrastrukturę zabezpieczeń do przenoszenia danych zarówno w scenariuszach hybrydowych, jak i w chmurze.

Optymalizacja kosztów

Optymalizacja kosztów dotyczy sposobów zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Omówienie filaru optymalizacji kosztów.

Ceny dla tego rozwiązania są oparte na:

  • Używane usługi platformy Azure.
  • Ilość danych.
  • Wymagania dotyczące pojemności i przepływności.
  • Potrzebne przekształcenia ETL/ELT.
  • Zasoby obliczeniowe potrzebne do wykonywania zadań uczenia maszynowego.

Koszty można oszacować przy użyciu kalkulatora cen platformy Azure.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Autorzy zabezpieczeń:

  • Matt Hansen | Starszy architekt rozwiązań w chmurze
  • Sandy Su | Architekt rozwiązań w chmurze

Następne kroki

Usługi platformy Azure

Rozwiązania dla opieki zdrowotnej