Прогнозирование приемов больницы с помощью традиционных и автоматизированных методов машинного обучения

Машинное обучение Azure
Azure Synapse Analytics
Фабрика данных Azure

Эта архитектура предоставляет платформу прогнозной аналитики работоспособности в облаке, чтобы ускорить процесс разработки, развертывания и использования моделей.

Архитектура

Эта платформа использует собственные службы аналитики Azure для приема, хранения, обработки данных, анализа и развертывания моделей.

Схема демонстрирует архитектуру многоуровневого приложения.

Скачайте файл Visio для этой архитектуры.

Рабочий процесс

Рабочий процесс этой архитектуры описывается с точки зрения ролей участников.

  1. Инженер данных. Отвечает за прием данных из исходных систем и организацию конвейеров данных для перемещения данных из источника в целевое расположение. Может также отвечать за выполнение преобразований необработанных данных.

    • В этом сценарии исторические данные о повторных госпитализациях хранятся в локальной базе данных SQL Server.
    • Ожидаемый результат — данные о повторных госпитализациях, которые хранятся в облачной учетной записи хранения.
  2. Специалист по обработке и анализу данных. Отвечает за выполнение различных задач с данными на целевом уровне хранения, чтобы подготовить их к прогнозированию модели. Задачи включают очистку, конструирование признаков и стандартизацию данных.

    • Очистка. Предварительная обработка данных, удаление нулевых значений, удаление ненужных столбцов и т. д. В этом сценарии следует удалять столбцы со слишком большим количеством пропущенных значений.
    • Конструирование признаков.
      1. Определите входные данные, необходимые для прогнозирования желаемых выходных данных.
      2. Определите возможные прогностические факторы повторных госпитализаций, возможно, поговорив со специалистами, такими как врачи и медсестры. Например, реальные данные могут свидетельствовать о том, что избыточный вес пациента с диабетом является таким фактором.
    • Стандартизация данных.
      1. Охарактеризуйте расположение и изменчивость данных, чтобы подготовить их к задачам машинного обучения. Характеристики должны включать распределение данных, асимметрию и эксцесс.
        • Асимметрия дает ответ на вопрос о форме распределения.
        • Эксцесс отвечает на вопрос о мере толщины или тяжести распределения.
      2. Определение и исправление аномалий в наборе данных — модель прогнозирования должна выполняться на наборе данных с нормальным распределением.
      3. Ожидаемые выходные данные — это эти обучающие наборы данных:
        • Один предназначен для создания удовлетворительной модели прогнозирования, готовой к развертыванию.
        • Один предназначен для передачи Гражданскому специалисту по обработке и анализу данных для автоматического прогнозирования модели (AutoML).
  3. Гражданский специалист по обработке и анализу данных. Отвечает за построение модели прогнозирования, основанной на обучающих данных от Специалиста по обработке и анализу данных. Гражданский специалист по обработке и анализу данных, скорее всего, использует возможности AutoML, которые не требуют серьезных навыков программирования для создания моделей прогнозирования.

    Ожидаемые выходные данные — удовлетворительная модель прогнозирования, готовая к развертыванию.

  4. Аналитик бизнес-аналитики (BI). Отвечает за выполнение операционной аналитики необработанных данных, которые производит Инженер данных. Аналитик бизнес-аналитики может участвовать в создании реляционных данных из неструктурированных данных, написании скриптов SQL и создании панелей мониторинга.

    Ожидаемые выходные данные — это реляционные запросы, отчеты бизнес-аналитики и панели мониторинга.

  5. Инженер MLOps: ответственный за размещение моделей в рабочую среду, которую предоставляет Специалист по обработке и анализу данных или гражданин Специалист по обработке и анализу данных.

    Ожидаемые выходные данные — это воспроизводимые модели, готовые к производству.

Хотя в списке представлены все возможные роли, которые могут взаимодействовать с медицинскими данными в любой момент рабочего процесса, при необходимости эти роли могут быть объединены или расширены.

Компоненты

  • Фабрика данных Azure — это служба оркестрации, которая может перемещать данные из локальных систем в Azure для работы с другими службами данных Azure. Конвейеры используются для перемещения данных, а потоки данных для сопоставления —для выполнения различных задач преобразования, таких как извлечение, преобразование, загрузка (ETL), а также извлечение, загрузка, преобразование (ELT). При использовании этой архитектуры Инженер данных использует Фабрику данных для запуска конвейера, который копирует исторические данные повторных госпитализаций из локального экземпляра SQL Server в облачное хранилище.
  • Azure Databricks — это служба аналитики и машинного обучения на основе Spark, которая используется для рабочих нагрузок машинного обучения и инжиниринга данных. При использовании этой архитектуры Инженер данных использует Databricks для вызова конвейера Фабрики данных для запуска записной книжки Databricks. Записная книжка разрабатывается Специалистом по обработке и анализу данных для обработки первоначальных задач по очистке данных и конструированию признаков. Специалист по обработке и анализу данных может писать код в дополнительных записных книжках для стандартизации данных, а также для создания и развертывания моделей прогнозирования.
  • Azure Data Lake Storage — это масштабируемая и безопасная служба хранения для высокопроизводительных аналитических рабочих нагрузок. При использовании этой архитектуры Инженер данных использует Data Lakes Storage, чтобы определить начальную целевую зону для локальных данных, загружаемых в Azure, и конечную целевую зону для обучающих данных. Данные в необработанном или окончательном формате готовы к использованию различными нижестоящими системами.
  • Машинное обучение Azure — это среда для совместной работы, которая используется для обучения, развертывания, автоматизации, администрирования и отслеживания моделей машинного обучения. Автоматизированное машинное обучение (AutoML) — это возможность автоматизировать трудоемкие и повторяющиеся задачи, связанные с разработкой модели ML. Специалист по обработке и анализу данных использует машинное обучение для отслеживания запусков ML из Databricks и для создания моделей AutoML, которые служат эталоном производительности для моделей ML Специалиста по обработке и анализу данных. Гражданский специалист по обработке и анализу данных использует эту службу для быстрого запуска обучающих данных через AutoML для создания моделей без глубоких знаний об алгоритмах машинного обучения.
  • Azure Synapse Analytics — это служба аналитики, которая объединяет интеграцию данных, корпоративное хранилище данных и аналитику больших данных. Пользователи могут свободно запрашивать данные, используя бессерверные или выделенные ресурсы в большом масштабе. В этой архитектуре:
    • Инженер данных использует Azure Synapse Analytics для упрощения создания реляционных таблиц из данных в озере данных, чтобы быть основой для оперативной аналитики.
    • Специалист по обработке и анализу данных использует это решение для быстрого запрашивания данных в озере данных и разработки моделей прогнозирования с помощью записных книжек Spark.
    • Аналитик бизнес-аналитики использует это решение для выполнения запросов с помощью знакомого синтаксиса SQL.
  • Microsoft Power BI — это набор программных служб, приложений и соединителей, которые работают вместе, чтобы превратить несвязанные источники данных в согласованные, визуально привлекательные и интерактивные сведения. Аналитик бизнес-аналитики использует Power BI для создания визуализаций на основе данных, таких как карта с расположением каждого пациента и ближайшей больницы.
  • Идентификатор Microsoft Entra — это облачная служба управления удостоверениями и доступом. При использовании этой архитектуры она управляет доступом к службам Azure.
  • Azure Key Vault — это облачная служба, предоставляющая безопасное хранилище секретов, таких как ключи, пароли и сертификаты. Key Vault содержит секреты, используемые Databricks для получения доступа на запись в озере данных.
  • Microsoft Defender для облака — это единая система управления безопасностью инфраструктуры, которая повышает уровень безопасности центров обработки данных и обеспечивает расширенную защиту от угроз в гибридных рабочих нагрузках в облаке и локальной среде. Вы можете использовать это решение для мониторинга угроз безопасности в среде Azure.
  • Служба Azure Kubernetes (AKS) — это полностью управляемая служба Kubernetes для развертывания и администрирования контейнерных приложений. AKS упрощает развертывание управляемого кластера AKS в Azure, перекладывая операционные издержки на Azure.

Альтернативные варианты

  • Перемещение данных. Вы можете использовать Databricks для копирования данных из локальной системы в озеро данных. Как правило, Databricks подходит для данных, которые требуют потоковой передачи или передачи в реальном времени, например телеметрии с медицинского устройства.

  • Машинное обучение. H2O.ai, DataRobot, Dataiku и другие поставщики предлагают возможности автоматизированного машинного обучения, аналогичные Машинному обучению AutoML. Вы можете использовать такие платформы, чтобы дополнить действия Azure по инжинирингу данных и машинному обучению.

Подробности сценария

Эта архитектура представляет собой пример полного рабочего процесса для прогнозирования повторных госпитализаций пациентов с диабетом с использованием общедоступных данных из 130 больниц США за 10 лет с 1999 по 2008 гг. Сначала оценивается прогнозная способность алгоритма бинарной классификации, а затем выполняется сравнение с прогнозными моделями, созданными с помощью автоматизированного машинного обучения. В ситуациях, когда автоматическое машинное обучение не может исправить несбалансированные данные, следует применять альтернативные методы. Окончательная модель выбирается для развертывания и использования.

Так как организации, работающие в сфере здравоохранения и медико-биологических наук, стремятся обеспечить более персонализированный опыт для пациентов и лиц, осуществляющих уход, перед ними стоит задача использовать данные из устаревших систем для предоставления релевантных, точных и своевременных прогнозных данных. Сбор данных давно не ограничивается традиционными операционными системами и электронными медицинскими картами (EHR) и все чаще принимает неструктурированные формы в виде получения информации от потребительских приложений для здоровья, носимых фитнес-устройств и интеллектуальных медицинских устройств. Организациям нужна возможность быстро централизовать эти данные и использовать возможности обработки и анализа данных и машинного обучения, чтобы оставаться актуальными для своих клиентов.

Для достижения этих целей организации, работающие в сфере здравоохранения и медико-биологических наук, должны:

  • Создать источник данных, из которого прогнозная аналитика может в реальном времени предоставлять ценные сведения поставщикам медицинских услуг, администраторам больниц, производителям лекарств и другим лицам.
  • Предоставить своих отраслевых экспертов (SME), которые не имеют опыта в сферах обработки и анализа данных и машинного обучения.
  • Предоставить SME, занимающимся обработкой и анализом данных и машинным обучением (ML), гибкие инструменты, необходимые им для эффективного, точного и масштабного создания и развертывания прогнозных моделей.

Потенциальные варианты использования

  • Прогнозирование повторных госпитализаций.
  • Ускорение диагностики пациентов с помощью визуализации на базе ML.
  • Выполнение анализа текста в заметках врача.
  • Прогнозирование возникновения нежелательных явлений путем анализа данных удаленного мониторинга пациентов из Интернета медицинских вещей (IoMT).

Рекомендации

Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая является набором руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.

Availability

Предоставление клинических данных и сведений в реальном времени имеет решающее значение для многих организаций, работающих в сфере здравоохранения. Ниже перечислены способы минимизировать время простоя и защитить данные:

Производительность

Для локальной среды выполнения интеграции Фабрики данных можно выполнить вертикальное увеличение масштаба для обеспечения высокой доступности и масштабируемости.

Безопасность

Безопасность обеспечивает гарантии от преднамеренного нападения и злоупотребления ценными данными и системами. Дополнительные сведения см. в разделе "Общие сведения о компоненте безопасности".

Медицинские данные часто включают конфиденциальную защищенную медицинскую информацию (PHI) и личную информацию. Для защиты этих данных доступны следующие ресурсы:

Оптимизация затрат

Оптимизация затрат заключается в поиске способов уменьшения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в разделе Обзор критерия "Оптимизация затрат".

Стоимость решения зависит от следующих факторов:

  • Используемые службы Azure.
  • Объем данных.
  • Требования к емкости и пропускной способности.
  • Необходимые преобразования ETL/ELT.
  • Вычислительные ресурсы, необходимые для выполнения задач машинного обучения.

Оценку затрат можно провести с помощью Калькулятора цен Azure.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Основные авторы:

Следующие шаги

Службы Azure;

Решения для здравоохранения