Эта архитектура предоставляет платформу прогнозной аналитики работоспособности в облаке, чтобы ускорить процесс разработки, развертывания и использования моделей.
Архитектура
Эта платформа использует собственные службы аналитики Azure для приема, хранения, обработки данных, анализа и развертывания моделей.
Скачайте файл Visio для этой архитектуры.
Рабочий процесс
Рабочий процесс этой архитектуры описывается с точки зрения ролей участников.
Инженер данных. Отвечает за прием данных из исходных систем и организацию конвейеров данных для перемещения данных из источника в целевое расположение. Может также отвечать за выполнение преобразований необработанных данных.
- В этом сценарии исторические данные о повторных госпитализациях хранятся в локальной базе данных SQL Server.
- Ожидаемый результат — данные о повторных госпитализациях, которые хранятся в облачной учетной записи хранения.
Специалист по обработке и анализу данных. Отвечает за выполнение различных задач с данными на целевом уровне хранения, чтобы подготовить их к прогнозированию модели. Задачи включают очистку, конструирование признаков и стандартизацию данных.
- Очистка. Предварительная обработка данных, удаление нулевых значений, удаление ненужных столбцов и т. д. В этом сценарии следует удалять столбцы со слишком большим количеством пропущенных значений.
- Конструирование признаков.
- Определите входные данные, необходимые для прогнозирования желаемых выходных данных.
- Определите возможные прогностические факторы повторных госпитализаций, возможно, поговорив со специалистами, такими как врачи и медсестры. Например, реальные данные могут свидетельствовать о том, что избыточный вес пациента с диабетом является таким фактором.
- Стандартизация данных.
- Охарактеризуйте расположение и изменчивость данных, чтобы подготовить их к задачам машинного обучения. Характеристики должны включать распределение данных, асимметрию и эксцесс.
- Асимметрия дает ответ на вопрос о форме распределения.
- Эксцесс отвечает на вопрос о мере толщины или тяжести распределения.
- Определение и исправление аномалий в наборе данных — модель прогнозирования должна выполняться на наборе данных с нормальным распределением.
- Ожидаемые выходные данные — это эти обучающие наборы данных:
- Один предназначен для создания удовлетворительной модели прогнозирования, готовой к развертыванию.
- Один предназначен для передачи Гражданскому специалисту по обработке и анализу данных для автоматического прогнозирования модели (AutoML).
- Охарактеризуйте расположение и изменчивость данных, чтобы подготовить их к задачам машинного обучения. Характеристики должны включать распределение данных, асимметрию и эксцесс.
Гражданский специалист по обработке и анализу данных. Отвечает за построение модели прогнозирования, основанной на обучающих данных от Специалиста по обработке и анализу данных. Гражданский специалист по обработке и анализу данных, скорее всего, использует возможности AutoML, которые не требуют серьезных навыков программирования для создания моделей прогнозирования.
Ожидаемые выходные данные — удовлетворительная модель прогнозирования, готовая к развертыванию.
Аналитик бизнес-аналитики (BI). Отвечает за выполнение операционной аналитики необработанных данных, которые производит Инженер данных. Аналитик бизнес-аналитики может участвовать в создании реляционных данных из неструктурированных данных, написании скриптов SQL и создании панелей мониторинга.
Ожидаемые выходные данные — это реляционные запросы, отчеты бизнес-аналитики и панели мониторинга.
Инженер MLOps: ответственный за размещение моделей в рабочую среду, которую предоставляет Специалист по обработке и анализу данных или гражданин Специалист по обработке и анализу данных.
Ожидаемые выходные данные — это воспроизводимые модели, готовые к производству.
Хотя в списке представлены все возможные роли, которые могут взаимодействовать с медицинскими данными в любой момент рабочего процесса, при необходимости эти роли могут быть объединены или расширены.
Компоненты
- Фабрика данных Azure — это служба оркестрации, которая может перемещать данные из локальных систем в Azure для работы с другими службами данных Azure. Конвейеры используются для перемещения данных, а потоки данных для сопоставления —для выполнения различных задач преобразования, таких как извлечение, преобразование, загрузка (ETL), а также извлечение, загрузка, преобразование (ELT). При использовании этой архитектуры Инженер данных использует Фабрику данных для запуска конвейера, который копирует исторические данные повторных госпитализаций из локального экземпляра SQL Server в облачное хранилище.
- Azure Databricks — это служба аналитики и машинного обучения на основе Spark, которая используется для рабочих нагрузок машинного обучения и инжиниринга данных. При использовании этой архитектуры Инженер данных использует Databricks для вызова конвейера Фабрики данных для запуска записной книжки Databricks. Записная книжка разрабатывается Специалистом по обработке и анализу данных для обработки первоначальных задач по очистке данных и конструированию признаков. Специалист по обработке и анализу данных может писать код в дополнительных записных книжках для стандартизации данных, а также для создания и развертывания моделей прогнозирования.
- Azure Data Lake Storage — это масштабируемая и безопасная служба хранения для высокопроизводительных аналитических рабочих нагрузок. При использовании этой архитектуры Инженер данных использует Data Lakes Storage, чтобы определить начальную целевую зону для локальных данных, загружаемых в Azure, и конечную целевую зону для обучающих данных. Данные в необработанном или окончательном формате готовы к использованию различными нижестоящими системами.
- Машинное обучение Azure — это среда для совместной работы, которая используется для обучения, развертывания, автоматизации, администрирования и отслеживания моделей машинного обучения. Автоматизированное машинное обучение (AutoML) — это возможность автоматизировать трудоемкие и повторяющиеся задачи, связанные с разработкой модели ML. Специалист по обработке и анализу данных использует машинное обучение для отслеживания запусков ML из Databricks и для создания моделей AutoML, которые служат эталоном производительности для моделей ML Специалиста по обработке и анализу данных. Гражданский специалист по обработке и анализу данных использует эту службу для быстрого запуска обучающих данных через AutoML для создания моделей без глубоких знаний об алгоритмах машинного обучения.
- Azure Synapse Analytics — это служба аналитики, которая объединяет интеграцию данных, корпоративное хранилище данных и аналитику больших данных. Пользователи могут свободно запрашивать данные, используя бессерверные или выделенные ресурсы в большом масштабе. В этой архитектуре:
- Инженер данных использует Azure Synapse Analytics для упрощения создания реляционных таблиц из данных в озере данных, чтобы быть основой для оперативной аналитики.
- Специалист по обработке и анализу данных использует это решение для быстрого запрашивания данных в озере данных и разработки моделей прогнозирования с помощью записных книжек Spark.
- Аналитик бизнес-аналитики использует это решение для выполнения запросов с помощью знакомого синтаксиса SQL.
- Microsoft Power BI — это набор программных служб, приложений и соединителей, которые работают вместе, чтобы превратить несвязанные источники данных в согласованные, визуально привлекательные и интерактивные сведения. Аналитик бизнес-аналитики использует Power BI для создания визуализаций на основе данных, таких как карта с расположением каждого пациента и ближайшей больницы.
- Идентификатор Microsoft Entra — это облачная служба управления удостоверениями и доступом. При использовании этой архитектуры она управляет доступом к службам Azure.
- Azure Key Vault — это облачная служба, предоставляющая безопасное хранилище секретов, таких как ключи, пароли и сертификаты. Key Vault содержит секреты, используемые Databricks для получения доступа на запись в озере данных.
- Microsoft Defender для облака — это единая система управления безопасностью инфраструктуры, которая повышает уровень безопасности центров обработки данных и обеспечивает расширенную защиту от угроз в гибридных рабочих нагрузках в облаке и локальной среде. Вы можете использовать это решение для мониторинга угроз безопасности в среде Azure.
- Служба Azure Kubernetes (AKS) — это полностью управляемая служба Kubernetes для развертывания и администрирования контейнерных приложений. AKS упрощает развертывание управляемого кластера AKS в Azure, перекладывая операционные издержки на Azure.
Альтернативные варианты
Перемещение данных. Вы можете использовать Databricks для копирования данных из локальной системы в озеро данных. Как правило, Databricks подходит для данных, которые требуют потоковой передачи или передачи в реальном времени, например телеметрии с медицинского устройства.
Машинное обучение. H2O.ai, DataRobot, Dataiku и другие поставщики предлагают возможности автоматизированного машинного обучения, аналогичные Машинному обучению AutoML. Вы можете использовать такие платформы, чтобы дополнить действия Azure по инжинирингу данных и машинному обучению.
Подробности сценария
Эта архитектура представляет собой пример полного рабочего процесса для прогнозирования повторных госпитализаций пациентов с диабетом с использованием общедоступных данных из 130 больниц США за 10 лет с 1999 по 2008 гг. Сначала оценивается прогнозная способность алгоритма бинарной классификации, а затем выполняется сравнение с прогнозными моделями, созданными с помощью автоматизированного машинного обучения. В ситуациях, когда автоматическое машинное обучение не может исправить несбалансированные данные, следует применять альтернативные методы. Окончательная модель выбирается для развертывания и использования.
Так как организации, работающие в сфере здравоохранения и медико-биологических наук, стремятся обеспечить более персонализированный опыт для пациентов и лиц, осуществляющих уход, перед ними стоит задача использовать данные из устаревших систем для предоставления релевантных, точных и своевременных прогнозных данных. Сбор данных давно не ограничивается традиционными операционными системами и электронными медицинскими картами (EHR) и все чаще принимает неструктурированные формы в виде получения информации от потребительских приложений для здоровья, носимых фитнес-устройств и интеллектуальных медицинских устройств. Организациям нужна возможность быстро централизовать эти данные и использовать возможности обработки и анализа данных и машинного обучения, чтобы оставаться актуальными для своих клиентов.
Для достижения этих целей организации, работающие в сфере здравоохранения и медико-биологических наук, должны:
- Создать источник данных, из которого прогнозная аналитика может в реальном времени предоставлять ценные сведения поставщикам медицинских услуг, администраторам больниц, производителям лекарств и другим лицам.
- Предоставить своих отраслевых экспертов (SME), которые не имеют опыта в сферах обработки и анализа данных и машинного обучения.
- Предоставить SME, занимающимся обработкой и анализом данных и машинным обучением (ML), гибкие инструменты, необходимые им для эффективного, точного и масштабного создания и развертывания прогнозных моделей.
Потенциальные варианты использования
- Прогнозирование повторных госпитализаций.
- Ускорение диагностики пациентов с помощью визуализации на базе ML.
- Выполнение анализа текста в заметках врача.
- Прогнозирование возникновения нежелательных явлений путем анализа данных удаленного мониторинга пациентов из Интернета медицинских вещей (IoMT).
Рекомендации
Эти рекомендации реализуют основные принципы платформы Azure Well-Architected Framework, которая является набором руководящих принципов, которые можно использовать для улучшения качества рабочей нагрузки. Дополнительные сведения см. в статье Microsoft Azure Well-Architected Framework.
Availability
Предоставление клинических данных и сведений в реальном времени имеет решающее значение для многих организаций, работающих в сфере здравоохранения. Ниже перечислены способы минимизировать время простоя и защитить данные:
- Data Lake Storage всегда реплицируется три раза в основном регионе, при этом можно выбрать локально избыточное хранилище (LRS) или хранилище, избыточное между зонами (ZRS).
- Azure Synapse Analytics предоставляет точки восстановления базы данных и аварийное восстановление.
- Данные фабрики данных хранятся и реплицируются в парном регионе Azure для обеспечения непрерывности бизнес-процессов и аварийного восстановления.
- Databricks предоставляет руководство по аварийному восстановлению для своей платформы аналитики данных.
- Развертывание Машинного обучения может выполняться в нескольких регионах.
Производительность
Для локальной среды выполнения интеграции Фабрики данных можно выполнить вертикальное увеличение масштаба для обеспечения высокой доступности и масштабируемости.
Безопасность
Безопасность обеспечивает гарантии от преднамеренного нападения и злоупотребления ценными данными и системами. Дополнительные сведения см. в разделе "Общие сведения о компоненте безопасности".
Медицинские данные часто включают конфиденциальную защищенную медицинскую информацию (PHI) и личную информацию. Для защиты этих данных доступны следующие ресурсы:
- Data Lake Storage использует управление доступом на основе ролей Azure (RBAC) и списки управления доступом (ACL) для создания модели управления доступом.
- Azure Synapse Analytics предоставляет ряд элементов управления доступом и безопасностью на уровнях базы данных, столбцов и строк. Данные также могут быть защищены на уровне ячеек и с помощью шифрования данных.
- Фабрика данных предоставляет базовую инфраструктуру безопасности для перемещения данных как в гибридных, так и облачных сценариях.
Оптимизация затрат
Оптимизация затрат заключается в поиске способов уменьшения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в разделе Обзор критерия "Оптимизация затрат".
Стоимость решения зависит от следующих факторов:
- Используемые службы Azure.
- Объем данных.
- Требования к емкости и пропускной способности.
- Необходимые преобразования ETL/ELT.
- Вычислительные ресурсы, необходимые для выполнения задач машинного обучения.
Оценку затрат можно провести с помощью Калькулятора цен Azure.
Соавторы
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.
Основные авторы:
- Мэтт Хансен | Старший архитектор облачных решений
- Сэнди Су | Архитектор облачных решений
Следующие шаги
Службы Azure;
- Что такое Фабрика данных Azure?
- Что такое Azure Databricks?
- Отслеживание моделей машинного обучения с помощью MLflow и Машинное обучение Azure
- Общие сведения об Azure Data Lake Storage 2-го поколения
- Что такое Машинное обучение Azure?
- Что такое автоматизированное машинное обучение (AutoML)?
- Что такое Azure Synapse Analytics?
- Что такое Power BI?
- Что такое Microsoft Entra ID?
- Сведения об Azure Key Vault
- Что такое Microsoft Defender для облака?
Решения для здравоохранения
- Microsoft Cloud для здравоохранения
- Azure для здравоохранения
- Azure API для FHIR
- Соединитель IoMT FHIR для Azure
- Удаленный мониторинг пациентов с помощью Интернета медицинских вещей (IoMT)