Технологии Azure для процесса изучения
В этом уроке вы узнаете, как применить результаты шага меры в жизненном цикле инноваций. Вы также узнаете о важности демократизации данных.
Упрощение доступа к данным
Как вы узнали из предыдущих уроков, данные от клиентов можно получить из нескольких источников. Эти источники включают в себя микроопросы, данные об использовании, полученные Azure Application Insights, и флаги функций, которые клиенты могут включать или отключать самостоятельно. Чем больше данных у вас есть, тем лучше ваши решения, но вам нужен способ справиться с этим постоянно увеличивающимся потоком данных.
В 2014 году Сатья Наделла говорил о важности культуры данных в организации. По его словам, при принятии решений следует руководствоваться не чувствами или субъективным мнением, а данными, способными подкрепить такие решения. Он также сказал, что данные должны быть доступны всем пользователям, которые в них нуждаются, и должны легко конвертироваться в полезные с практической точки зрения сведения, чтобы упростить принятие решений на основе данных.
Организация может принимать важные решения относительно данных, только если эти решения основаны на надежной и доступной платформе данных. Сюда входит четыре области:
- Сбор данных: первым шагом к принятию решений на основе данных всегда является получение этих данных. Сбор данных может принимать различные формы: миграция из существующих хранилищ данных, создание данных из таких источников, как Azure Application Insights, или прием данных из других источников.
- Общий доступ к данным. Собранные данные должны быть доступны всем, кто в них нуждается, а не только специалистам по обработке данных. Все сотрудники организации должны иметь возможность использовать данные для принятия решений.
- Централизация данных. Централизованные платформы данных позволяют упростить общий доступ к данным и управление ими.
- Управление данными. Общий доступ к данным не означает, что все данные должны быть доступны всем. Перед предоставлением общего доступа убедитесь, что все конфиденциальные данные защищены, отслеживаются и управляются.
Платформа данных Azure
Платформа Azure охватывает весь жизненный цикл данных и может выступать в качестве основы для принятия решений на основе данных и упрощения доступа к данным. Платформа данных Azure позволяет охватить четыре области операций с данными при работе как с упрощенными и предоставляемыми по запросу базами данных, так и с крупными хранилищами данных или гибкими системами NoSQL.
сбор данных
Экосистема данных Azure включает службы и средства для переноса, приема, хранения и анализа данных. В следующем списке представлено лишь несколько механизмов, которые можно использовать для обработки данных и предоставления доступа к ним для последующего совместного использования для упрощения принятия решений на основе данных:
- Аналитика данных. Azure Synapse Analytics — это корпоративная служба аналитики, которая ускоряет извлечение аналитических сведений в разных хранилищах данных и системах больших данных. Azure Synapse Analytics объединяет лучшие из следующих способов:
- Технологии SQL, используемые в корпоративном хранилище данных.
- Технологии Spark, используемые для больших данных.
- Конвейеры интеграции данных и ETL (извлечение, преобразование, загрузка) и ELT (извлечение, загрузка, преобразование).
- Глубокая интеграция с другими службы Майкрософт, такими как Power BI, Azure Cosmos DB и Машинное обучение Azure.
- Перенос данных: данные могут уже находиться в существующих источниках, однако их потребуется перенести на современные платформы, прежде чем их можно будет преобразовать в полезные с практической точки зрения сведения. Azure Database Migration Service содержит средства, помогающие переносить данные из таких систем, как SQL Server, PostgreSQL, Oracle и MongoDB.
- Обработка данных: Azure содержит службы для анализа и преобразования потоков данных с помощью Azure Stream Analytics, а также для выполнения процессов извлечения, преобразования и загрузки (ETL) в большом масштабе с использованием Фабрики данных Azure.
Общий доступ к данным
Microsoft Power BI — это набор средств, которые консолидируют данные, поступающие из разнородных источников, в интегрированные интерактивные визуализации. Пользователи могут углубиться в данные с помощью интуитивно понятных элементов управления. Возможности аналитики доступны всем сотрудникам организации, а не только специалистам по работе с данными.
Владельцы областей могут создавать отчеты и панели мониторинга, содержащие релевантную информацию о конкретных аспектах приложения. После реализации нового функционала для проверки гипотезы у компании появятся новые данные, которые помогут подтвердить или опровергнуть гипотезу на основе реального использования функций клиентами.
Microsoft Power BI может упростить совместное использование данных в различных ситуациях. Далее приводятся некоторые примеры.
- Совместное использование данных с сотрудниками и партнерами: панели мониторинга Power BI упрощают использование данных. Визуализации позволяют сотрудникам, которые не являются специалистами по обработке и анализу данных, подробно изучать данные, ничего не зная о базовой структуре.
- Быстрое создание аналитических данных: Power BI может автоматически создавать визуализации на основе наборов данных с помощью функций краткой аналитики. Вы можете быстро создавать панели мониторинга и находить корреляции в данных, которые, возможно, не были очевидны на первый момент.
- Внедрение отчетов на веб-сайте или портале. С помощью Power BI вы не только можете получить доступ к визуализациям на собственном портале Power BI, но и внедрять отчеты и панели мониторинга в другие веб-приложения. Таким образом, пользователям не нужно покидать привычные корпоративные веб-сайты, чтобы найти необходимые данные для принятия решений.
Централизация данных
Основная проблема, связанная с централизацией данных, — их масштаб на разных уровнях. При риске чрезмерного упрощения мы можем уменьшить его до 3 виртуальных больших данных:
- Объем: Azure Data Lake Storage 2-го поколения — это экономичная и масштабируемая платформа Azure для хранения данных. С учетом обширной масштабируемости, обеспечиваемой службой хранилища Azure, Azure Data Lake Storage рассчитана на обслуживание данных объемом в несколько петабайт с сохранением пропускной способности в сотни гигабит.
- Разнообразие: этот термин часто относится к тому, что данные не всегда структурированы. У вас могут быть частично структурированные и даже совсем не структурированные данные. Azure Synapse отлично проявляет себя в этой области, так как объединяет в себе лучшие возможности технологий SQL, применяемых в корпоративных хранилищах данных, с возможностями Spark, часто используемыми для больших данных.
- Скорость. В устаревших архитектурах данных часто встречается проблема, касающаяся зависимости между емкостью хранилища, скоростью анализа и скоростью приема. С помощью решений для работы с данными Azure организация может независимо масштабировать различные измерения платформы путем их разделения. Данные можно принимать, обрабатывать и совместно использовать с помощью конвейеров, использующих требуемые службы данных Azure, как показано в архитектуре корпоративной бизнес-аналитики.
Управление данными
В современном мире данные являются важным активом и одновременно накладывают серьезную ответственность на владельца. Часто хранимые данные содержат конфиденциальные сведения, утечка или раскрытие которых может привести к финансовому или персональному ущербу. Хранение и обработка данных неявно означает, что организация принимает эту ответственность. Нарушение юридических обязательств может привести к штрафам для организаций, которые неправильно обрабатывают персональные или конфиденциальные данные.
Как следствие, управление данными является критически важным для любой организации, стремящейся упростить доступ к данным. Первым шагом к управлению данными является классификация данных, требующих особого обращения. Например, ниже приведены категории, которые Майкрософт использует для классификации своих данных:
- Некоммерческие. Данные, относящиеся к вашей личной жизни и не принадлежащие корпорации Майкрософт.
- Общедоступные — бизнес-данные, которые находятся в свободном доступе и одобрены для открытого ознакомления.
- Общие. Бизнес-данные, не предназначенные для широкой аудитории.
- Конфиденциальные. Бизнес-данные, которые могут нанести вред корпорации Майкрософт при бесконтрольном распространении.
- Строго конфиденциальные. Бизнес-данные, которые могут привести к серьезному ущербу для корпорации Майкрософт при бесконтрольном распространении.
После классификации данных нужно убедиться, что каждая категория данных защищена от несанкционированного доступа. Azure поддерживает технологии, обеспечивающие конфиденциальность:
- Шифрование неактивных данных: все данные Azure шифруются при хранении в центрах обработки данных Майкрософт. Некоторые службы Azure предлагают определенные функции шифрования, такие как прозрачное шифрование данных в Azure Synapse и Базе данных SQL Azure.
- Шифрование данных во время полета: все службы данных Azure шифруют данные с помощью TLS/SSL перед отправкой через сеть. Некоторые службы, такие как служба хранилища Azure, могут разрешать и незашифрованный трафик. Организациям следует отключить любую незашифрованную передачу для всех типов конфиденциальных данных.
- Управление доступом к данным: Azure предоставляет сложные механизмы проверки подлинности и авторизации для доступа как к платформе Azure, так и к самим данным. Управление доступом на основе ролей, условный доступ и управление привилегированными пользователями — это три примера важных служб, которые помогут обеспечить доступ к конфиденциальной информации только полномочным пользователям.
- Аудит данных. Многие стандарты соответствия нормативным требованиям предписывают предоставлять доказательства для механизмов защиты данных посредством документирования того, кто выполнял определенные операции и обращался к определенным данным. Как описано в статье "Аудит для База данных SQL Azure и Azure Synapse Analytics", аудит данных в Azure рассматривает три аспекта аудита:
- Хранение журнала аудита выбранных событий, где можно определить категории действий с данными, подлежащие аудиту.
- Отчетность о действиях с базой данных (при необходимости) с помощью предварительно настроенных отчетов и панелей мониторинга, позволяющих быстрее приступить к работе.
- Анализ отчетов для выявления подозрительных событий, необычных действий и трендов.
Мышление роста
Этап изучения иногда дает неудовлетворительные результаты. Ваша гипотеза может оказаться ошибочной. Чтобы процесс внедрения инноваций протекал плавно, крайне важно оставаться открытым к альтернативным идеям. Возможно, неверной была вся гипотеза, а может быть проблема заключалась в способе разработки прототипа.
В любом случае выводы всегда должны поддерживаться данными. Команда должна сформулировать следующую гипотезу, возможно, на основе предыдущей.
Имеющиеся данные не всегда позволяют однозначно заключить, была ли гипотеза верна. В этом случае следует улучшить набор данных, помогающий принять решение. В приложении представлены новые точки телеметрии или выясните новые способы получения сведений о пользовательском интерфейсе.
На этом этапе очень важно опираться на мышление роста. Относитесь к неверным гипотезам как к важным урокам. Организации не должны тратить время на инновации, не создающие ожидаемые результаты для бизнеса.
Дополнительные материалы
Далее мы обсудим многие понятия в этом уроке в документации по Cloud Adoption Framework о демократизации данных.