Технологии Azure для процесса изучения

Завершено

В этом уроке вы узнаете, как применить результаты шага меры в жизненном цикле инноваций. Вы также узнаете о важности демократизации данных.

Упрощение доступа к данным

Как вы узнали из предыдущих уроков, данные от клиентов можно получить из нескольких источников. Эти источники включают в себя микроопросы, данные об использовании, полученные Azure Application Insights, и флаги функций, которые клиенты могут включать или отключать самостоятельно. Чем больше данных у вас есть, тем лучше ваши решения, но вам нужен способ справиться с этим постоянно увеличивающимся потоком данных.

В 2014 году Сатья Наделла говорил о важности культуры данных в организации. По его словам, при принятии решений следует руководствоваться не чувствами или субъективным мнением, а данными, способными подкрепить такие решения. Он также сказал, что данные должны быть доступны всем пользователям, которые в них нуждаются, и должны легко конвертироваться в полезные с практической точки зрения сведения, чтобы упростить принятие решений на основе данных.

Организация может принимать важные решения относительно данных, только если эти решения основаны на надежной и доступной платформе данных. Сюда входит четыре области:

  • Сбор данных: первым шагом к принятию решений на основе данных всегда является получение этих данных. Сбор данных может принимать различные формы: миграция из существующих хранилищ данных, создание данных из таких источников, как Azure Application Insights, или прием данных из других источников.
  • Общий доступ к данным. Собранные данные должны быть доступны всем, кто в них нуждается, а не только специалистам по обработке данных. Все сотрудники организации должны иметь возможность использовать данные для принятия решений.
  • Централизация данных. Централизованные платформы данных позволяют упростить общий доступ к данным и управление ими.
  • Управление данными. Общий доступ к данным не означает, что все данные должны быть доступны всем. Перед предоставлением общего доступа убедитесь, что все конфиденциальные данные защищены, отслеживаются и управляются.

Платформа данных Azure

Платформа Azure охватывает весь жизненный цикл данных и может выступать в качестве основы для принятия решений на основе данных и упрощения доступа к данным. Платформа данных Azure позволяет охватить четыре области операций с данными при работе как с упрощенными и предоставляемыми по запросу базами данных, так и с крупными хранилищами данных или гибкими системами NoSQL.

сбор данных

Экосистема данных Azure включает службы и средства для переноса, приема, хранения и анализа данных. В следующем списке представлено лишь несколько механизмов, которые можно использовать для обработки данных и предоставления доступа к ним для последующего совместного использования для упрощения принятия решений на основе данных:

  • Аналитика данных. Azure Synapse Analytics — это корпоративная служба аналитики, которая ускоряет извлечение аналитических сведений в разных хранилищах данных и системах больших данных. Azure Synapse Analytics объединяет лучшие из следующих способов:
    • Технологии SQL, используемые в корпоративном хранилище данных.
    • Технологии Spark, используемые для больших данных.
    • Конвейеры интеграции данных и ETL (извлечение, преобразование, загрузка) и ELT (извлечение, загрузка, преобразование).
    • Глубокая интеграция с другими службы Майкрософт, такими как Power BI, Azure Cosmos DB и Машинное обучение Azure.
  • Перенос данных: данные могут уже находиться в существующих источниках, однако их потребуется перенести на современные платформы, прежде чем их можно будет преобразовать в полезные с практической точки зрения сведения. Azure Database Migration Service содержит средства, помогающие переносить данные из таких систем, как SQL Server, PostgreSQL, Oracle и MongoDB.
  • Обработка данных: Azure содержит службы для анализа и преобразования потоков данных с помощью Azure Stream Analytics, а также для выполнения процессов извлечения, преобразования и загрузки (ETL) в большом масштабе с использованием Фабрики данных Azure.

Общий доступ к данным

Microsoft Power BI — это набор средств, которые консолидируют данные, поступающие из разнородных источников, в интегрированные интерактивные визуализации. Пользователи могут углубиться в данные с помощью интуитивно понятных элементов управления. Возможности аналитики доступны всем сотрудникам организации, а не только специалистам по работе с данными.

Владельцы областей могут создавать отчеты и панели мониторинга, содержащие релевантную информацию о конкретных аспектах приложения. После реализации нового функционала для проверки гипотезы у компании появятся новые данные, которые помогут подтвердить или опровергнуть гипотезу на основе реального использования функций клиентами.

Microsoft Power BI может упростить совместное использование данных в различных ситуациях. Далее приводятся некоторые примеры.

  • Совместное использование данных с сотрудниками и партнерами: панели мониторинга Power BI упрощают использование данных. Визуализации позволяют сотрудникам, которые не являются специалистами по обработке и анализу данных, подробно изучать данные, ничего не зная о базовой структуре.
  • Быстрое создание аналитических данных: Power BI может автоматически создавать визуализации на основе наборов данных с помощью функций краткой аналитики. Вы можете быстро создавать панели мониторинга и находить корреляции в данных, которые, возможно, не были очевидны на первый момент.
  • Внедрение отчетов на веб-сайте или портале. С помощью Power BI вы не только можете получить доступ к визуализациям на собственном портале Power BI, но и внедрять отчеты и панели мониторинга в другие веб-приложения. Таким образом, пользователям не нужно покидать привычные корпоративные веб-сайты, чтобы найти необходимые данные для принятия решений.

Централизация данных

Основная проблема, связанная с централизацией данных, — их масштаб на разных уровнях. При риске чрезмерного упрощения мы можем уменьшить его до 3 виртуальных больших данных:

  • Объем: Azure Data Lake Storage 2-го поколения — это экономичная и масштабируемая платформа Azure для хранения данных. С учетом обширной масштабируемости, обеспечиваемой службой хранилища Azure, Azure Data Lake Storage рассчитана на обслуживание данных объемом в несколько петабайт с сохранением пропускной способности в сотни гигабит.
  • Разнообразие: этот термин часто относится к тому, что данные не всегда структурированы. У вас могут быть частично структурированные и даже совсем не структурированные данные. Azure Synapse отлично проявляет себя в этой области, так как объединяет в себе лучшие возможности технологий SQL, применяемых в корпоративных хранилищах данных, с возможностями Spark, часто используемыми для больших данных.
  • Скорость. В устаревших архитектурах данных часто встречается проблема, касающаяся зависимости между емкостью хранилища, скоростью анализа и скоростью приема. С помощью решений для работы с данными Azure организация может независимо масштабировать различные измерения платформы путем их разделения. Данные можно принимать, обрабатывать и совместно использовать с помощью конвейеров, использующих требуемые службы данных Azure, как показано в архитектуре корпоративной бизнес-аналитики.

Управление данными

В современном мире данные являются важным активом и одновременно накладывают серьезную ответственность на владельца. Часто хранимые данные содержат конфиденциальные сведения, утечка или раскрытие которых может привести к финансовому или персональному ущербу. Хранение и обработка данных неявно означает, что организация принимает эту ответственность. Нарушение юридических обязательств может привести к штрафам для организаций, которые неправильно обрабатывают персональные или конфиденциальные данные.

Как следствие, управление данными является критически важным для любой организации, стремящейся упростить доступ к данным. Первым шагом к управлению данными является классификация данных, требующих особого обращения. Например, ниже приведены категории, которые Майкрософт использует для классификации своих данных:

  • Некоммерческие. Данные, относящиеся к вашей личной жизни и не принадлежащие корпорации Майкрософт.
  • Общедоступные — бизнес-данные, которые находятся в свободном доступе и одобрены для открытого ознакомления.
  • Общие. Бизнес-данные, не предназначенные для широкой аудитории.
  • Конфиденциальные. Бизнес-данные, которые могут нанести вред корпорации Майкрософт при бесконтрольном распространении.
  • Строго конфиденциальные. Бизнес-данные, которые могут привести к серьезному ущербу для корпорации Майкрософт при бесконтрольном распространении.

После классификации данных нужно убедиться, что каждая категория данных защищена от несанкционированного доступа. Azure поддерживает технологии, обеспечивающие конфиденциальность:

  • Шифрование неактивных данных: все данные Azure шифруются при хранении в центрах обработки данных Майкрософт. Некоторые службы Azure предлагают определенные функции шифрования, такие как прозрачное шифрование данных в Azure Synapse и Базе данных SQL Azure.
  • Шифрование данных во время полета: все службы данных Azure шифруют данные с помощью TLS/SSL перед отправкой через сеть. Некоторые службы, такие как служба хранилища Azure, могут разрешать и незашифрованный трафик. Организациям следует отключить любую незашифрованную передачу для всех типов конфиденциальных данных.
  • Управление доступом к данным: Azure предоставляет сложные механизмы проверки подлинности и авторизации для доступа как к платформе Azure, так и к самим данным. Управление доступом на основе ролей, условный доступ и управление привилегированными пользователями — это три примера важных служб, которые помогут обеспечить доступ к конфиденциальной информации только полномочным пользователям.
  • Аудит данных. Многие стандарты соответствия нормативным требованиям предписывают предоставлять доказательства для механизмов защиты данных посредством документирования того, кто выполнял определенные операции и обращался к определенным данным. Как описано в статье "Аудит для База данных SQL Azure и Azure Synapse Analytics", аудит данных в Azure рассматривает три аспекта аудита:
    • Хранение журнала аудита выбранных событий, где можно определить категории действий с данными, подлежащие аудиту.
    • Отчетность о действиях с базой данных (при необходимости) с помощью предварительно настроенных отчетов и панелей мониторинга, позволяющих быстрее приступить к работе.
    • Анализ отчетов для выявления подозрительных событий, необычных действий и трендов.

Мышление роста

Этап изучения иногда дает неудовлетворительные результаты. Ваша гипотеза может оказаться ошибочной. Чтобы процесс внедрения инноваций протекал плавно, крайне важно оставаться открытым к альтернативным идеям. Возможно, неверной была вся гипотеза, а может быть проблема заключалась в способе разработки прототипа.

В любом случае выводы всегда должны поддерживаться данными. Команда должна сформулировать следующую гипотезу, возможно, на основе предыдущей.

Имеющиеся данные не всегда позволяют однозначно заключить, была ли гипотеза верна. В этом случае следует улучшить набор данных, помогающий принять решение. В приложении представлены новые точки телеметрии или выясните новые способы получения сведений о пользовательском интерфейсе.

На этом этапе очень важно опираться на мышление роста. Относитесь к неверным гипотезам как к важным урокам. Организации не должны тратить время на инновации, не создающие ожидаемые результаты для бизнеса.

Дополнительные материалы

Далее мы обсудим многие понятия в этом уроке в документации по Cloud Adoption Framework о демократизации данных.