Общие сведения о этапах обработки больших данных
Озера данных имеют основную роль в широком спектре архитектур больших данных. Эти архитектуры могут включать создание следующих компонентов:
- Хранилище корпоративных данных.
- Расширенная аналитика для больших данных.
- Решение аналитики в реальном времени.
Существуют четыре стадии для обработки решений больших данных, которые являются общими для всех архитектур:
- Прием — этап приема определяет технологию и процессы, используемые для получения исходных данных. Эти данные могут поступать из файлов, журналов и других типов неструктурированных данных, которые должны быть помещены в озеро данных. Применяемая технология зависит от частоты передачи данных. Например, для пакетного перемещения данных конвейеры в Azure Synapse Analytics или Фабрика данных Azure могут быть наиболее подходящими для использования технологии. Для приема данных в режиме реального времени Apache Kafka для HDInsight или Stream Analytics может быть подходящим вариантом.
- Хранение — фаза хранения определяет, где должны размещаться принятые данные. Azure Data Lake Storage 2-го поколения предоставляет безопасное и масштабируемое решение для хранения данных, совместимое с часто используемыми технологиями обработки больших данных.
- Подготовка и обучение — этап подготовки и обучения определяет технологии, используемые для подготовки данных и обучения моделей и оценки для решений машинного обучения. Распространенными технологиями, которые используются на этом этапе, являются Azure Synapse Analytics, Azure Databricks, Azure HDInsight и Машинное обучение Azure.
- Моделирование и обслуживание — наконец, фаза моделирования и обслуживания включает в себя технологии, которые будут представлять данные пользователям. Эти технологии могут включать такие средства визуализации, как Microsoft Power BI, или аналитические хранилища данных, такие как Azure Synapse Analytics. Часто сочетание нескольких технологий будет использоваться в зависимости от бизнес-требований.