Compartir a través de


Preguntas más frecuentes sobre del análisis a escala de nube

Las siguientes preguntas son preguntas frecuentes sobre el análisis a escala de nube.

Cuentas de almacenamiento

¿Por qué necesito tres cuentas de almacenamiento independientes? ¿No puedo tener solo uno con tres contenedores para cada capa (sin procesar, refinada y seleccionada)?

La mayoría de los patrones de análisis de datos existen actualmente con las tres capas de sin procesar, refinadas y seleccionadas. Aunque se pueden mantener en el mismo almacenamiento, cuando se trata de implementaciones a gran escala, ser producen problemas por superar el número de permisos permitidos de control de acceso basado en rol (RBAC) y lista de control de acceso (ACL) que están disponibles en una sola cuenta de almacenamiento. Cuando se usan cuentas de almacenamiento independientes, la mayoría de las implementaciones pueden evitar este problema.

Se tratan más motivos en Introducción a Azure Data Lake Storage para el análisis en la nube.

Databricks

¿Se debe implementar un área de Azure Databricks por producto?

La recomendación es utilizar el área de trabajo de análisis y ciencia de datos de Azure Databricks dentro de la zona de aterrizaje.

Esta decisión se ha tomado para reducir la sobrecarga de administración del equipo de operaciones de la plataforma de datos. Azure Databricks tiene un conjunto de directivas independientes que no están integradas en las directivas de Azure. En un entorno grande, la configuración de más áreas de trabajo de Azure Databricks crea más sobrecarga de administración. Por ejemplo, mantener directivas y versiones de Apache Hive, actualizar las versiones de ADB y aplicar metastore de Apache Hive. No hay forma alguna de que un equipo de plataforma central pueda aplicar ciertos valores en cualquiera de las áreas de trabajo de Databricks. Se recomienda tener áreas de trabajo compartidas para los equipos de producto en las zonas de aterrizaje, donde los equipos de operaciones de la plataforma de datos puedan definir las directivas de clúster y los scripts de inicio necesarios.

Se recomienda usar el emparejamiento de VNet entre zonas de aterrizaje y puntos de conexión privados. Para Azure Databricks, use la inserción de Vnet. Como hay una línea de visión directa a todos los puntos de conexión, no hay ningún problema de conectividad.

Pasos siguientes

Proceso de ingesta con análisis a escala de la nube en Azure