Inicio rápido: implementación de un clúster de Apache Spark administrado con Azure Databricks

Artículo
08/15/2024

Azure Managed Instance for Apache Cassandra proporciona operaciones de implementación y escalado automatizadas para los centros de datos administrados de código abierto de Apache Cassandra. Esta característica acelera los escenarios híbridos y reduce el mantenimiento continuo.

En este inicio rápido se muestra cómo usar Azure Portal para crear un clúster de Apache Spark totalmente administrado en Azure Virtual Network para el clúster de Azure Managed Instance for Apache Cassandra. Crea el clúster de Spark en Azure Databricks. Posteriormente, puede crear o adjuntar cuadernos al clúster, leer datos de diferentes orígenes de datos y analizar la información.

Puede obtener más información con instrucciones detalladas sobre la implementación de Azure Databricks en Azure Virtual Network (inserción de red virtual).

Requisitos previos

Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.

Crear un clúster de Azure Databricks

Siga estos pasos para crear un clúster de Azure Databricks en una red virtual que tenga Azure Managed Instance for Apache Cassandra:

Inicie sesión en Azure Portal.
En el panel de la izquierda, ubique Grupos de recursos. Navegue hasta el grupo de recursos que contiene la red virtual donde se implementa la instancia administrada.
Abra el recurso Red virtual y tome nota del espacio de direcciones:
En el grupo de recursos, seleccione Agregar y busque Azure Databricks en el campo de búsqueda:
Seleccione Crear para crear una cuenta de Azure Databricks:
Escriba los siguientes valores:
- Nombre de área de trabajo Proporcione un nombre para el área de trabajo de Databricks.
- Región Asegúrese de seleccionar la misma región que su red virtual.
- Plan de tarifa: elija entre Estándar, Premium o Evaluación gratuita. Para más información sobre estos planes, consulte la página de precios de Databricks.
A continuación, seleccione la pestaña Redes y introduzca la información siguiente:
- Implementar área de trabajo de Azure Databricks en una red virtual (VNet) propia Seleccione Sí.
- Red virtual En la lista desplegable, elija la red virtual donde se encuentra la instancia administrada.
- Nombre de subred pública Escriba un nombre para la subred pública.
- Intervalo de CIDR de subred pública Escriba un intervalo IP para la subred pública.
- Nombre de subred privada Escriba un nombre para la subred privada.
- Intervalo de CIDR de subred privada Escriba un intervalo IP para la subred privada.
Para evitar conflictos de intervalos, asegúrese de seleccionar intervalos superiores. Si es necesario, use una calculadora de subred visual para dividir los intervalos:

En la captura de pantalla siguiente se muestran detalles de ejemplo en el panel de redes:
Seleccione Revisar y crear y, a continuación, Crear para implementar el área de trabajo.
Una vez que se ha creado, seleccione Iniciar área de trabajo.
Se le redirigirá al portal de Azure Databricks. En el portal, seleccione Nuevo clúster.
En el panel Nuevo clúster, acepte los valores predeterminados para todos los campos distintos a los campos siguientes:
- Nombre del clúster Escriba un nombre para el clúster.
- Versión de Databricks Runtime: Se recomienda seleccionar Databricks Runtime versión 7.5 o posterior, para la compatibilidad con Spark 3.x.

Expanda Opciones avanzadas y agregue la configuración siguiente. Asegúrese de reemplazar las direcciones IP y las credenciales del nodo:

spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
spark.cassandra.auth.password cassandra
spark.cassandra.connection.port 9042
spark.cassandra.auth.username cassandra
spark.cassandra.connection.ssl.enabled true

Agregue la biblioteca de conectores de Cassandra de Apache Spark a su clúster para conectarse a los puntos de conexión nativos y de Cassandra de Azure Cosmos DB. En el clúster, seleccione Libraries>Install New>Maven (Bibliotecas > Instalar nueva > Maven) y, después, agregue com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 en las coordenadas de Maven.

Limpieza de recursos

Si no va a seguir usando este clúster de instancia administrada, elimínelo mediante los siguientes pasos:

En el menú de la izquierda de Azure Portal, seleccione Grupos de recursos.
En la lista, seleccione el grupo de recursos que creó para este inicio rápido.
En el panel Información general del grupo de recursos, seleccione Eliminar grupo de recursos.
En la ventana siguiente, escriba el nombre del grupo de recursos que desea eliminar y, después, seleccione Eliminar.

Pasos siguientes

En este inicio rápido se muestra cómo usar Azure Portal para crear un clúster de Apache Spark totalmente administrado en la red virtual del clúster de Azure Managed Instance for Apache Cassandra. A continuación, obtenga información sobre cómo administrar los recursos del centro de datos y el clúster:

Administración de recursos de Azure Managed Instance for Apache Cassandra mediante la CLI de Azure

Compartir vía

Inicio rápido: implementación de un clúster de Apache Spark administrado con Azure Databricks

Requisitos previos

Crear un clúster de Azure Databricks

Limpieza de recursos

Pasos siguientes

Comentarios

Recursos adicionales