Inicio rápido: implementación de un clúster de Apache Spark administrado con Azure Databricks

Azure Managed Instance for Apache Cassandra proporciona operaciones de implementación y escalado automatizadas para los centros de datos administrados de código abierto de Apache Cassandra. Esta característica acelera los escenarios híbridos y reduce el mantenimiento continuo.

En este inicio rápido se muestra cómo usar Azure Portal para crear un clúster de Apache Spark totalmente administrado en Azure Virtual Network para el clúster de Azure Managed Instance for Apache Cassandra. Crea el clúster de Spark en Azure Databricks. Posteriormente, puede crear o adjuntar cuadernos al clúster, leer datos de diferentes orígenes de datos y analizar la información.

Puede obtener más información con instrucciones detalladas sobre la implementación de Azure Databricks en Azure Virtual Network (inserción de red virtual).

Requisitos previos

Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.

Crear un clúster de Azure Databricks

Siga estos pasos para crear un clúster de Azure Databricks en una red virtual que tenga Azure Managed Instance for Apache Cassandra:

  1. Inicie sesión en Azure Portal.

  2. En el panel de la izquierda, ubique Grupos de recursos. Navegue hasta el grupo de recursos que contiene la red virtual donde se implementa la instancia administrada.

  3. Abra el recurso Red virtual y tome nota del espacio de direcciones:

    Captura de pantalla en la que se muestra dónde obtener el espacio de direcciones de la instancia de Virtual Network.

  4. En el grupo de recursos, seleccione Agregar y busque Azure Databricks en el campo de búsqueda:

    Captura de pantalla en la que se muestra una búsqueda de Azure Databricks.

  5. Seleccione Crear para crear una cuenta de Azure Databricks:

    Captura de pantalla en la que se muestra la oferta de Azure Databricks con el botón Crear seleccionado.

  6. Escriba los siguientes valores:

    • Nombre de área de trabajo Proporcione un nombre para el área de trabajo de Databricks.
    • Región Asegúrese de seleccionar la misma región que su red virtual.
    • Plan de tarifa: elija entre Estándar, Premium o Evaluación gratuita. Para más información sobre estos planes, consulte la página de precios de Databricks.

    Captura de pantalla en la que se muestra un cuadro de diálogo donde puede escribir el nombre del área de trabajo, la región y el plan de tarifa de la cuenta de Databricks.

  7. A continuación, seleccione la pestaña Redes y introduzca la información siguiente:

    • Implementar área de trabajo de Azure Databricks en una red virtual (VNet) propia Seleccione .
    • Red virtual En la lista desplegable, elija la red virtual donde se encuentra la instancia administrada.
    • Nombre de subred pública Escriba un nombre para la subred pública.
    • Intervalo de CIDR de subred pública Escriba un intervalo IP para la subred pública.
    • Nombre de subred privada Escriba un nombre para la subred privada.
    • Intervalo de CIDR de subred privada Escriba un intervalo IP para la subred privada.

    Para evitar conflictos de intervalos, asegúrese de seleccionar intervalos superiores. Si es necesario, use una calculadora de subred visual para dividir los intervalos:

    Captura de pantalla en la que se muestra la Calculadora de subred visual con dos direcciones de red idénticas resaltadas.

    En la captura de pantalla siguiente se muestran detalles de ejemplo en el panel de redes:

    Captura de pantalla en la que se muestran los nombres de subred pública y privada especificados.

  8. Seleccione Revisar y crear y, a continuación, Crear para implementar el área de trabajo.

  9. Una vez que se ha creado, seleccione Iniciar área de trabajo.

  10. Se le redirigirá al portal de Azure Databricks. En el portal, seleccione Nuevo clúster.

  11. En el panel Nuevo clúster, acepte los valores predeterminados para todos los campos distintos a los campos siguientes:

    • Nombre del clúster Escriba un nombre para el clúster.
    • Versión de Databricks Runtime: Se recomienda seleccionar Databricks Runtime versión 7.5 o posterior, para la compatibilidad con Spark 3.x.

    Captura de pantalla en la que se muestra el cuadro de diálogo Nuevo clúster con una versión de Databricks Runtime seleccionada.

  12. Expanda Opciones avanzadas y agregue la configuración siguiente. Asegúrese de reemplazar las direcciones IP y las credenciales del nodo:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Agregue la biblioteca de conectores de Cassandra de Apache Spark a su clúster para conectarse a los puntos de conexión nativos y de Cassandra de Azure Cosmos DB. En el clúster, seleccione Libraries>Install New>Maven (Bibliotecas > Instalar nueva > Maven) y, después, agregue com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 en las coordenadas de Maven.

Captura de pantalla que muestra la búsqueda de paquetes Maven en Databricks

Limpieza de recursos

Si no va a seguir usando este clúster de instancia administrada, elimínelo mediante los siguientes pasos:

  1. En el menú de la izquierda de Azure Portal, seleccione Grupos de recursos.
  2. En la lista, seleccione el grupo de recursos que creó para este inicio rápido.
  3. En el panel Información general del grupo de recursos, seleccione Eliminar grupo de recursos.
  4. En la ventana siguiente, escriba el nombre del grupo de recursos que desea eliminar y, después, seleccione Eliminar.

Pasos siguientes

En este inicio rápido se muestra cómo usar Azure Portal para crear un clúster de Apache Spark totalmente administrado en la red virtual del clúster de Azure Managed Instance for Apache Cassandra. A continuación, obtenga información sobre cómo administrar los recursos del centro de datos y el clúster: