¿Qué es HDInsight?

Completado

Debido a los grandes volúmenes y a la gran variedad de datos que existen actualmente, así como a velocidad con la que estos se generan, ha surgido la necesidad de usar sistemas que puedan trabajar de forma efectiva y eficaz con los datos semielaborados y no estructurados generados. Los sistemas tradicionales de administración de bases de datos relacionales (RDBMS) han intentado procesar, almacenar y analizar los macrodatos. Pero el mundo del software de código abierto (OSS) es lo que ha supuesto un avance decisivo. El OSS usa hardware estándar de forma distribuida y se combina con software para escalar datos y análisis más allá de los límites impuestos en los servidores únicos.

El OSS está disponible gratuitamente tanto para organizaciones como para usuarios particulares. La falta de gobernanza y soporte técnico para el OSS en el pasado hizo que este fuera difícil de adoptar para algunas empresas. Con la llegada de la nube, muchos proveedores de nube hospedan estos servicios y proporcionan soporte técnico administrado a las organizaciones que usan tecnologías de OSS. Esta propuesta convence a las organizaciones para que aprovechen las ventajas del OSS sin que ello suponga incurrir en el costo de administrarlo ni proporcionar soporte técnico. Es habitual ver el OSS en el espacio de los macrodatos. En este espacio, existen muchas tecnologías, no solo para procesar y almacenar datos, sino también para realizar análisis. El análisis de OSS permite una estrategia de aplicación abierta multinube que no está asociada a un único proveedor de nube. Proporciona portabilidad si necesita trasladar soluciones de un entorno local a la nube o entre diferentes proveedores de nube.

Una de las principales tecnologías analíticas de OSS que se usan en las soluciones de macrodatos es Hadoop. Normalmente, almacena datos en un sistema de archivos distribuido de Hadoop (HDFS) y utiliza un clúster de equipos estándar con un modelo de programación denominado MapReduce. Este modelo de programación permite el procesamiento distribuido de grandes conjuntos de datos en un flujo de datos lineal. Para mejorar el rendimiento, Apache Spark se basa en las funcionalidades arquitectónicas de Hadoop, pero reemplaza al paradigma de MapReduce por un conjunto de datos distribuido resistente (RDD). El RDD proporciona un motor de datos en memoria que es mucho más rápido.

Es importante mencionar que el análisis de OSS ha ido más allá de la aplicación tradicional de soluciones de macrodatos con Hadoop y Spark. Ahora, el análisis de OSS incorpora una amplia gama de software, en la que se incluyen los siguientes:

  • Kafka y Flink para escenarios de streaming
  • Presto y Kylin como capas de abstracción de SQL
  • Capas de IA agregadas con H20.ai y Dataiku

Azure HDInsight es un servicio de análisis, de código abierto, espectro completo y totalmente administrado en la nube para empresas. En Microsoft, el análisis de OSS se implementa en Azure HDInsight. Puede usar marcos de código abierto como Hadoop, Apache Spark, Apache Hive, LLAP y Apache Kafka. También obtiene las ventajas de la seguridad de nivel empresarial, las capacidades de supervisión y las opciones de alta disponibilidad que se esperan de un servicio hospedado en Azure. Azure HDInsight también es extensible y personalizable para abordar una gran variedad de escenarios de cliente.