Transformación de datos mediante la actividad de Hive de Hadoop en Azure Data Factory o Synapse Analytics
SE APLICA A: Azure Data Factory Azure Synapse Analytics
Sugerencia
Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.
La actividad de Hive de HDInsight en una canalización de Azure Data Factory o Synapse Analytics ejecuta consultas de Hive en su propio clúster de HDInsight o en uno a petición. Este artículo se basa en el artículo sobre actividades de transformación de datos , que presenta información general de la transformación de datos y las actividades de transformación admitidas.
Si es nuevo en Azure Data Factory o Synapse Analytics, vea los artículos de introducción a Azure Data Factory o Synapse Analytics y siga el tutorial de transformación de datos antes de leer este artículo.
Adición de una actividad de Hive de HDInsight a una canalización con la interfaz de usuario
Para usar una actividad de Hive de HDInsight para Azure Data Lake Analytics en una canalización, complete los pasos siguientes:
Busque Hive en el panel Actividades de canalización y arrastre una actividad de Hive al lienzo de canalización.
Seleccione la nueva actividad de Hive en el lienzo si aún no lo ha hecho.
Seleccione la pestaña HDI Cluster (Clúster de HDI) para elegir o crear un servicio vinculado a un clúster de HDInsight que se usará para ejecutar la actividad de Hive.
Seleccione la pestaña Script para seleccionar o crear un servicio vinculado de almacenamiento y una ruta de acceso dentro de la ubicación de almacenamiento, que hospedará el script.
Sintaxis
{
"name": "Hive Activity",
"description": "description",
"type": "HDInsightHive",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"scriptLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveSript.hql",
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
Detalles de la sintaxis
Propiedad | Descripción | Obligatorio |
---|---|---|
name | Nombre de la actividad | Sí |
description | Texto que describe para qué se usa la actividad. | No |
type | Para la actividad de Hive, el tipo de actividad es HDinsightHive. | Sí |
linkedServiceName | Referencia al clúster de HDInsight registrado como servicio vinculado. Para obtener más información sobre este servicio vinculado, vea el artículo Compute linked services (Servicios vinculados de procesos). | Sí |
scriptLinkedService | Referencia a un servicio vinculado de Azure Storage que se usa para almacenar el script de Hive que se va a ejecutar. En este caso solo se admiten servicios vinculados a Azure Blob Storage y ADLS Gen2 . Si no se especifica este servicio vinculado, se usará el servicio vinculado de Azure Storage definido en el servicio vinculado de HDInsight. | No |
scriptPath | Proporcione la ruta de acceso al archivo de script almacenado en Azure Storage al que hace referencia scriptLinkedService. El nombre del archivo distingue mayúsculas de minúsculas. | Sí |
getDebugInfo | Especifica si se copian los archivos de registro en el almacenamiento de Azure Storage que usa el clúster de HDInsight o que está especificado por scriptLinkedService. Valores permitidos: Ninguno, Siempre o Error. Valor predeterminado: Ninguno. | No |
argumentos | Especifica una matriz de argumentos para un trabajo de Hadoop. Los argumentos se pasan a cada tarea como argumentos de la línea de comandos. | No |
defines | Especifique parámetros como pares clave-valor para hacer referencia en el script de Hive. | No |
queryTimeout | Valor de tiempo de espera de consulta (en minutos). Aplicable cuando el clúster de HDInsight está habilitado por Enterprise Security Package. | No |
Nota
El valor predeterminado de queryTimeout es de 120 minutos.
Contenido relacionado
Vea los siguientes artículos, en los que se explica cómo transformar datos de otras maneras: