Kopiera data från Impala med Hjälp av Azure Data Factory eller Synapse Analytics

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

Den här artikeln beskriver hur du använder kopieringsaktivitet i en Azure Data Factory- eller Synapse Analytics-pipeline för att kopiera data från Impala. Den bygger på översiktsartikeln Kopieringsaktivitet som visar en allmän översikt över kopieringsaktiviteten.

Funktioner som stöds

Den här Impala-anslutningsappen stöds för följande funktioner:

Funktioner som stöds IR
aktiviteten Kopiera (källa/-) ① ②
Sökningsaktivitet ① ②

(1) Azure Integration Runtime (2) Lokalt installerad integrationskörning

En lista över datalager som stöds som källor eller mottagare av kopieringsaktiviteten finns i tabellen Datalager som stöds.

Tjänsten tillhandahåller en inbyggd drivrutin för att aktivera anslutning. Därför behöver du inte installera en drivrutin manuellt för att använda den här anslutningsappen.

Förutsättningar

Om ditt datalager finns i ett lokalt nätverk, ett virtuellt Azure-nätverk eller Amazon Virtual Private Cloud måste du konfigurera en lokalt installerad integrationskörning för att ansluta till det.

Om ditt datalager är en hanterad molndatatjänst kan du använda Azure Integration Runtime. Om åtkomsten är begränsad till IP-adresser som är godkända i brandväggsreglerna kan du lägga till Azure Integration Runtime-IP-adresser i listan över tillåtna.

Du kan också använda funktionen för integrering av hanterade virtuella nätverk i Azure Data Factory för att få åtkomst till det lokala nätverket utan att installera och konfigurera en lokalt installerad integrationskörning.

Mer information om de nätverkssäkerhetsmekanismer och alternativ som stöds av Data Factory finns i Strategier för dataåtkomst.

Kom igång

Om du vill utföra aktiviteten Kopiera med en pipeline kan du använda något av följande verktyg eller SDK:er:

Skapa en länkad tjänst till Impala med hjälp av användargränssnittet

Använd följande steg för att skapa en länkad tjänst till Impala i Azure-portalens användargränssnitt.

  1. Bläddra till fliken Hantera i Din Azure Data Factory- eller Synapse-arbetsyta och välj Länkade tjänster och klicka sedan på Ny:

  2. Sök efter Impala och välj Impala-anslutningsappen.

    Screenshot of the Impala connector.

  3. Konfigurera tjänstinformationen, testa anslutningen och skapa den nya länkade tjänsten.

    Screenshot of linked service configuration for Impala.

Anslut eller konfigurationsinformation

Följande avsnitt innehåller information om egenskaper som används för att definiera Data Factory-entiteter som är specifika för Impala-anslutningsappen.

Länkade tjänstegenskaper

Följande egenskaper stöds för impala-länkad tjänst.

Property Beskrivning Obligatoriskt
type Typegenskapen måste anges till Impala. Ja
värd IP-adressen eller värdnamnet för Impala-servern (dvs. 192.168.222.160). Ja
port Den TCP-port som Impala-servern använder för att lyssna efter klientanslutningar. Standardvärdet är 21050. Nej
authenticationType Den autentiseringstyp som ska användas.
Tillåtna värden är Anonymous, SASLUsername och UsernameAndPassword.
Ja
användarnamn Användarnamnet som användes för att komma åt Impala-servern. Standardvärdet är anonymt när du använder SASLUsername. Nej
password Lösenordet som motsvarar användarnamnet när du använder UsernameAndPassword. Markera det här fältet som en SecureString för att lagra det på ett säkert sätt eller referera till en hemlighet som lagras i Azure Key Vault. Nej
enableSsl Anger om anslutningarna till servern krypteras med hjälp av TLS. Standardvärdet är falskt. Nej
trustedCertPath Den fullständiga sökvägen till .pem-filen som innehåller betrodda CA-certifikat som används för att verifiera servern när du ansluter via TLS. Den här egenskapen kan bara anges när du använder TLS på lokalt installerad integrationskörning. Standardvärdet är filen cacerts.pem som är installerad med integrationskörningen. Nej
useSystemTrustStore Anger om du vill använda ett CA-certifikat från systemförtroendearkivet eller från en angiven PEM-fil. Standardvärdet är falskt. Nej
allowHostNameCNMismatch Anger om ett CA-utfärdat TLS/SSL-certifikatnamn ska matcha serverns värdnamn när du ansluter via TLS. Standardvärdet är falskt. Nej
allowSelfSignedServerCert Anger om självsignerade certifikat ska tillåtas från servern. Standardvärdet är falskt. Nej
connectVia Den integrationskörning som ska användas för att ansluta till datalagret. Läs mer i avsnittet Förutsättningar . Om den inte anges använder den standardkörningen för Azure-integrering. Nej

Exempel:

{
    "name": "ImpalaLinkedService",
    "properties": {
        "type": "Impala",
        "typeProperties": {
            "host" : "<host>",
            "port" : "<port>",
            "authenticationType" : "UsernameAndPassword",
            "username" : "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Egenskaper för datauppsättning

En fullständig lista över avsnitt och egenskaper som är tillgängliga för att definiera datauppsättningar finns i artikeln Datauppsättningar . Det här avsnittet innehåller en lista över egenskaper som stöds av Impala-datauppsättningen.

Om du vill kopiera data från Impala anger du datamängdens typegenskap till ImpalaObject. Följande egenskaper stöds:

Property Beskrivning Obligatoriskt
type Datamängdens typegenskap måste anges till: ImpalaObject Ja
schema Namnet på schemat. Nej (om "fråga" i aktivitetskällan har angetts)
table Tabellens namn. Nej (om "fråga" i aktivitetskällan har angetts)
tableName Namnet på tabellen med schemat. Den här egenskapen stöds för bakåtkompatibilitet. Använd schema och table för ny arbetsbelastning. Nej (om "fråga" i aktivitetskällan har angetts)

Exempel

{
    "name": "ImpalaDataset",
    "properties": {
        "type": "ImpalaObject",
        "typeProperties": {},
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Impala linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Kopiera egenskaper för aktivitet

En fullständig lista över avsnitt och egenskaper som är tillgängliga för att definiera aktiviteter finns i artikeln Pipelines . Det här avsnittet innehåller en lista över egenskaper som stöds av Impala-källtypen.

Impala som källtyp

Om du vill kopiera data från Impala anger du källtypen i kopieringsaktiviteten till ImpalaSource. Följande egenskaper stöds i avsnittet kopieringsaktivitetskälla.

Property Beskrivning Obligatoriskt
type Typegenskapen för kopieringsaktivitetskällan måste anges till ImpalaSource. Ja
query Använd den anpassade SQL-frågan för att läsa data. Ett exempel är "SELECT * FROM MyTable". Nej (om "tableName" i datauppsättningen har angetts)

Exempel:

"activities":[
    {
        "name": "CopyFromImpala",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Impala input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "ImpalaSource",
                "query": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Egenskaper för uppslagsaktivitet

Mer information om egenskaperna finns i Sökningsaktivitet.

En lista över datalager som stöds som källor och mottagare av kopieringsaktiviteten finns i Datalager som stöds.