Delen via


Gegevens kopiëren uit HBase met behulp van Azure Data Factory of Synapse Analytics

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Belangrijk

Deze connector bevindt zich aan het einde van de ondersteuningsfase. U wordt aangeraden om naar de ODBC-connector te migreren door een stuurprogramma te installeren.

In dit artikel wordt beschreven hoe u de kopieeractiviteit gebruikt in een Azure Data Factory- of Synapse Analytics-pijplijn om gegevens te kopiëren uit HBase. Het artikel bouwt voort op het overzicht van kopieeractiviteiten dat een algemeen overzicht van de kopieeractiviteit geeft.

Ondersteunde mogelijkheden

Deze HBase-connector wordt ondersteund voor de volgende mogelijkheden:

Ondersteunde mogelijkheden IR
Copy-activiteit (bron/-) (1)
Lookup-activiteit (1)

(1) Azure Integratieruntime (2) Zelfgehoste Integratieruntime

Zie de tabel Ondersteunde gegevensarchieven voor een lijst met gegevensarchieven die worden ondersteund als bronnen/sinks door de kopieeractiviteit.

De service biedt een ingebouwd stuurprogramma om connectiviteit in te schakelen, daarom hoeft u geen stuurprogramma handmatig te installeren met behulp van deze connector.

Vereisten

Als uw gegevensarchief een beheerde cloudgegevensservice is, kunt u De Azure Integration Runtime gebruiken. Als de toegang is beperkt tot IP-adressen die zijn goedgekeurd in de firewallregels, kunt u IP-adressen van Azure Integration Runtime toevoegen aan de acceptatielijst.

U kunt ook de beheerde functie voor integratieruntime voor virtuele netwerken in Azure Data Factory gebruiken om toegang te krijgen tot het on-premises netwerk zonder een zelf-hostende Integration Runtime te installeren en te configureren.

Zie Strategieën voor gegevenstoegang voor meer informatie over de netwerkbeveiligingsmechanismen en -opties die door Data Factory worden ondersteund.

Aan de slag

Als u de kopieeractiviteit wilt uitvoeren met een pijplijn, kunt u een van de volgende hulpprogramma's of SDK's gebruiken:

Een gekoppelde service maken voor HBase met behulp van de gebruikersinterface

Gebruik de volgende stappen om een gekoppelde service te maken voor HBase in de gebruikersinterface van Azure Portal.

  1. Blader naar het tabblad Beheren in uw Azure Data Factory- of Synapse-werkruimte en selecteer Gekoppelde services en klik vervolgens op Nieuw:

  2. Zoek naar HBase en selecteer de HBase-connector.

    Schermopname van de HBase-connector.

  3. Configureer de servicedetails, test de verbinding en maak de nieuwe gekoppelde service.

    Schermopname van de configuratie van de gekoppelde service voor HBase.

Details van connectorconfiguratie

De volgende secties bevatten details over eigenschappen die worden gebruikt om Data Factory-entiteiten te definiëren die specifiek zijn voor de HBase-connector.

Eigenschappen van gekoppelde service

De volgende eigenschappen worden ondersteund voor de gekoppelde HBase-service:

Eigendom Beschrijving Verplicht
soort / typen De typeeigenschap moet worden ingesteld op: HBase Ja
gastheer Het IP-adres of de hostnaam van de HBase-server. (dat wil bijvoorbeeld [clustername].azurehdinsight.net, 192.168.222.160) Ja
poort De TCP-poort die het HBase-exemplaar gebruikt om te luisteren naar clientverbindingen. De standaardwaarde is 9090. Als u verbinding maakt met Azure HDInsights, geeft u poort op als 443. Nee
httpPath De gedeeltelijke URL die overeenkomt met de HBase-server, bijvoorbeeld /hbaserest0 bij het gebruik van een HDInsights-cluster. Nee
authenticatietype Het verificatiemechanisme dat moet worden gebruikt om verbinding te maken met de HBase-server.
Toegestane waarden zijn: Anoniem, Basic
Ja
gebruikersnaam De gebruikersnaam die wordt gebruikt om verbinding te maken met het HBase-exemplaar. Nee
wachtwoord Het wachtwoord dat overeenkomt met de gebruikersnaam. Markeer dit veld als SecureString om het veilig op te slaan of verwijs naar een geheim dat is opgeslagen in Azure Key Vault. Nee
SSL inschakelen Hiermee geeft u op of de verbindingen met de server zijn versleuteld met behulp van TLS. De standaardwaarde is false. Nee
trustedCertPath Het volledige pad van het PEM-bestand met vertrouwde CA-certificaten voor het verifiëren van de server bij het maken van verbinding via TLS. Deze eigenschap kan alleen worden ingesteld wanneer u TLS gebruikt op zelf-hostende IR. De standaardwaarde is het cacerts.pem-bestand dat is geïnstalleerd met de IR. Nee
allowHostNameCNMismatch Hiermee geeft u op of een door een CA uitgegeven TLS/SSL-certificaatnaam moet overeenkomen met de hostnaam van de server bij het maken van verbinding via TLS. De standaardwaarde is false. Nee
toestaanZelfondertekendServerCertificaat Hiermee geeft u op of zelfondertekende certificaten van de server moeten worden toegestaan. De standaardwaarde is false. Nee
connectVia De Integration Runtime die gebruikt moet worden om verbinding te maken met het gegevensarchief. Raadpleeg de sectie Vereisten voor meer informatie. U kunt Alleen Azure Integration Runtime gebruiken. Nee

Notitie

Als uw cluster geen ondersteuning biedt voor een sticky sessie, zoals HDInsight, voegt u expliciet een knooppuntindex aan het einde van de instelling voor het http-pad toe, bijvoorbeeld /hbaserest0 in plaats van /hbaserest.

Voorbeeld voor HDInsights HBase:

{
    "name": "HBaseLinkedService",
    "properties": {
        "type": "HBase",
        "typeProperties": {
            "host" : "<cluster name>.azurehdinsight.net",
            "port" : "443",
            "httpPath" : "/hbaserest0",
            "authenticationType" : "Basic",
            "username" : "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            },
            "enableSsl" : true
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Voorbeeld voor algemene HBase:

{
    "name": "HBaseLinkedService",
    "properties": {
        "type": "HBase",
        "typeProperties": {
            "host" : "<host e.g. 192.168.222.160>",
            "port" : "<port>",
            "httpPath" : "<e.g. /gateway/sandbox/hbase/version>",
            "authenticationType" : "Basic",
            "username" : "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            },
            "enableSsl" : true,
            "trustedCertPath" : "<trustedCertPath>",
            "allowHostNameCNMismatch" : true,
            "allowSelfSignedServerCert" : true
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Eigenschappen van gegevensset

Zie het artikel gegevenssets voor een volledige lijst met secties en eigenschappen die beschikbaar zijn voor het definiëren van gegevenssets . Deze sectie bevat een lijst met eigenschappen die worden ondersteund door de HBase-gegevensset.

Als u gegevens uit HBase wilt kopiëren, stelt u de typeeigenschap van de gegevensset in op HBaseObject. De volgende eigenschappen worden ondersteund:

Eigendom Beschrijving Verplicht
soort / typen De typeeigenschap van de gegevensset moet worden ingesteld op: HBaseObject Ja
tableNaam Naam van de tabel. Nee (als 'query' in de activiteitsbron is opgegeven)

Voorbeeld

{
    "name": "HBaseDataset",
    "properties": {
        "type": "HBaseObject",
        "typeProperties": {},
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<HBase linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Eigenschappen van de kopieeractiviteit

Zie het artikel Pijplijnen voor een volledige lijst met secties en eigenschappen die beschikbaar zijn voor het definiëren van activiteiten. Deze sectie bevat een lijst met eigenschappen die worden ondersteund door de HBase-bron.

HBaseSource als bron

Als u gegevens uit HBase wilt kopiëren, stelt u het brontype in de kopieeractiviteit in op HBaseSource. De volgende eigenschappen worden ondersteund in de sectie bron van kopieeractiviteit:

Eigendom Beschrijving Verplicht
soort / typen De typeeigenschap van de bron van de kopieeractiviteit moet worden ingesteld op: HBaseSource Ja
query Gebruik de aangepaste SQL-query om gegevens te lezen. Voorbeeld: "SELECT * FROM MyTable". Nee (als 'tableName' in de gegevensset is opgegeven)

Voorbeeld:

"activities":[
    {
        "name": "CopyFromHBase",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<HBase input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "HBaseSource",
                "query": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Eigenschappen van opzoekactiviteit

Als u meer wilt weten over de eigenschappen, kijk dan naar de lookup-activiteit.

Zie ondersteunde gegevensarchieven voor een lijst met gegevensarchieven die worden ondersteund als bronnen en sinks door de kopieeractiviteit.