Sdílet prostřednictvím


Kopírování dat z Cassandra pomocí služby Azure Data Factory nebo Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Tento článek popisuje, jak pomocí aktivity kopírování v kanálu Azure Data Factory nebo Synapse Analytics kopírovat data z databáze Cassandra. Vychází z článku s přehledem aktivity kopírování, který představuje obecný přehled aktivity kopírování.

Podporované funkce

Tento konektor Cassandra je podporovaný pro následující funkce:

Podporované funkce IR
aktivita Copy (zdroj/-) (1) (2)
Aktivita Lookup (1) (2)

(1) Prostředí Azure Integration Runtime (2) Místní prostředí Integration Runtime

Seznam úložišť dat podporovaných jako zdroje nebo jímky najdete v tabulce Podporované úložiště dat.

Konkrétně tento konektor Cassandra podporuje:

  • Cassandra verze 2.x a 3.x.
  • Kopírování dat pomocí základního nebo anonymního ověřování

Poznámka:

Pro aktivitu spuštěnou v místním prostředí Integration Runtime se Cassandra 3.x podporuje, protože ir verze 3.7 a vyšší.

Požadavky

Pokud se vaše úložiště dat nachází uvnitř místní sítě, virtuální sítě Azure nebo amazonového privátního cloudu, musíte nakonfigurovat místní prostředí Integration Runtime pro připojení k němu.

Pokud je vaše úložiště dat spravovanou cloudovou datovou službou, můžete použít Azure Integration Runtime. Pokud je přístup omezený na IP adresy schválené v pravidlech brány firewall, můžete do seznamu povolených přidat IP adresy prostředí Azure Integration Runtime.

K přístupu k místní síti bez nutnosti instalace a konfigurace místního prostředí Integration Runtime můžete také použít funkci Runtime integrace spravované virtuální sítě ve službě Azure Data Factory.

Další informace o mechanismech zabezpečení sítě a možnostech podporovaných službou Data Factory najdete v tématu Strategie přístupu k datům.

Prostředí Integration Runtime poskytuje integrovaný ovladač Cassandra, takže při kopírování dat z/do Cassandra nemusíte ručně instalovat žádný ovladač.

Začínáme

K provedení aktivita Copy s kanálem můžete použít jeden z následujících nástrojů nebo sad SDK:

Vytvoření propojené služby do Cassandry pomocí uživatelského rozhraní

Pomocí následujících kroků vytvořte propojenou službu cassandře v uživatelském rozhraní webu Azure Portal.

  1. Přejděte na kartu Správa v pracovním prostoru Azure Data Factory nebo Synapse a vyberte Propojené služby a pak klikněte na Nový:

  2. Vyhledejte Cassandra a vyberte konektor Cassandra.

    Snímek obrazovky s konektorem Cassandra

  3. Nakonfigurujte podrobnosti o službě, otestujte připojení a vytvořte novou propojenou službu.

    Snímek obrazovky s konfigurací propojené služby pro Cassandru

Podrobnosti konfigurace konektoru

Následující části obsahují podrobnosti o vlastnostech, které slouží k definování entit služby Data Factory specifických pro konektor Cassandra.

Vlastnosti propojené služby

Propojená služba Cassandra podporuje následující vlastnosti:

Vlastnost Popis Povinní účastníci
type Vlastnost typu musí být nastavená na: Cassandra. Ano
host Nejméně jedna IP adresa nebo názvy hostitelů serverů Cassandra.
Zadejte čárkami oddělený seznam IP adres nebo názvů hostitelů pro připojení ke všem serverům současně.
Ano
port Port TCP, který server Cassandra používá k naslouchání klientským připojením. Ne (výchozí hodnota je 9042)
authenticationType Typ ověřování sloužící k připojení k databázi Cassandra
Povolené hodnoty jsou: Základní a Anonymní.
Ano
username Zadejte uživatelské jméno pro uživatelský účet. Ano, pokud je typ authenticationType nastavený na Basic.
Heslo Zadejte heslo pro uživatelský účet. Označte toto pole jako securestring, abyste ho mohli bezpečně uložit, nebo odkazovat na tajný klíč uložený ve službě Azure Key Vault. Ano, pokud je typ authenticationType nastavený na Basic.
connectVia Prostředí Integration Runtime , které se má použít pro připojení k úložišti dat. Další informace najdete v části Požadavky . Pokud není zadaný, použije výchozí prostředí Azure Integration Runtime. No

Poznámka:

Připojení k Cassandře pomocí protokolu TLS se v současné době nepodporuje.

Příklad:

{
    "name": "CassandraLinkedService",
    "properties": {
        "type": "Cassandra",
        "typeProperties": {
            "host": "<host>",
            "authenticationType": "Basic",
            "username": "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Vlastnosti datové sady

Úplný seznam oddílů a vlastností dostupných pro definování datových sad najdete v článku o datových sadách . Tato část obsahuje seznam vlastností podporovaných datovou sadou Cassandra.

Pokud chcete kopírovat data z Cassandra, nastavte vlastnost typu datové sady na CassandraTable. Podporují se následující vlastnosti:

Vlastnost Popis Povinní účastníci
type Vlastnost typu datové sady musí být nastavená na: CassandraTable. Ano
keyspace Název prostoru klíčů nebo schématu v databázi Cassandra Ne (pokud je zadán dotaz pro CassandraSource)
tableName Název tabulky v databázi Cassandra Ne (pokud je zadán dotaz pro CassandraSource)

Příklad:

{
    "name": "CassandraDataset",
    "properties": {
        "type": "CassandraTable",
        "typeProperties": {
            "keySpace": "<keyspace name>",
            "tableName": "<table name>"
        },
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Cassandra linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Vlastnosti aktivity kopírování

Úplný seznam oddílů a vlastností dostupných pro definování aktivit najdete v článku Pipelines . Tato část obsahuje seznam vlastností podporovaných zdrojem Cassandra.

Cassandra jako zdroj

Pokud chcete kopírovat data z Cassandra, nastavte typ zdroje v aktivitě kopírování na CassandraSource. Ve zdrojové části aktivity kopírování jsou podporovány následující vlastnosti:

Vlastnost Popis Povinní účastníci
type Vlastnost typu zdroje aktivity kopírování musí být nastavená na: CassandraSource. Ano
query Ke čtení dat použijte vlastní dotaz. Dotaz SQL-92 nebo dotaz CQL Viz referenční dokumentace jazyka CQL.

Při použití dotazu SQL zadejte název keyspace name.table představující tabulku, kterou chcete dotazovat.
Ne (pokud jsou v datové sadě zadány názvy tabulek a keyspace).
Úroveň konzistence Úroveň konzistence určuje, kolik replik musí odpovědět na požadavek na čtení před vrácením dat do klientské aplikace. Cassandra zkontroluje zadaný počet replik, aby data splňovala požadavek na čtení. Podrobnosti najdete v tématu Konfigurace konzistence dat.

Povolené hodnoty jsou: JEDNA, DVĚ, TŘI, KVORUM, VŠE, LOCAL_QUORUM, EACH_QUORUM a LOCAL_ONE.
Ne (výchozí hodnota je ONE)

Příklad:

"activities":[
    {
        "name": "CopyFromCassandra",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Cassandra input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "CassandraSource",
                "query": "select id, firstname, lastname from mykeyspace.mytable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Mapování datových typů pro Cassandra

Při kopírování dat z Cassandry se z datových typů Cassandra používají následující mapování k dočasným datovým typům používaným interně v rámci služby. Informace o tom, jak aktivita kopírování mapuje zdrojové schéma a datový typ na jímku, najdete v mapování schématu schématu a datového typu schématu schématu a datového typu.

Datový typ Cassandra Dočasný datový typ služby
ASCII String
BIGINT Int64
BLOB Bajt[]
BOOLEOVSKÝ Logické
DESETINNÝ Desetinné
DVOJITÝ Hodnota s dvojitou přesností
FLOAT Jeden
INET String
INT Int32
TEXT String
ČASOVÉ RAZÍTKO DateTime
TIMEUUID Guid
UUID Guid
VARCHAR String
VARINT Desetinné číslo

Poznámka:

Typy kolekcí (mapování, sada, seznam atd.) najdete v části Práce s kolekcemi Cassandra pomocí oddílu virtuální tabulky .

Uživatelem definované typy nejsou podporovány.

Délka délky binárního sloupce a řetězce sloupce nesmí být větší než 4 000.

Práce s kolekcemi pomocí virtuální tabulky

Služba používá integrovaný ovladač ODBC pro připojení k databázi Cassandra a kopírování dat z databáze Cassandra. U typů kolekcí, včetně mapování, sady a seznamu, ovladač přenormalizuje data do odpovídajících virtuálních tabulek. Konkrétně pokud tabulka obsahuje nějaké sloupce kolekce, ovladač vygeneruje následující virtuální tabulky:

  • Základní tabulka, která obsahuje stejná data jako skutečná tabulka s výjimkou sloupců kolekce. Základní tabulka používá stejný název jako skutečná tabulka, kterou představuje.
  • Virtuální tabulka pro každý sloupec kolekce, která rozbalí vnořená data. Virtuální tabulky, které představují kolekce, jsou pojmenovány pomocí názvu skutečné tabulky, oddělovače "vt" a názvu sloupce.

Virtuální tabulky odkazují na data v reálné tabulce a umožňují ovladači přístup k denormalizovaným datům. Podrobnosti najdete v části Příklad. K obsahu kolekcí Cassandra se dostanete dotazováním a spojením virtuálních tabulek.

Příklad

Například následující tabulka "ExampleTable" je tabulka databáze Cassandra, která obsahuje celočíselný sloupec primárního klíče s názvem "pk_int", textový sloupec s názvem hodnota, sloupec seznamu, sloupec mapy a nastavený sloupec (s názvem StringSet).

pk_int Hodnota List Mapovat StringSet
0 "ukázková hodnota 1" ["1", "2", "3"] {"S1": "a", "S2": "b"} {"A", "B", "C"}
3 "ukázková hodnota 3" ["100", "101", "102", "105"] {"S1": "t"} {"A", "E"}

Ovladač by vygeneroval několik virtuálních tabulek, které by představovaly tuto jedinou tabulku. Sloupce cizího klíče ve virtuálních tabulkách odkazují na sloupce primárního klíče v reálné tabulce a označují, který skutečný řádek tabulky odpovídá řádku virtuální tabulky.

První virtuální tabulka je základní tabulka s názvem ExampleTable zobrazená v následující tabulce:

pk_int Hodnota
0 "ukázková hodnota 1"
3 "ukázková hodnota 3"

Základní tabulka obsahuje stejná data jako původní tabulka databáze s výjimkou kolekcí, které nejsou z této tabulky vynechány a rozbalené v jiných virtuálních tabulkách.

Následující tabulky ukazují virtuální tabulky, které přenormalizují data ze sloupců List, Map a StringSet. Sloupce s názvy, které končí na "_index" nebo "_key", označují pozici dat v původním seznamu nebo mapě. Sloupce s názvy, které končí na "_value", obsahují rozbalená data z kolekce.

Tabulka "ExampleTable_vt_List":

pk_int List_index List_value
0 0 1
1 0 2
1 2 3
3 0 100
3 0 101
3 2 102
3 3 103

Tabulka "ExampleTable_vt_Map":

pk_int Map_key Map_value
0 S1 A
0 S2 b
3 S1 t

Tabulka "ExampleTable_vt_StringSet":

pk_int StringSet_value
0 A
0 T
0 C
3 A
3 E

Vlastnosti aktivity vyhledávání

Podrobnosti o vlastnostech najdete v aktivitě Vyhledávání.

Seznam úložišť dat podporovaných jako zdroje a jímky aktivitou kopírování najdete v podporovaných úložištích dat.