Udostępnij za pośrednictwem


Kopiowanie danych z platformy Greenplum przy użyciu usługi Azure Data Factory lub Synapse Analytics

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule opisano sposób użycia działania kopiowania w potoku usługi Azure Data Factory lub Synapse Analytics w celu skopiowania danych z rozwiązania Greenplum. Jest on oparty na artykule omówienie działania kopiowania, który przedstawia ogólne omówienie działania kopiowania.

Ważne

Łącznik Greenplum w wersji 2.0 zapewnia ulepszoną natywną obsługę aplikacji Greenplum. Jeśli używasz łącznika Greenplum w wersji 1.0 w rozwiązaniu, uaktualnij łącznik Greenplum przed 31 sierpnia 2025 r. Zapoznaj się z tą sekcją , aby uzyskać szczegółowe informacje na temat różnic między wersją 2.0 a wersją 1.0.

Obsługiwane możliwości

Ten łącznik Greenplum jest obsługiwany w następujących funkcjach:

Obsługiwane możliwości IR
działanie Kopiuj (źródło/-) (1) (2)
Działanie Lookup (1) (2)

(1) Środowisko Azure Integration Runtime (2) Self-hosted Integration Runtime

Aby uzyskać listę magazynów danych obsługiwanych jako źródła/ujścia przez działanie kopiowania, zobacz tabelę Obsługiwane magazyny danych.

Usługa udostępnia wbudowany sterownik umożliwiający łączność, dlatego nie trzeba ręcznie instalować żadnego sterownika przy użyciu tego łącznika.

Wymagania wstępne

Jeśli magazyn danych znajduje się w sieci lokalnej, wirtualnej sieci Azure lub w Amazon Virtual Private Cloud, musisz skonfigurować samodzielnie hostowane środowisko Integration Runtime, aby się z nim połączyć.

Jeśli magazyn danych jest zarządzaną usługą danych w chmurze, możesz użyć środowiska Azure Integration Runtime. Jeśli dostęp jest ograniczony do adresów IP zatwierdzonych w regułach zapory, możesz dodać adresy IP środowiska Azure Integration Runtime do listy dozwolonych.

Możesz również użyć funkcji zarządzanego środowiska uruchomieniowego integracji z wirtualną siecią w usłudze Azure Data Factory, aby uzyskać dostęp do sieci lokalnej bez instalowania i konfigurowania lokalnego środowiska uruchomieniowego integracji.

Aby uzyskać więcej informacji na temat mechanizmów zabezpieczeń sieci i opcji obsługiwanych przez usługę Data Factory, zobacz Strategie dostępu do danych.

Wprowadzenie

Aby wykonać działanie Kopiuj za pomocą potoku, możesz użyć jednego z następujących narzędzi lub zestawów SDK:

Tworzenie połączonej usługi z aplikacją Greenplum przy użyciu interfejsu użytkownika

Wykonaj poniższe kroki, aby utworzyć połączoną usługę z aplikacją Greenplum w interfejsie użytkownika witryny Azure Portal.

  1. Przejdź do karty Zarządzanie w obszarze roboczym usługi Azure Data Factory lub Synapse i wybierz pozycję Połączone usługi, a następnie kliknij pozycję Nowy:

  2. Wyszukaj Greenplum i wybierz konektor Greenplum.

    Zrzut ekranu przedstawiający łącznik Greenplum.

  3. Skonfiguruj szczegóły usługi, przetestuj połączenie i utwórz nową połączoną usługę.

    Zrzut ekranu przedstawiający połączoną konfigurację usługi dla aplikacji Greenplum.

Szczegóły konfiguracji łącznika

Poniższe sekcje zawierają szczegółowe informacje o właściwościach używanych do definiowania jednostek usługi Data Factory specyficznych dla łącznika Greenplum.

Właściwości połączonej usługi

Łącznik Greenplum obsługuje teraz wersję 2.0. Zapoznaj się z tą sekcją , aby uaktualnić wersję łącznika Greenplum z wersji 1.0. Aby uzyskać informacje szczegółowe dotyczące nieruchomości, zobacz odpowiednie sekcje.

Wersja 2.0

Połączona usługa Greenplum obsługuje następujące właściwości w przypadku zastosowania wersji 2.0:

Własność Opis Wymagane
typ Właściwość type musi być ustawiona na: Greenplum Tak
wersja Wersja, którą określisz. Wartość to 2.0. Tak
gospodarz Określa nazwę hosta — i opcjonalnie port — na którym jest uruchomiona baza danych. Tak
port Port TCP serwera bazy danych. Wartość domyślna to 5432. Nie.
baza danych Baza danych, z którą należy się połączyć. Tak
nazwa użytkownika Nazwa użytkownika do nawiązania połączenia. Nie jest wymagane w przypadku używania funkcji IntegratedSecurity. Tak
hasło Hasło do nawiązania połączenia. Nie jest wymagane w przypadku używania funkcji IntegratedSecurity. Oznacz to pole jako SecureString , aby bezpiecznie je przechowywać. Możesz też odwołać się do wpisu tajnego przechowywanego w usłudze Azure Key Vault. Tak
tryb SSL Określa, czy protokół SSL jest używany, w zależności od obsługi serwera.
- Wyłącz: protokół SSL jest wyłączony. Jeśli serwer wymaga protokołu SSL, połączenie zakończy się niepowodzeniem.
- Zezwalaj: preferuj połączenia inne niż SSL, jeśli zezwala na nie serwer, ale zezwalaj na połączenia SSL.
- Preferuj: Preferuj połączenia SSL, jeśli serwer zezwala na nie, ale zezwalaj na połączenia bez protokołu SSL.
- Wymagaj: Przerwij próbę połączenia, jeśli serwer nie obsługuje SSL.
- Verify-ca: Nie można nawiązać połączenia, jeśli serwer nie obsługuje protokołu SSL. Sprawdza również certyfikat serwera.
- Weryfikacja pełna: Nie można nawiązać połączenia, jeśli serwer nie obsługuje protokołu SSL. Sprawdza również certyfikat serwera z nazwą hosta.
Opcje: Wyłącz (0) / Zezwalaj (1) / Preferuj (2) / Wymagaj (3) (ustawienie domyślne) / Verify-ca (4) / Verify-full (5)
Tak
typ uwierzytelniania Typ uwierzytelniania na potrzeby nawiązywania połączenia z bazą danych. Obsługuje tylko warstwę Podstawowa. Tak
connectVia Środowisko Integration Runtime, którego używa się do połączenia z magazynem danych. Dowiedz się więcej w sekcji Wymagania wstępne . Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. Nie.
Dodatkowe właściwości połączenia:
czas oczekiwania na połączenie Czas oczekiwania (w sekundach) podczas próby nawiązania połączenia przed zakończeniem próby i wygenerowaniem błędu. Wartość domyślna to 15. Nie.
Limit czasu wykonywania polecenia Czas oczekiwania (w sekundach) podczas próby wykonania polecenia przed zakończeniem próby i wygenerowaniem błędu. Ustaw wartość zero dla nieskończoności. Wartość domyślna to 30. Nie.

Przykład:

{
    "name": "GreenplumLinkedService",
    "properties": {
        "type": "Greenplum",
        "version": "2.0",
        "typeProperties": {
            "host": "<host>",
            "port": 5432,
            "database": "<database>",
            "username": "<username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            },
            "sslMode": <sslmode>,
            "authenticationType": "Basic"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Przykład: przechowywanie hasła w usłudze Azure Key Vault

{
    "name": "GreenplumLinkedService",
    "properties": {
        "type": "Greenplum",
        "version": "2.0",
        "typeProperties": {
            "host": "<host>",
            "port": 5432,
            "database": "<database>",
            "username": "<username>",
            "password": { 
                "type": "AzureKeyVaultSecret", 
                "store": { 
                    "referenceName": "<Azure Key Vault linked service name>", 
                    "type": "LinkedServiceReference" 
                }, 
                "secretName": "<secretName>" 
            },
            "sslMode": <sslmode>,
            "authenticationType": "Basic"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Wersja 1.0

Połączona usługa Greenplum obsługuje następujące właściwości w przypadku zastosowania wersji 1.0:

Własność Opis Wymagane
typ Właściwość type musi być ustawiona na: Greenplum Tak
Parametry połączenia Parametr połączenia ODBC do połączenia z Greenplum.
Możesz również umieścić hasło w usłudze Azure Key Vault i wyciągnąć konfigurację pwd z łańcucha połączenia. Zapoznaj się z poniższymi przykładami i artykułem Store credentials in Azure Key Vault (Przechowywanie poświadczeń w usłudze Azure Key Vault ), aby uzyskać więcej szczegółów.
Tak
connectVia Środowisko Integration Runtime, którego używa się do połączenia z magazynem danych. Dowiedz się więcej w sekcji Wymagania wstępne . Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. Nie.

Przykład:

{
    "name": "GreenplumLinkedService",
    "properties": {
        "type": "Greenplum",
        "typeProperties": {
            "connectionString": "HOST=<server>;PORT=<port>;DB=<database>;UID=<user name>;PWD=<password>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Przykład: przechowywanie hasła w usłudze Azure Key Vault

{
    "name": "GreenplumLinkedService",
    "properties": {
        "type": "Greenplum",
        "typeProperties": {
            "connectionString": "HOST=<server>;PORT=<port>;DB=<database>;UID=<user name>;",
            "pwd": { 
                "type": "AzureKeyVaultSecret", 
                "store": { 
                    "referenceName": "<Azure Key Vault linked service name>", 
                    "type": "LinkedServiceReference" 
                }, 
                "secretName": "<secretName>" 
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Właściwości zestawu danych

Pełna lista sekcji i właściwości dostępnych do definiowania zestawów danych znajduje się w artykule dotyczącym zestawów danych. Ta sekcja zawiera listę właściwości obsługiwanych przez zestaw danych Greenplum.

Aby skopiować dane z greenplum, ustaw właściwość type zestawu danych na GreenplumTable. Obsługiwane są następujące właściwości:

Własność Opis Wymagane
typ Właściwość type zestawu danych musi być ustawiona na: GreenplumTable Tak
schemat Nazwa schematu. Nie (jeśli określono "zapytanie" w źródle działania)
stół Nazwa tabeli. Nie (jeśli określono "zapytanie" w źródle działania)
nazwaTabeli Nazwa tabeli z schematu. Ta właściwość jest obsługiwana w celu zapewnienia zgodności z poprzednimi wersjami. Użyj schema i table dla nowego obciążenia. Nie (jeśli określono "zapytanie" w źródle działania)

Przykład

{
    "name": "GreenplumDataset",
    "properties": {
        "type": "GreenplumTable",
        "typeProperties": {},
        "schema": [],
        "linkedServiceName": {
            "referenceName": "<Greenplum linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Właściwości działania kopiowania

Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania działań, zobacz artykuł Pipelines. Ta sekcja zawiera listę właściwości obsługiwanych przez źródło Greenplum.

GreenplumSource jako źródło

Aby skopiować dane z greenplum, ustaw typ źródła w działaniu kopiowania na GreenplumSource. Następujące właściwości są obsługiwane w sekcji źródła działania kopiowania:

Własność Opis Wymagane
typ Właściwość type źródła działania kopiowania musi być ustawiona na: GreenplumSource Tak
zapytanie Użyj niestandardowego zapytania SQL, aby odczytać dane. Na przykład: "SELECT * FROM MyTable". Nie (jeśli "tableName" jest określony w zestawie danych)

Przykład:

"activities":[
    {
        "name": "CopyFromGreenplum",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Greenplum input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "GreenplumSource",
                "query": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Mapowanie typów danych dla greenplum

Podczas kopiowania danych z Greenplum obowiązują następujące mapowania z typów danych Greenplum do typów danych wewnętrznych używanych przez usługę. Aby dowiedzieć się, jak działanie kopiowania mapuje schemat źródłowy i typ danych na docelowy, zobacz Mapowanie schematu i typu danych.

Typ danych Greenplum Typ danych usługi tymczasowej (wersja 2.0) Typ danych usługi tymczasowej (wersja 1.0)
SmallInt Int16 Int16
Liczba całkowita Int32 Int32
BigInt Int64 Int64
Liczba dziesiętna (precyzja <= 28) Liczba dziesiętna Liczba dziesiętna
Liczba dziesiętna (precyzja > 28) Liczba dziesiętna Sznurek
Liczbowy Liczba dziesiętna Liczba dziesiętna
Rzeczywisty Singiel Singiel
Podwójny Podwójny Podwójny
SmallSerial Int16 Int16
Seryjny Int32 Int32
BigSerial Int64 Int64
Pieniądze Liczba dziesiętna Sznurek
Char Sznurek Sznurek
Varchar Sznurek Sznurek
Tekst Sznurek Sznurek
Bajt Bajt[] Bajt[]
Sygnatura czasowa Data i Czas Data i Czas
Sygnatura czasowa ze strefą czasową PrzesunięcieDatyICzasu Sznurek
Data kalendarzowa Data kalendarzowa Data i Czas
Czas Przedział czasu Przedział czasu
Czas wraz ze strefą czasową PrzesunięcieDatyICzasu Sznurek
Odstęp Przedział czasu Sznurek
Boolowski Boolowski Boolowski
Punkt Sznurek Sznurek
Linia Sznurek Sznurek
Iseg Sznurek Sznurek
Pudełko Sznurek Sznurek
Ścieżka Sznurek Sznurek
Wielokąt Sznurek Sznurek
Koło Sznurek Sznurek
Cidr Sznurek Sznurek
Zestaw inet Sznurek Sznurek
Macaddr Sznurek Sznurek
Macaddr8 Sznurek Sznurek
Wektor Ts-vector Sznurek Sznurek
Tsquery Sznurek Sznurek
Identyfikator UUID Przewodnik Przewodnik
Json Sznurek Sznurek
Jsonb Sznurek Sznurek
Tablica Sznurek Sznurek
Bit Bajt[] Bajt[]
Bitowe różnice Bajt[] Bajt[]
XML Sznurek Sznurek
IntArray (Tablica Int) Sznurek Sznurek
TextArray Sznurek Sznurek
NumericArray Sznurek Sznurek
DateArray Sznurek Sznurek
Zakres Sznurek Sznurek
Bpchar Sznurek Sznurek

Właściwości działania wyszukiwania

Aby dowiedzieć się więcej o właściwościach, sprawdź aktywność wyszukiwania.

Uaktualnianie łącznika Greenplum

Poniżej przedstawiono kroki ułatwiające uaktualnienie łącznika Greenplum:

  1. Na stronie Edytowanie połączonej usługi wybierz wersję 2.0 i skonfiguruj połączoną usługę, odwołując się do właściwości połączonej usługi w wersji 2.0.

  2. Mapowanie typu danych dla połączonej usługi Greenplum w wersji 2.0 różni się od tego dla wersji 1.0. Aby dowiedzieć się więcej na temat najnowszego mapowania typów danych, zobacz Mapowanie typów danych dla greenplum.

Różnice między wersją Greenplum w wersji 2.0 a wersją 1.0

Łącznik Greenplum w wersji 2.0 oferuje nowe funkcje i jest zgodny z większością funkcji wersji 1.0. W poniższej tabeli przedstawiono różnice funkcji między wersją 2.0 a wersją 1.0.

Wersja 2.0 Wersja 1.0
Do mapowania z typów danych Greenplum na tymczasowy typ danych usługi używa się następujących zasad.

Liczba dziesiętna (precyzja > 28) —> liczba dziesiętna
Pieniądze —> liczba dziesiętna
Znacznik czasu ze strefą czasową —> DateTimeOffset
Godzina ze strefą czasową —> DateTimeOffset
Interwał —> przedział czasu
Do mapowania z typów danych Greenplum na tymczasowy typ danych usługi używa się następujących zasad.

Liczba dziesiętna (precyzja > 28) —> ciąg
Pieniądze —> string
Sygnatura czasowa ze strefą czasową ->String
Czas ze strefą czasową —> łańcuch znaków
Interwał —> ciąg

Aby uzyskać listę magazynów danych obsługiwanych jako źródła i ujścia działania kopiowania, zobacz obsługiwane magazyny danych.