Kopiowanie danych z usługi Amazon RDS for Oracle przy użyciu usługi Azure Data Factory lub Azure Synapse Analytics

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule opisano sposób używania działania kopiowania w usłudze Azure Data Factory do kopiowania danych z bazy danych Amazon RDS for Oracle. Jest on oparty na omówieniu działania kopiowania.

Obsługiwane możliwości

Ten łącznik usługi Amazon RDS for Oracle jest obsługiwany w następujących funkcjach:

Obsługiwane możliwości IR
działanie Kopiuj (źródło/-) ① ②
Działanie Lookup ① ②

(1) Środowisko Azure Integration Runtime (2) Self-hosted Integration Runtime

Aby uzyskać listę magazynów danych obsługiwanych jako źródła lub ujścia przez działanie kopiowania, zobacz tabelę Obsługiwane magazyny danych.

W szczególności ten łącznik Amazon RDS for Oracle obsługuje następujące funkcje:

  • Następujące wersje bazy danych Amazon RDS for Oracle:
    • Amazon RDS for Oracle 19c R1 (19.1) i nowsze
    • Amazon RDS for Oracle 18c R1 (18.1) i nowsze
    • Amazon RDS for Oracle 12c R1 (12.1) i nowsze
    • Amazon RDS for Oracle 11g R1 (11.1) i nowsze
  • Równoległe kopiowanie z usługi Amazon RDS dla źródła Oracle. Aby uzyskać szczegółowe informacje, zobacz sekcję Równoległa kopia z usługi Amazon RDS for Oracle .

Uwaga

Usługa Amazon RDS dla serwera proxy Oracle nie jest obsługiwana.

Wymagania wstępne

Jeśli magazyn danych znajduje się wewnątrz sieci lokalnej, sieci wirtualnej platformy Azure lub chmury prywatnej Amazon Virtual, musisz skonfigurować własne środowisko Integration Runtime , aby się z nim połączyć.

Jeśli magazyn danych jest zarządzaną usługą danych w chmurze, możesz użyć środowiska Azure Integration Runtime. Jeśli dostęp jest ograniczony do adresów IP zatwierdzonych w regułach zapory, możesz dodać adresy IP środowiska Azure Integration Runtime do listy dozwolonych.

Możesz również użyć funkcji środowiska Integration Runtime zarządzanej sieci wirtualnej w usłudze Azure Data Factory, aby uzyskać dostęp do sieci lokalnej bez instalowania i konfigurowania własnego środowiska Integration Runtime.

Aby uzyskać więcej informacji na temat mechanizmów zabezpieczeń sieci i opcji obsługiwanych przez usługę Data Factory, zobacz Strategie dostępu do danych.

Środowisko Integration Runtime udostępnia wbudowany sterownik Amazon RDS for Oracle. W związku z tym nie trzeba ręcznie instalować sterownika podczas kopiowania danych z usługi Amazon RDS for Oracle.

Rozpocznij

Aby wykonać działanie Kopiuj za pomocą potoku, możesz użyć jednego z następujących narzędzi lub zestawów SDK:

Tworzenie połączonej usługi z usługą Amazon RDS for Oracle przy użyciu interfejsu użytkownika

Wykonaj poniższe kroki, aby utworzyć połączoną usługę z usługą Amazon RDS for Oracle w interfejsie użytkownika witryny Azure Portal.

  1. Przejdź do karty Zarządzanie w obszarze roboczym usługi Azure Data Factory lub Synapse i wybierz pozycję Połączone usługi, a następnie kliknij pozycję Nowy:

  2. Wyszukaj pozycję Amazon RDS for Oracle i wybierz łącznik Amazon RDS for Oracle.

    Screenshot of the Amazon RDS for Oracle connector.

  3. Skonfiguruj szczegóły usługi, przetestuj połączenie i utwórz nową połączoną usługę.

    Screenshot of linked service configuration for Amazon RDS for Oracle.

szczegóły konfiguracji Połączenie or

Poniższe sekcje zawierają szczegółowe informacje o właściwościach używanych do definiowania jednostek specyficznych dla łącznika usługi Amazon RDS for Oracle.

Właściwości połączonej usługi

Połączona usługa Amazon RDS for Oracle obsługuje następujące właściwości:

Właściwości Opis Wymagania
type Właściwość type musi być ustawiona na AmazonRdsForOracle. Tak
Parametry połączenia Określa informacje potrzebne do nawiązania połączenia z wystąpieniem usługi Amazon RDS for Oracle Database.
Możesz również umieścić hasło w usłudze Azure Key Vault i ściągnąć password konfigurację z parametry połączenia. Aby uzyskać więcej informacji, zapoznaj się z poniższymi przykładami i zapisz poświadczenia w usłudze Azure Key Vault .

Obsługiwany typ połączenia: Aby zidentyfikować bazę danych, możesz użyć usługi Amazon RDS dla identyfikatora SID oracle lub usługi Amazon RDS for Oracle Service Name :
- Jeśli używasz identyfikatora SID: Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>;
— Jeśli używasz nazwy usługi: Host=<host>;Port=<port>;ServiceName=<servicename>;User Id=<username>;Password=<password>;
Aby uzyskać zaawansowane opcje połączenia natywnego usługi Amazon RDS dla oracle, możesz dodać wpis w TNSNAMES. Plik ORA na serwerze Amazon RDS for Oracle i w usłudze Amazon RDS for Oracle połączonej usługi wybierz użycie usługi Amazon RDS dla typu połączenia Nazwa usługi Oracle i skonfiguruj odpowiednią nazwę usługi.
Tak
connectVia Środowisko Integration Runtime do nawiązania połączenia z magazynem danych. Dowiedz się więcej w sekcji Wymagania wstępne . Jeśli nie zostanie określony, zostanie użyte domyślne środowisko Azure Integration Runtime. Nie.

Jeśli masz wiele wystąpień usługi Amazon RDS dla oracle dla scenariusza trybu failover, możesz utworzyć usługę połączoną Amazon RDS dla oracle i wypełnić hosta podstawowego, port, nazwę użytkownika, hasło itp., a następnie dodać nowe "Dodatkowe właściwości połączenia" z nazwą właściwości jako AlternateServers i wartością jako (HostName=<secondary host>:PortNumber=<secondary port>:ServiceName=<secondary service name>) — nie pomijaj nawiasów i zwracaj uwagę na dwukropki (:) jako separator. Na przykład następująca wartość alternatywnych serwerów definiuje dwa alternatywne serwery bazy danych na potrzeby trybu failover połączenia: (HostName=AccountingAmazonRdsForOracleServer:PortNumber=1521:SID=Accounting,HostName=255.201.11.24:PortNumber=1522:ServiceName=ABackup.NA.MyCompany).

Więcej właściwości połączenia, które można ustawić w parametry połączenia w zależności od przypadku:

Właściwości opis Dozwolone wartości
ArraySize Liczba bajtów, które łącznik może pobrać w ramach jednej rundy sieciowej. Na przykład ArraySize=‭10485760‬.

Większe wartości zwiększają przepływność, zmniejszając liczbę prób pobierania danych w sieci. Mniejsze wartości zwiększają czas odpowiedzi, ponieważ istnieje mniejsze opóźnienie oczekiwania na przesyłanie danych przez serwer.
Liczba całkowita z zakresu od 1 do 4294967296 (4 GB). Wartość domyślna to 60000. Wartość 1 nie definiuje liczby bajtów, ale wskazuje przydzielanie miejsca dla dokładnie jednego wiersza danych.

Aby włączyć szyfrowanie w usłudze Amazon RDS dla połączenia Oracle, dostępne są dwie opcje:

  • Aby użyć szyfrowania Triple-DES (3DES) i Advanced Encryption Standard (AES), po stronie serwera Amazon RDS for Oracle przejdź do obszaru Oracle Advanced Security (OAS) i skonfiguruj ustawienia szyfrowania. Aby uzyskać szczegółowe informacje, zobacz tę dokumentację oracle. Łącznik Amazon RDS for Oracle Application Development Framework (ADF) automatycznie negocjuje metodę szyfrowania, aby użyć metody szyfrowania skonfigurowanej w systemie operacyjnym podczas nawiązywania połączenia z usługą Amazon RDS for Oracle.

  • Aby użyć protokołu TLS:

    1. Uzyskaj informacje o certyfikacie TLS/SSL. Pobierz informacje o certyfikatach zakodowanych w formacie DER (Distinguished Encoding Rules) certyfikatu TLS/SSL i zapisz dane wyjściowe (----- Begin Certificate ... Zakończ ----- certyfikatu) jako plik tekstowy.

      openssl x509 -inform DER -in [Full Path to the DER Certificate including the name of the DER Certificate] -text
      

      Przykład: Wyodrębnij informacje o certyfikatie z pliku DERcert.cer, a następnie zapisz dane wyjściowe w pliku cert.txt.

      openssl x509 -inform DER -in DERcert.cer -text
      Output:
      -----BEGIN CERTIFICATE-----
      XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
      XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
      XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
      XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
      XXXXXXXXX
      -----END CERTIFICATE-----
      
    2. Skompiluj element keystore lub truststore. Następujące polecenie tworzy truststore plik w formacie PKCS-12 lub bez hasła.

      openssl pkcs12 -in [Path to the file created in the previous step] -out [Path and name of TrustStore] -passout pass:[Keystore PWD] -nokeys -export
      

      Przykład: utwórz plik PKCS12 truststore o nazwie MyTrustStoreFile z hasłem.

      openssl pkcs12 -in cert.txt -out MyTrustStoreFile -passout pass:ThePWD -nokeys -export  
      
    3. truststore Umieść plik na maszynie własnego środowiska IR. Na przykład umieść plik w folderze C:\MyTrustStoreFile.

    4. W usłudze skonfiguruj usługę Amazon RDS for Oracle parametry połączenia i EncryptionMethod=1 odpowiednią TrustStore/TrustStorePasswordwartość. Na przykład Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>;EncryptionMethod=1;TrustStore=C:\\MyTrustStoreFile;TrustStorePassword=<trust_store_password>.

Przykład:

{
    "name": "AmazonRdsForOracleLinkedService",
    "properties": {
        "type": "AmazonRdsForOracle",
        "typeProperties": {
            "connectionString": "Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;Password=<password>;"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Przykład: przechowywanie hasła w usłudze Azure Key Vault

{
    "name": "AmazonRdsForOracleLinkedService",
    "properties": {
        "type": "AmazonRdsForOracle",
        "typeProperties": {
            "connectionString": "Host=<host>;Port=<port>;Sid=<sid>;User Id=<username>;",
            "password": { 
                "type": "AzureKeyVaultSecret", 
                "store": { 
                    "referenceName": "<Azure Key Vault linked service name>", 
                    "type": "LinkedServiceReference" 
                }, 
                "secretName": "<secretName>" 
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Właściwości zestawu danych

Ta sekcja zawiera listę właściwości obsługiwanych przez zestaw danych Amazon RDS for Oracle. Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania zestawów danych, zobacz Zestawy danych.

Aby skopiować dane z usługi Amazon RDS for Oracle, ustaw właściwość type zestawu danych na AmazonRdsForOracleTablewartość . Obsługiwane są następujące właściwości.

Właściwości Opis Wymagania
type Właściwość type zestawu danych musi być ustawiona na AmazonRdsForOracleTable. Tak
schema Nazwa schematu. Nie.
table Nazwa tabeli/widoku. Nie.
tableName Nazwa tabeli/widoku ze schematem. Ta właściwość jest obsługiwana w celu zapewnienia zgodności z poprzednimi wersjami. W przypadku nowego obciążenia użyj polecenia schema i table. Nie.

Przykład:

{
    "name": "AmazonRdsForOracleDataset",
    "properties":
    {
        "type": "AmazonRdsForOracleTable",
        "schema": [],
        "typeProperties": {
            "schema": "<schema_name>",
            "table": "<table_name>"
        },
        "linkedServiceName": {
            "referenceName": "<Amazon RDS for Oracle linked service name>",
            "type": "LinkedServiceReference"
        }
    }
}

Właściwości działania kopiowania

Ta sekcja zawiera listę właściwości obsługiwanych przez usługę Amazon RDS dla źródła Oracle. Aby uzyskać pełną listę sekcji i właściwości dostępnych do definiowania działań, zobacz Pipelines (Potoki).

Amazon RDS for Oracle jako źródło

Napiwek

Aby wydajnie załadować dane z usługi Amazon RDS for Oracle przy użyciu partycjonowania danych, dowiedz się więcej na temat kopiowania równoległego z usługi Amazon RDS for Oracle.

Aby skopiować dane z usługi Amazon RDS for Oracle, ustaw typ źródła w działaniu kopiowania na AmazonRdsForOracleSourcewartość . Poniższe właściwości są obsługiwane w sekcji źródła działania kopiowania.

Właściwości Opis Wymagania
type Właściwość type źródła działania kopiowania musi być ustawiona na AmazonRdsForOracleSourcewartość . Tak
oracleReaderQuery Użyj niestandardowego zapytania SQL, aby odczytać dane. Może to być na przykład "SELECT * FROM MyTable".
Po włączeniu obciążenia partycjonowanego należy podłączyć wszystkie odpowiednie wbudowane parametry partycji w zapytaniu. Aby zapoznać się z przykładami, zobacz sekcję Kopia równoległa z usługi Amazon RDS for Oracle .
Nie.
partitionOptions Określa opcje partycjonowania danych używane do ładowania danych z usługi Amazon RDS for Oracle.
Dozwolone wartości to: Brak (wartość domyślna), PhysicalPartitionsOfTable i DynamicRange.
Jeśli opcja partycji jest włączona (czyli nie None), stopień równoległości równoczesnego ładowania danych z bazy danych Amazon RDS for Oracle jest kontrolowany przez parallelCopies ustawienie działania kopiowania.
Nie.
partycja Ustawienia Określ grupę ustawień partycjonowania danych.
Zastosuj, gdy opcja partycji nie Nonejest .
Nie.
partitionNames Lista partycji fizycznych, które należy skopiować.
Zastosuj, gdy opcja partycji to PhysicalPartitionsOfTable. Jeśli używasz zapytania do pobierania danych źródłowych, należy podłączyć ?AdfTabularPartitionName się do klauzuli WHERE. Aby zapoznać się z przykładem, zobacz sekcję Kopia równoległa z usługi Amazon RDS for Oracle .
Nie.
partitionColumnName Określ nazwę kolumny źródłowej w typie liczb całkowitych, które będą używane przez partycjonowanie zakresu na potrzeby kopiowania równoległego. Jeśli nie zostanie określony, klucz podstawowy tabeli zostanie automatycznie wykryty i użyty jako kolumna partycji.
Zastosuj, gdy opcja partycji to DynamicRange. Jeśli używasz zapytania do pobierania danych źródłowych, należy podłączyć ?AdfRangePartitionColumnName się do klauzuli WHERE. Aby zapoznać się z przykładem, zobacz sekcję Kopia równoległa z usługi Amazon RDS for Oracle .
Nie.
partitionUpperBound Maksymalna wartość kolumny partycji do skopiowania danych.
Zastosuj, gdy opcja partycji to DynamicRange. Jeśli używasz zapytania do pobierania danych źródłowych, należy podłączyć ?AdfRangePartitionUpbound się do klauzuli WHERE. Aby zapoznać się z przykładem, zobacz sekcję Kopia równoległa z usługi Amazon RDS for Oracle .
Nie.
partitionLowerBound Minimalna wartość kolumny partycji do skopiowania danych.
Zastosuj, gdy opcja partycji to DynamicRange. Jeśli używasz zapytania do pobierania danych źródłowych, należy podłączyć ?AdfRangePartitionLowbound się do klauzuli WHERE. Aby zapoznać się z przykładem, zobacz sekcję Kopia równoległa z usługi Amazon RDS for Oracle .
Nie.

Przykład: kopiowanie danych przy użyciu zapytania podstawowego bez partycji

"activities":[
    {
        "name": "CopyFromAmazonRdsForOracle",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<Amazon RDS for Oracle input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "AmazonRdsForOracleSource",
                "oracleReaderQuery": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

Kopiowanie równoległe z usługi Amazon RDS for Oracle

Łącznik Amazon RDS for Oracle zapewnia wbudowane partycjonowanie danych w celu równoległego kopiowania danych z usługi Amazon RDS for Oracle. Opcje partycjonowania danych można znaleźć na karcie Źródło działania kopiowania.

Screenshot of partition options.

Po włączeniu kopii partycjonowanej usługa uruchamia zapytania równoległe względem źródła usługi Amazon RDS for Oracle w celu załadowania danych według partycji. Stopień równoległy jest kontrolowany przez parallelCopies ustawienie działania kopiowania. Jeśli na przykład ustawiono parallelCopies wartość cztery, usługa jednocześnie generuje i uruchamia cztery zapytania na podstawie określonej opcji partycji i ustawień, a każde zapytanie pobiera część danych z bazy danych Amazon RDS for Oracle.

Zaleca się włączenie kopiowania równoległego z partycjonowaniem danych, szczególnie w przypadku ładowania dużej ilości danych z bazy danych Amazon RDS for Oracle. Poniżej przedstawiono sugerowane konfiguracje dla różnych scenariuszy. Podczas kopiowania danych do magazynu danych opartego na plikach zaleca się zapisanie w folderze jako wielu plików (tylko określ nazwę folderu), w tym przypadku wydajność jest lepsza niż zapisywanie w jednym pliku.

Scenariusz Sugerowane ustawienia
Pełne ładowanie z dużej tabeli z partycjami fizycznymi. Opcja partycji: fizyczne partycje tabeli.

Podczas wykonywania usługa automatycznie wykrywa partycje fizyczne i kopiuje dane według partycji.
Pełne ładowanie z dużej tabeli, bez partycji fizycznych, podczas gdy z kolumną całkowitą na potrzeby partycjonowania danych. Opcje partycji: partycja zakresu dynamicznego.
Kolumna partycji: określ kolumnę używaną do partycjonowania danych. Jeśli nie zostanie określona, zostanie użyta kolumna klucza podstawowego.
Załaduj dużą ilość danych przy użyciu zapytania niestandardowego z partycjami fizycznymi. Opcja partycji: fizyczne partycje tabeli.
Zapytanie: SELECT * FROM <TABLENAME> PARTITION("?AdfTabularPartitionName") WHERE <your_additional_where_clause>.
Nazwa partycji: określ nazwy partycji do skopiowania danych. Jeśli nie zostanie określony, usługa automatycznie wykryje partycje fizyczne w tabeli określonej w zestawie danych Amazon RDS for Oracle.

Podczas wykonywania usługa zastępuje ?AdfTabularPartitionName rzeczywistą nazwę partycji i wysyła do usługi Amazon RDS for Oracle.
Załaduj dużą ilość danych przy użyciu zapytania niestandardowego, bez partycji fizycznych, natomiast z kolumną całkowitą na potrzeby partycjonowania danych. Opcje partycji: partycja zakresu dynamicznego.
Zapytanie: SELECT * FROM <TABLENAME> WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause>.
Kolumna partycji: określ kolumnę używaną do partycjonowania danych. Kolumnę można podzielić na partycje przy użyciu typu danych całkowitych.
Górna granica partycji i dolna granica partycji: określ, czy chcesz filtrować względem kolumny partycji, aby pobrać dane tylko między dolnym i górnym zakresem.

Podczas wykonywania usługa zastępuje ?AdfRangePartitionColumnNamewartości , ?AdfRangePartitionUpboundi ?AdfRangePartitionLowbound rzeczywistymi nazwami kolumn i zakresami wartości dla każdej partycji oraz wysyła do usługi Amazon RDS for Oracle.
Jeśli na przykład kolumna partycji "ID" jest ustawiona z dolną granicą jako 1 i górną granicą jako 80, z równoległym zestawem kopiowania ustawionym na 4, usługa pobiera dane przez 4 partycje. Ich identyfikatory to odpowiednio od [1, 20], [21, 40], [41, 60] i [61, 80].

Napiwek

Podczas kopiowania danych z tabeli bez partycji można użyć opcji partycji "Zakres dynamiczny", aby podzielić je na kolumnę całkowitą. Jeśli dane źródłowe nie mają takiego typu kolumny, możesz użyć funkcji ORA_HASH w zapytaniu źródłowym, aby wygenerować kolumnę i użyć jej jako kolumny partycji.

Przykład: zapytanie z partycją fizyczną

"source": {
    "type": "AmazonRdsForOracleSource",
    "query": "SELECT * FROM <TABLENAME> PARTITION(\"?AdfTabularPartitionName\") WHERE <your_additional_where_clause>",
    "partitionOption": "PhysicalPartitionsOfTable",
    "partitionSettings": {
        "partitionNames": [
            "<partitionA_name>",
            "<partitionB_name>"
        ]
    }
}

Przykład: zapytanie z partycją zakresu dynamicznego

"source": {
    "type": "AmazonRdsForOracleSource",
    "query": "SELECT * FROM <TABLENAME> WHERE ?AdfRangePartitionColumnName <= ?AdfRangePartitionUpbound AND ?AdfRangePartitionColumnName >= ?AdfRangePartitionLowbound AND <your_additional_where_clause>",
    "partitionOption": "DynamicRange",
    "partitionSettings": {
        "partitionColumnName": "<partition_column_name>",
        "partitionUpperBound": "<upper_value_of_partition_column>",
        "partitionLowerBound": "<lower_value_of_partition_column>"
    }
}

Właściwości działania wyszukiwania

Aby dowiedzieć się więcej o właściwościach, sprawdź działanie Wyszukiwania.

Aby uzyskać listę magazynów danych obsługiwanych jako źródła i ujścia działania kopiowania, zobacz Obsługiwane magazyny danych.