Infrastruktura Integration Runtime w usłudze Azure Data Factory

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Integration Runtime (IR) to infrastruktura obliczeniowa używana przez potoki Azure Data Factory i Azure Synapse w celu zapewnienia następujących możliwości integracji danych w różnych środowiskach sieciowych:

  • Przepływ danych: wykonaj Przepływ danych w zarządzanym środowisku obliczeniowym platformy Azure.
  • Przenoszenie danych: kopiowanie danych między magazynami danych w sieciach publicznych lub prywatnych (zarówno w przypadku sieci lokalnych, jak i wirtualnych). Usługa zapewnia obsługę wbudowanych łączników, konwersji formatu, mapowania kolumn oraz wydajnego i skalowalnego transferu danych.
  • Wysyłanie działań: wysyłanie i monitorowanie działań przekształcania działających w różnych usługach obliczeniowych, takich jak Azure Databricks, Azure HDInsight, ML Studio (wersja klasyczna), Azure SQL Database, SQL Server i nie tylko.
  • Wykonanie pakietów SSIS: natywne wykonywanie pakietów SQL Server Integration Services (SSIS) w zarządzanym środowisku obliczeniowym platformy Azure.

W potokach usługi Data Factory i Synapse działanie definiuje akcję do wykonania. Połączona usługa definiuje docelowy magazyn danych lub usługę obliczeniową. Środowisko Integration Runtime zapewnia most między działaniami i połączonymi usługami. Odwołuje się do niej połączona usługa lub działanie i udostępnia środowisko obliczeniowe, w którym działanie jest uruchamiane bezpośrednio lub wysyłane. Dzięki temu działanie można wykonać w najbliższym możliwym regionie docelowym magazynie danych lub usłudze obliczeniowej w celu zmaksymalizowania wydajności, a jednocześnie zapewnić elastyczność w celu spełnienia wymagań dotyczących zabezpieczeń i zgodności.

Środowiska Integration Runtime można tworzyć w interfejsie użytkownika Azure Data Factory i Azure Synapse za pośrednictwem centrum zarządzania bezpośrednio, a także z dowolnych działań, zestawów danych lub przepływów danych, które się do nich odwołują.

Typy infrastruktury Integration Runtime

Usługa Data Factory oferuje trzy typy Integration Runtime (IR) i należy wybrać typ, który najlepiej obsługuje możliwości integracji danych i wymagania dotyczące środowiska sieciowego. Trzy typy środowiska IR to:

  • Azure
  • Samodzielny hosting
  • Azure-SSIS

Uwaga

Potoki usługi Synapse obsługują obecnie tylko środowiska Azure lub własne środowiska Integration Runtime.

W poniższej tabeli opisano możliwości i obsługę sieci dla każdego typu infrastruktury Integration Runtime:

Typ IR Obsługa sieci publicznej pomoc techniczna Private Link
Azure Przepływ danych
Przenoszenie danych
Wysyłanie działania
Przepływ danych
Przenoszenie danych
Wysyłanie działania
Samodzielny hosting Przenoszenie danych
Wysyłanie działania
Przenoszenie danych
Wysyłanie działania
Azure-SSIS Wykonanie pakietu SSIS Wykonanie pakietu SSIS

Uwaga

Kontrolki ruchu wychodzącego różnią się w zależności od usługi dla środowiska Azure IR. W usłudze Synapse obszary robocze mają opcje ograniczania ruchu wychodzącego z zarządzanej sieci wirtualnej podczas korzystania z środowiska Azure IR. W usłudze Data Factory wszystkie porty są otwierane dla komunikacji wychodzącej podczas korzystania z środowiska Azure IR. Azure-SSIS IR można zintegrować z siecią wirtualną w celu zapewnienia kontroli komunikacji wychodzącej.

Środowisko uruchomieniowe integracji Azure

Środowisko Azure Integration Runtime może wykonywać następujące czynności:

  • Uruchamianie przepływów danych na platformie Azure
  • Uruchamianie działań kopiowania między magazynami danych w chmurze
  • Wyślij następujące działania przekształcania w sieci publicznej: Działanie usługi Databricks Notebook/Jar/Python, działanie hdInsight Hive, działanie hdInsight Pig, działanie HDInsight MapReduce, działanie HDInsight Spark, działanie przesyłania strumieniowego usługi HDInsight, działanie ml Studio (klasyczne) wykonywanie usługi Batch, działanie aktualizacji usługi ML Studio (klasycznej), działanie procedury składowanej, działanie procedury składowanej, Data Lake Analytics Działanie U-SQL, działanie niestandardowe platformy .NET, działanie internetowe, działanie Lookup i działanie Pobieranie metadanych.

Środowisko sieciowe IR Azure

Usługa Azure Integration Runtime obsługuje łączenie się z magazynami danych i usługami obliczeniowymi z publicznymi dostępnymi punktami końcowymi. Włączenie Virtual Network zarządzanej usługa Azure Integration Runtime obsługuje łączenie się z magazynami danych przy użyciu usługi private link w środowisku sieci prywatnej. W usłudze Synapse obszary robocze mają opcje ograniczania ruchu wychodzącego z zarządzanej sieci wirtualnej IR. W usłudze Data Factory wszystkie porty są otwierane dla komunikacji wychodzącej. Azure-SSIS IR można zintegrować z siecią wirtualną w celu zapewnienia kontroli komunikacji wychodzącej.

Zasoby obliczeniowe i skalowanie środowiska IR Azure

Infrastruktura Integration Runtime zapewnia w pełni zarządzane obliczenia bez serwera na platformie Azure. Nie musisz martwić się o aprowizację infrastruktury, instalację oprogramowania, stosowanie poprawek ani skalowanie pojemności. Dodatkowo płacisz tylko za czas rzeczywistego wykorzystania.

Produkt Azure Integration Runtime zapewnia natywne możliwości obliczeniowe przenoszenia danych między magazynami danych w chmurze w sposób bezpieczny, niezawodny i wydajny. Możesz ustawić liczbę jednostek integracji danych do użycia w działaniu kopiowania, a rozmiar obliczeniowy środowiska Azure IR jest elastycznie skalowany w górę bez konieczności jawnego dostosowania rozmiaru Integration Runtime platformy Azure.

Wysyłanie działań to uproszczona operacja kierowania działania do docelowej usługi obliczeniowej, więc nie trzeba skalować w górę rozmiaru obliczeniowego dla tego scenariusza.

Aby uzyskać informacje na temat tworzenia i konfigurowania środowiska Azure IR, zobacz How to create and configure Azure Integration Runtime (Jak utworzyć i skonfigurować usługę Azure Integration Runtime).

Uwaga

Środowisko Azure Integration Runtime ma właściwości związane z środowiskiem uruchomieniowym Przepływ danych, które definiuje podstawową infrastrukturę obliczeniową, która będzie używana do uruchamiania przepływów danych.

Infrastruktura Integration Runtime (Self-hosted)

Infrastruktura IR (Self-hosted) oferuje następujące możliwości:

  • Uruchamianie działania kopiowania między magazynami danych w chmurze i magazynem danych w sieci prywatnej.
  • Wysyłanie następujących działań przekształcania względem zasobów obliczeniowych w środowisku lokalnym lub w usłudze Azure Virtual Network: działanie hive usługi HDInsight (BYOC-Bring Your Own Cluster), działanie pig usługi HDInsight (BYOC), działanie HDInsight MapReduce (BYOC), działanie USŁUGI HDInsight Spark (BYOC), działanie przesyłania strumieniowego usługi HDInsight (BYOC), działanie ML Studio (klasyczne) Aktualizowanie działań zasobów, działanie procedury składowanej, działanie procedury składowanej, program ML Studio (wersja klasyczna) Data Lake Analytics działanie U-SQL, działanie niestandardowe (uruchamiane w Azure Batch), działanie wyszukiwania i działanie Pobieranie metadanych.

Uwaga

Używanie własnego środowiska Integration Runtime do obsługi magazynów danych, które wymagają własnego sterownika, takiego jak SAP Hana, MySQL itp. Aby uzyskać więcej informacji, zobacz obsługiwane magazyny danych.

Uwaga

Środowisko uruchomieniowe Java (JRE) jest zależnością własnego środowiska IR. Upewnij się, że na tym samym hoście zainstalowano środowisko JRE.

Własne środowisko sieciowe IR

Jeśli chcesz bezpiecznie przeprowadzić integrację danych w środowisku sieci prywatnej, które nie ma bezpośredniego widoku ze środowiska chmury publicznej, możesz zainstalować własne środowisko IR w środowisku lokalnym za zaporą lub wewnątrz wirtualnej sieci prywatnej. Własne środowisko Integration Runtime wykonuje tylko wychodzące połączenia oparte na protokole HTTP z Internetem.

Zasoby obliczeniowe i skalowanie własnego środowiska IR

Zainstaluj własne środowisko IR na maszynie lokalnej lub maszynie wirtualnej w sieci prywatnej. Obecnie własne środowisko IR jest obsługiwane tylko w systemie operacyjnym Windows.
W celu zapewnienia wysokiej dostępności i skalowalności można zmienić skalowanie środowiska IR (Self-hosted), łącząc wystąpienie logiczne z wieloma maszynami lokalnymi w trybie aktywny-aktywny. Aby uzyskać więcej informacji, zobacz artykuł dotyczący tworzenia i konfigurowania własnego środowiska IR , aby uzyskać szczegółowe informacje.

Azure SSIS Integration Runtime

Aby zmniejszyć i przenieść obecne obciążenie SSIS, można utworzyć środowisko IR Azure-SSIS w celu natywnego wykonywania pakietów SSIS.

Środowisko sieciowe IR Azure-SSIS

Azure-SSIS IR można aprowizować w sieci publicznej lub prywatnej. Dostęp do danych lokalnych jest obsługiwany przez dołączenie Azure-SSIS IR do sieci wirtualnej połączonej z siecią lokalną.

Zasoby obliczeniowe i skalowanie środowiska IR Azure-SSIS

Azure-SSIS IR to w pełni zarządzany klaster maszyn wirtualnych platformy Azure przeznaczony do uruchamiania pakietów SSIS. Możesz przenieść własną bazę danych Azure SQL lub SQL Managed Instance do katalogu projektów/pakietów SSIS (SSISDB). Możesz skalować moc obliczeniową, określając rozmiar węzłów, a także liczbę węzłów w klastrze. Koszt działania usługi Azure-SSIS Integration Runtime można zarządzać, zatrzymując i uruchamiając go jako zapotrzebowanie na wymagania.

Aby uzyskać więcej informacji, zobacz Jak utworzyć i skonfigurować Azure-SSIS IR. Po utworzeniu można wdrażać istniejące pakiety usług SSIS i zarządzać nimi bez zmian przy użyciu znanych narzędzi, takich jak narzędzia SQL Server Data Tools (SSDT) i SQL Server Management Studio (SSMS), podobnie jak w przypadku korzystania z usług SSIS lokalnie.

Aby uzyskać więcej informacji na temat środowiska uruchomieniowego azure-SSIS, zobacz następujące artykuły:

Lokalizacja środowiska Integration Runtime

Relacja między lokalizacją fabryki a lokalizacją środowiska IR

Podczas tworzenia wystąpienia usługi Data Factory lub obszaru roboczego usługi Synapse należy określić jego lokalizację. Metadane wystąpienia są przechowywane tutaj, a wyzwalanie potoku jest inicjowane z tego miejsca. Metadane są przechowywane tylko w wybranym regionie i nie będą przechowywane w innych regionach.

W międzyczasie potok może uzyskiwać dostęp do magazynów danych i usług obliczeniowych w innych regionach świadczenia usługi Azure w celu przenoszenia danych między magazynami danych lub przetwarzania danych przy użyciu usług obliczeniowych. To zachowanie jest wykonywane przez dostępne globalnie środowisko IR, co zapewnia zgodność danych, wydajność i niższe koszty wyjścia z sieci.

Lokalizacja środowiska IR definiuje lokalizację swoich zasobów obliczeniowych zaplecza oraz miejsce wykonywania przenoszenia danych, wysyłania działań i wykonywania pakietów SSIS. Lokalizacja środowiska IR może być inna niż lokalizacja fabryki danych, do którego należy.

Lokalizacja środowiska IR Azure

Możesz ustawić region lokalizacji środowiska Azure IR, w tym przypadku wykonanie lub wysłanie działania nastąpi w wybranym regionie.

Ustawieniem domyślnym jest automatyczne rozpoznawanie środowiska Azure IR w sieci publicznej. Z tą opcją:

  • W przypadku działania kopiowania najlepszym rozwiązaniem jest automatyczne wykrywanie lokalizacji magazynu danych ujścia, a następnie użycie środowiska IR w tym samym regionie, jeśli jest dostępne, lub najbliższego w tej samej lokalizacji geograficznej; Jeśli region magazynu danych ujścia nie jest wykrywalny, zamiast tego używane jest środowisko IR w regionie wystąpienia.

    Na przykład w regionie Wschodnie stany USA utworzono obszar roboczy usługi Data Factory lub Synapse.

    • Podczas kopiowania danych do obiektu blob platformy Azure w regionie Zachodnie stany USA, jeśli obiekt blob zostanie wykryty w regionie Zachodnie stany USA, działanie kopiowania jest wykonywane na środowisku IR w regionie Zachodnie stany USA; W przypadku niepowodzenia wykrywania regionów działanie kopiowania jest wykonywane na środowisku IR w regionie Wschodnie stany USA.
    • Podczas kopiowania danych do usługi Salesforce, dla której region nie jest wykrywalny, działanie kopiowania jest wykonywane na środowisku IR w regionie Wschodnie stany USA.

    Porada

    Jeśli masz ścisłe wymagania dotyczące zgodności danych i musisz upewnić się, że dane nie opuszczają określonej lokalizacji geograficznej, możesz jawnie utworzyć środowisko Azure IR w określonym regionie i wskazać połączoną usługę do tego środowiska IR przy użyciu właściwości ConnectVia. Jeśli na przykład chcesz skopiować dane z obiektu blob w Południowej Wielkiej Brytanii do obszaru roboczego Azure Synapse w Południowej Wielkiej Brytanii i chcesz zapewnić, że dane nie opuszczaJą Wielkiej Brytanii, utwórz środowisko Azure IR w Południowej Wielkiej Brytanii i połącz oba połączone usługi z tym środowiskiem IR.

  • W przypadku wykonywania działań Lookup/GetMetadata/Delete (działania potoku), wysyłania działań przekształcania (działań zewnętrznych) i operacji tworzenia (połączenia testowego, listy folderów przeglądania i listy tabel oraz danych podglądu) używane jest środowisko IR w tym samym regionie co obszar roboczy usługi Data Factory lub Synapse.

  • W przypadku Przepływ danych używane jest środowisko IR w regionie usługi Data Factory lub obszaru roboczego usługi Synapse.

    Porada

    Najlepszym rozwiązaniem jest zapewnienie, że przepływy danych działają w tym samym regionie co odpowiednie magazyny danych, gdy jest to możliwe. Można to osiągnąć za pomocą automatycznego rozpoznawania środowiska Azure IR (jeśli lokalizacja magazynu danych jest taka sama jak lokalizacja usługi Data Factory lub obszaru roboczego usługi Synapse) lub przez utworzenie nowego wystąpienia środowiska Azure IR w tym samym regionie co magazyny danych, a następnie wykonanie na nim przepływów danych.

Jeśli włączysz funkcję Managed Virtual Network z automatycznym rozpoznawaniem dla środowiska Azure IR, używane jest środowisko IR w regionie usługi Data Factory lub obszaru roboczego usługi Synapse.

Możesz monitorować lokalizację środowiska IR, która jest obowiązuje podczas wykonywania działań w widoku monitorowania działań potoku w programie Data Factory Studio lub Synapse Studio, albo w ładunku monitorowania działań.

Lokalizacja własnego środowiska IR

Własne środowisko IR jest logicznie rejestrowane w obszarze roboczym usługi Data Factory lub Synapse, a zasoby obliczeniowe używane do obsługi jego funkcji są udostępniane przez Użytkownika. W związku z tym nie istnieje wyraźna właściwość lokalizacji środowiska IR (Self-hosted).

W przypadku zastosowania do wykonania przenoszenia danych, środowisko IR (Self-hosted) pobiera dane ze źródła i zapisuje je w miejscu docelowym.

Lokalizacja środowiska IR Azure-SSIS

Uwaga

Środowiska Azure-SSIS Integration Runtime nie są obecnie obsługiwane w potokach usługi Synapse.

Wybór odpowiedniej lokalizacji dla środowiska IR Azure-SSIS jest kluczowy dla osiągnięcia wysokiej wydajności obciążeń wyodrębnianie-przekształcanie-ładowanie (ETL).

  • Lokalizacja Azure-SSIS IR nie musi być taka sama jak lokalizacja usługi Data Factory, ale powinna być taka sama jak lokalizacja własnej bazy danych Azure SQL Lub SQL Managed Instance, w której znajduje się baza danych SSISDB. Dzięki temu usługa Azure-SSIS Integration Runtime może łatwo uzyskać dostęp do bazy danych SSISDB bez ponoszenia nadmiernego ruchu między różnymi lokalizacjami.
  • Jeśli nie masz istniejącej SQL Database lub SQL Managed Instance, ale masz lokalne źródła danych/miejsca docelowe, utwórz nową bazę danych Azure SQL lub SQL Managed Instance w tej samej lokalizacji sieci wirtualnej połączonej z siecią lokalną. W ten sposób możesz utworzyć Azure-SSIS IR przy użyciu nowej bazy danych Azure SQL lub SQL Managed Instance i dołączyć do tej sieci wirtualnej. Wszystko będzie znajdować się w tej samej lokalizacji, minimalizując przenoszenie danych i powiązane koszty, jednocześnie maksymalizując wydajność.
  • Jeśli lokalizacja istniejącej bazy danych Azure SQL lub SQL Managed Instance nie jest taka sama jak lokalizacja sieci wirtualnej połączonej z siecią lokalną, najpierw utwórz Azure-SSIS IR przy użyciu istniejącej bazy danych Azure SQL lub SQL Managed Instance i dołącz do innej sieci wirtualnej w tej samej lokalizacji. Następnie skonfiguruj sieć wirtualną do połączenia sieci wirtualnej między różnymi lokalizacjami.

Na poniższym diagramie przedstawiono ustawienia lokalizacji dla usługi Data Factory i jej środowisk Integration Runtime:

Pokazuje lokalizacje środowiska Integration Runtime usługi Data Factory.

Wybór środowiska IR do użycia

Jeśli działanie kojarzy się z więcej niż jednym typem środowiska Integration Runtime, zostanie rozpoznane jako jedno z nich. Własne środowisko Integration Runtime ma pierwszeństwo przed środowiskiem Azure Integration Runtime w Azure Data Factory lub wystąpieniach obszaru roboczego usługi Synapse przy użyciu zarządzanej sieci wirtualnej. Ten ostatni ma pierwszeństwo przed globalnym środowiskiem Azure Integration Runtime.

Na przykład jedno działanie kopiowania służy do kopiowania danych ze źródła do ujścia. Globalne środowisko Azure Integration Runtime jest skojarzone z połączoną usługą ze źródłem i środowiskiem Azure Integration Runtime w Azure Data Factory zarządzana sieć wirtualna kojarzy się z połączoną usługą do ujścia, a następnie wynikiem jest to, że zarówno połączone usługi źródłowe, jak i ujścia używają środowiska Azure Integration Runtime w Azure Data Factory zarządzanej sieci wirtualnej. Jeśli jednak własne środowisko Integration Runtime kojarzy połączoną usługę dla źródła, zarówno połączona usługa źródłowa, jak i połączona ujście używają własnego środowiska Integration Runtime.

Działanie kopiowania

Działanie Kopiuj wymaga, aby usługi połączone ze źródłem i ujściem definiowały kierunek przepływu danych. Poniższa logika jest stosowana do określenia, które wystąpienie środowiska IR jest używane do wykonania kopii:

  • Kopiowanie między dwoma źródłami danych w chmurze: jeśli zarówno źródła, jak i ujścia połączone usługi używają środowiska Azure IR, regionalne środowisko Azure IR jest używane, jeśli zostało określone, lub lokalizacja środowiska Azure IR jest automatycznie określana, czy opcja automatycznego rozpoznawania środowiska IR (ustawienie domyślne) została wybrana zgodnie z opisem w sekcji Lokalizacja środowiska Integration Runtime .
  • Kopiowanie między źródłem danych w chmurze a źródłem danych w sieci prywatnej: jeśli źródło lub ujście połączone usługi wskazuje własne środowisko IR, działanie kopiowania jest wykonywane na własnym środowisku IR.
  • Kopiowanie między dwoma źródłami danych w sieci prywatnej: zarówno połączona usługa źródła, jak i ujścia musi wskazywać to samo wystąpienie środowiska Integration Runtime, a środowisko IR jest używane do wykonywania działania kopiowania.

Działanie wyszukiwania i uzyskiwania metadanych

Działanie wyszukiwania i uzyskiwania metadanych jest wykonywane w środowisku Integration Runtime skojarzonym z połączoną usługą magazynu danych.

Działanie transformacji zewnętrznej

Każde zewnętrzne działanie przekształcania korzystające z zewnętrznego aparatu obliczeniowego ma docelową połączoną usługę obliczeniową, która wskazuje na środowisko Integration Runtime. To wystąpienie środowiska IR określa lokalizację, z której wysyłane jest zewnętrzne działanie przekształcania kodowanego ręcznie.

działanie Przepływ danych

Przepływ danych działania są wykonywane w skojarzonym środowisku Azure Integration Runtime. Obliczenia platformy Spark używane przez przepływy danych są określane przez właściwości przepływu danych w środowisku Azure IR i są w pełni zarządzane przez usługę.

Integration Runtime w ciągłej integracji/ciągłego wdrażania

Środowiska Integration Runtime nie zmieniają się często i są podobne we wszystkich etapach ciągłej integracji/ciągłego wdrażania. Usługa Data Factory wymaga takiej samej nazwy i typu środowiska Integration Runtime na wszystkich etapach ciągłej integracji/ciągłego wdrażania. Jeśli chcesz udostępnić środowiska Integration Runtime na wszystkich etapach, rozważ użycie dedykowanej fabryki tylko do przechowywania udostępnionych środowisk Integration Runtime. Następnie możesz użyć tej udostępnionej fabryki we wszystkich środowiskach jako połączonego typu środowiska Integration Runtime.

Następne kroki

Zobacz następujące artykuły: