Środowiska obliczeniowe obsługiwane przez potoki usługi Azure Data Factory i Synapse

Artykuł
10/03/2024

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Ważne

Obsługa usługi Azure Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning do tej daty.

Od 1 grudnia 2021 r. nie można utworzyć nowych zasobów usługi Machine Learning Studio (klasycznego) (obszaru roboczego i planu usługi internetowej). Do 31 sierpnia 2024 r. możesz nadal korzystać z istniejących eksperymentów i usług internetowych usługi Machine Learning Studio (klasycznych). Aby uzyskać więcej informacji, zobacz:

Dokumentacja usługi Machine Learning Studio (klasyczna) jest wycofywana i może nie zostać zaktualizowana w przyszłości.

W tym artykule opisano różne środowiska obliczeniowe, których można użyć do przetwarzania lub przekształcania danych. Zawiera również szczegółowe informacje o różnych konfiguracjach (na żądanie a korzystanie z własnych) obsługiwanych podczas konfigurowania połączonych usług łączących te środowiska obliczeniowe.

Poniższa tabela zawiera listę obsługiwanych środowisk obliczeniowych i działań, które można na nich uruchomić.

Środowisko obliczeniowe	Działania
Klaster usługi HDInsight na żądanie lub własny klaster usługi HDInsight	Hive, Pig, Spark, MapReduce, Hadoop Streaming
Azure Batch	Okres niestandardowy
ML Studio (wersja klasyczna)	Działania programu ML Studio (klasyczne): wykonywanie wsadowe i aktualizowanie zasobu
Azure Machine Learning	Potok wykonywania usługi Azure Machine Learning
Azure Data Lake Analytics	Język U-SQL usługi Data Lake Analytics
Azure SQL, Azure Synapse Analytics, SQL Server	Procedura składowana
Azure Databricks	Notes, Jar, Python
Azure Synapse Analytics (artefakty)	Działanie notesu usługi Synapse, definicja zadania platformy Synapse Spark
Funkcja platformy Azure	Działanie funkcji platformy Azure

Środowisko obliczeniowe usługi HDInsight

Zapoznaj się z poniższą tabelą, aby uzyskać szczegółowe informacje na temat obsługiwanych typów połączonych usług magazynu na potrzeby konfiguracji w środowisku na żądanie i byOC (Bring your own compute).

W połączonej usłudze obliczeniowej	Nazwa właściwości	Opis	Obiekt blob	ADLS Gen2	Azure SQL DB	Usługa ADLS Gen 1
Na żądanie	linkedServiceName	Połączona usługa Azure Storage używana przez klaster na żądanie do przechowywania i przetwarzania danych.	Tak	Tak	Nie.	Nie.
	additionalLinkedServiceNames	Określa dodatkowe konta magazynu dla połączonej usługi HDInsight, aby usługa mogła je zarejestrować w Twoim imieniu.	Tak	Nie.	Nie.	Nie.
	hcatalogLinkedServiceName	Nazwa połączonej usługi Azure SQL wskazującej bazę danych HCatalog. Klaster usługi HDInsight na żądanie jest tworzony przy użyciu bazy danych Azure SQL Database jako magazynu metadanych.	Nie	Nie.	Tak	Nie.
BYOC	linkedServiceName	Dokumentacja połączonej usługi Azure Storage.	Tak	Tak	Nie.	Nie.
	additionalLinkedServiceNames	Określa dodatkowe konta magazynu dla połączonej usługi HDInsight, aby usługa mogła je zarejestrować w Twoim imieniu.	Nie	Nie.	Nie.	Nie.
	hcatalogLinkedServiceName	Odwołanie do połączonej usługi Azure SQL wskazującej bazę danych HCatalog.	Nie	Nie.	Nie.	Nie.

Połączona usługa Azure HDInsight na żądanie

W tej konfiguracji środowisko obliczeniowe jest w pełni zarządzane przez usługę. Jest on tworzony automatycznie przez usługę, zanim zadanie zostanie przesłane do przetwarzania danych i usunięte po zakończeniu zadania. Możesz utworzyć połączoną usługę dla środowiska obliczeniowego na żądanie, skonfigurować ją i kontrolować szczegółowe ustawienia wykonywania zadań, zarządzania klastrem i akcji uruchamiania.

Uwaga

Konfiguracja na żądanie jest obecnie obsługiwana tylko w przypadku klastrów usługi Azure HDInsight. Usługa Azure Databricks obsługuje również zadania na żądanie przy użyciu klastrów zadań. Aby uzyskać więcej informacji, zobacz połączoną usługę Azure Databricks.

Usługa może automatycznie utworzyć klaster usługi HDInsight na żądanie w celu przetwarzania danych. Klaster jest tworzony w tym samym regionie co konto magazynu (właściwość linkedServiceName w formacie JSON) skojarzonym z klastrem. Konto magazynu to standardowe konto must usługi Azure Storage ogólnego przeznaczenia.

Zwróć uwagę na następujące ważne kwestie dotyczące połączonej usługi HDInsight na żądanie:

Klaster usługi HDInsight na żądanie jest tworzony w ramach subskrypcji platformy Azure. Klaster jest widoczny w witrynie Azure Portal, gdy klaster jest uruchomiony.
Dzienniki zadań uruchamianych w klastrze usługi HDInsight na żądanie są kopiowane do konta magazynu skojarzonego z klastrem usługi HDInsight. KlasterUserName, clusterPassword, clusterSshUserName, clusterSshPassword zdefiniowany w połączonej definicji usługi służy do logowania się do klastra w celu szczegółowego rozwiązywania problemów w cyklu życia klastra.
Opłaty są naliczane tylko za czas uruchamiania i uruchamiania klastra usługi HDInsight.
Możesz użyć akcji skryptu z połączoną usługą Azure HDInsight na żądanie.

Ważne

Aprowizowania klastra usługi Azure HDInsight na żądanie zwykle trwa co najmniej 20 minut .

Przykład

Poniższy kod JSON definiuje połączoną usługę HDInsight opartą na systemie Linux. Usługa automatycznie tworzy klaster usługi HDInsight oparty na systemie Linux w celu przetworzenia wymaganego działania.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenant id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Ważne

Klaster usługi HDInsight tworzy kontener domyślny w magazynie obiektów blob określonym w kodzie JSON (linkedServiceName). Usługa HDInsight nie powoduje usunięcia tego kontenera w przypadku usunięcia klastra. Wynika to z ustawienia fabrycznego. W przypadku połączonej usługi HDInsight na żądanie klaster usługi HDInsight jest tworzony za każdym razem, gdy trzeba przetworzyć wycinek — o ile w tym momencie nie istnieje aktywny klaster (timeToLive) — i zostaje usunięty po zakończeniu przetwarzania.

W miarę uruchamiania większej liczby działań w usłudze Azure Blob Storage jest wyświetlanych wiele kontenerów. Jeśli nie potrzebujesz ich do rozwiązywania problemów z zadaniami, możesz je usunąć, aby zmniejszyć koszt magazynowania. Nazwy tych kontenerów są zgodne z następującym wzorcem: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Użyj narzędzi, takich jak Eksplorator usługi Microsoft Azure Storage, aby usunąć kontenery w usłudze Azure Blob Storage.

Właściwości

Właściwości	Opis	Wymagania
type	Właściwość type powinna być ustawiona na wartość HDInsightOnDemand.	Tak
clusterSize	Liczba węzłów procesu roboczego/danych w klastrze. Klaster usługi HDInsight jest tworzony z 2 węzłami głównymi wraz z liczbą węzłów roboczych, które określisz dla tej właściwości. Węzły mają rozmiar Standard_D3, który ma 4 rdzenie, więc klaster 4 węzłów roboczych przyjmuje 24 rdzenie (44 = 16 rdzeni dla węzłów roboczych, plus 24 = 8 rdzeni dla węzłów głównych). Aby uzyskać szczegółowe informacje, zobacz Konfigurowanie klastrów w usłudze HDInsight przy użyciu usług Hadoop, Spark, Kafka i innych .	Tak
linkedServiceName	Połączona usługa Azure Storage używana przez klaster na żądanie do przechowywania i przetwarzania danych. Klaster usługi HDInsight jest tworzony w tym samym regionie co to konto usługi Azure Storage. Usługa Azure HDInsight ma ograniczenia całkowitej liczby rdzeni, których możesz użyć w każdym obsługiwanym przez nią regionie platformy Azure. Upewnij się, że masz wystarczające limity przydziału rdzeni w tym regionie świadczenia usługi Azure, aby spełnić wymagany rozmiar klastra. Aby uzyskać szczegółowe informacje, zobacz Konfigurowanie klastrów w usłudze HDInsight przy użyciu usług Hadoop, Spark, Kafka i nie tylko Obecnie nie można utworzyć klastra usługi HDInsight na żądanie, który używa usługi Azure Data Lake Storage (Gen 2) jako magazynu. Jeśli chcesz przechowywać dane wynikowe z przetwarzania usługi HDInsight w usłudze Azure Data Lake Storage (Gen 2), użyj działania kopiowania, aby skopiować dane z usługi Azure Blob Storage do usługi Azure Data Lake Storage (Gen 2).	Tak
clusterResourceGroup	Klaster usługi HDInsight jest tworzony w tej grupie zasobów.	Tak
timetolive	Dozwolony czas bezczynności klastra usługi HDInsight na żądanie. Określa, jak długo klaster usługi HDInsight na żądanie pozostaje aktywny po zakończeniu działania, jeśli w klastrze nie ma żadnych innych aktywnych zadań. Minimalna dozwolona wartość to 5 minut (00:05:00). Jeśli na przykład uruchomienie działania trwa 6 minut, a wartość timetolive jest ustawiona na 5 minut, klaster pozostaje aktywny przez 5 minut po 6 minutach przetwarzania działania. Jeśli zostanie wykonane inne uruchomienie działania z 6-minutowym oknem, jest ono przetwarzane przez ten sam klaster. Tworzenie klastra usługi HDInsight na żądanie jest kosztowną operacją (może chwilę potrwać), dlatego użyj tego ustawienia w razie potrzeby, aby zwiększyć wydajność usługi przez ponowne użycie klastra usługi HDInsight na żądanie. Jeśli ustawisz wartość timetolive na 0, klaster zostanie usunięty natychmiast po zakończeniu działania. Podczas ustawiania wysokiej wartości klaster może pozostać bezczynny, aby zalogować się w celu rozwiązywania problemów, ale może to spowodować wysokie koszty. Dlatego ważne jest, aby ustawić odpowiednią wartość na podstawie Twoich potrzeb. Jeśli wartość właściwości timetolive jest odpowiednio ustawiona, wiele potoków może współużytkować wystąpienie klastra usługi HDInsight na żądanie.	Tak
clusterType	Typ klastra usługi HDInsight do utworzenia. Dozwolone wartości to "hadoop" i "spark". Jeśli nie zostanie określony, wartość domyślna to hadoop. Nie można utworzyć klastra z obsługą pakietu Enterprise Security na żądanie, zamiast tego użyj istniejącego klastra/ użyj własnego środowiska obliczeniowego.	Nie.
version	Wersja klastra usługi HDInsight. Jeśli nie zostanie określony, używa bieżącej wersji domyślnej zdefiniowanej w usłudze HDInsight.	Nie.
hostSubscriptionId	Identyfikator subskrypcji platformy Azure używany do tworzenia klastra usługi HDInsight. Jeśli nie zostanie określony, używa identyfikatora subskrypcji kontekstu logowania platformy Azure.	Nie.
clusterNamePrefix	Prefiks nazwy klastra USŁUGI HDI, znacznik czasu automatycznie dołącza na końcu nazwy klastra	Nie.
sparkVersion	Wersja platformy Spark, jeśli typ klastra to "Spark"	Nie.
additionalLinkedServiceNames	Określa dodatkowe konta magazynu dla połączonej usługi HDInsight, aby usługa mogła je zarejestrować w Twoim imieniu. Te konta magazynu muszą znajdować się w tym samym regionie co klaster usługi HDInsight, który jest tworzony w tym samym regionie co konto magazynu określone przez linkedServiceName.	Nie.
osType	Typ systemu operacyjnego. Dozwolone wartości to: Linux i Windows (tylko dla usługi HDInsight 3.3). Wartość domyślna to Linux.	Nie.
hcatalogLinkedServiceName	Nazwa połączonej usługi Azure SQL wskazującej bazę danych HCatalog. Klaster usługi HDInsight na żądanie jest tworzony przy użyciu usługi Azure SQL Database jako magazynu metadanych.	Nie.
connectVia	Środowisko Integration Runtime do wysłania działań do tej połączonej usługi HDInsight. W przypadku połączonej usługi HDInsight na żądanie obsługuje tylko środowisko Azure Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime.	Nie.
clusterUserName	Nazwa użytkownika, aby uzyskać dostęp do klastra.	Nie.
clusterPassword	Hasło w typie bezpiecznego ciągu w celu uzyskania dostępu do klastra.	Nie.
clusterSshUserName	Nazwa użytkownika do protokołu SSH zdalnie łączy się z węzłem klastra (dla systemu Linux).	Nie.
clusterSshPassword	Hasło w typie bezpiecznego ciągu do zdalnego łączenia węzła klastra SSH (dla systemu Linux).	Nie.
scriptActions	Określ skrypt dostosowywania klastra usługi HDInsight podczas tworzenia klastra na żądanie. Obecnie narzędzie do tworzenia interfejsu użytkownika obsługuje określanie tylko 1 akcji skryptu, ale można przejść przez to ograniczenie w formacie JSON (określ wiele akcji skryptu w formacie JSON).	Nie.

Ważne

Usługa HDInsight obsługuje wiele wersji klastra Hadoop, które można wdrożyć. Każdy wybór wersji tworzy określoną wersję dystrybucji Hortonworks Data Platform (HDP) i zestaw składników zawartych w tej dystrybucji. Lista obsługiwanych wersji usługi HDInsight jest aktualizowana w celu udostępnienia najnowszych składników i poprawek ekosystemu usługi Hadoop. Upewnij się, że zawsze odwołujesz się do najnowszych informacji o obsługiwanej wersji usługi HDInsight i typie systemu operacyjnego, aby upewnić się, że używasz obsługiwanej wersji usługi HDInsight.

Ważne

Obecnie połączone usługi HDInsight nie obsługują technologii HBase, Interactive Query (Hive LLAP), Storm.

przykład pliku JSON additionalLinkedServiceNames

"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Uwierzytelnianie nazwy głównej usługi

Połączona usługa HDInsight na żądanie wymaga uwierzytelniania jednostki usługi w celu utworzenia klastrów usługi HDInsight w Twoim imieniu. Aby użyć uwierzytelniania jednostki usługi, zarejestruj jednostkę aplikacji w usłudze Microsoft Entra ID i przyznaj jej rolę Współautor subskrypcji lub grupy zasobów, w której jest tworzony klaster usługi HDInsight. Aby uzyskać szczegółowe instrukcje, zobacz Tworzenie aplikacji i jednostki usługi Microsoft Entra przy użyciu portalu, które mogą uzyskiwać dostęp do zasobów. Zanotuj następujące wartości, których użyjesz do zdefiniowania połączonej usługi:

Application ID
Klucz aplikacji
Identyfikator dzierżawy

Użyj uwierzytelniania jednostki usługi, określając następujące właściwości:

Właściwości	Opis	Wymagania
servicePrincipalId	Określ identyfikator klienta aplikacji.	Tak
servicePrincipalKey	Określ klucz aplikacji.	Tak
tenant	Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu witryny Azure Portal.	Tak

Właściwości zaawansowane

Można również określić następujące właściwości dla szczegółowej konfiguracji klastra usługi HDInsight na żądanie.

Właściwości	Opis	Wymagania
coreConfiguration	Określa podstawowe parametry konfiguracji (jak w core-site.xml) dla klastra usługi HDInsight do utworzenia.	Nie.
hBaseConfiguration	Określa parametry konfiguracji bazy danych HBase (hbase-site.xml) dla klastra usługi HDInsight.	Nie.
hdfsConfiguration	Określa parametry konfiguracji systemu plików HDFS (hdfs-site.xml) dla klastra usługi HDInsight.	Nie.
hiveConfiguration	Określa parametry konfiguracji hive (hive-site.xml) dla klastra usługi HDInsight.	Nie.
mapReduceConfiguration	Określa parametry konfiguracji MapReduce (mapred-site.xml) dla klastra usługi HDInsight.	Nie.
oozieConfiguration	Określa parametry konfiguracji Oozie (oozie-site.xml) dla klastra usługi HDInsight.	Nie.
stormConfiguration	Określa parametry konfiguracji systemu Storm (storm-site.xml) dla klastra usługi HDInsight.	Nie.
yarnConfiguration	Określa parametry konfiguracji usługi Yarn (yarn-site.xml) dla klastra usługi HDInsight.	Nie.

Przykład — konfiguracja klastra usługi HDInsight na żądanie z zaawansowanymi właściwościami

{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenant id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Rozmiary węzłów

Rozmiary węzłów głównych, danych i węzłów dozorcy można określić przy użyciu następujących właściwości:

Właściwości	Opis	Wymagania
headNodeSize	Określa rozmiar węzła głównego. Wartość domyślna to: Standard_D3. Aby uzyskać szczegółowe informacje, zobacz sekcję Określanie rozmiarów węzłów .	Nie.
dataNodeSize	Określa rozmiar węzła danych. Wartość domyślna to: Standard_D3.	Nie.
zookeeperNodeSize	Określa rozmiar węzła usługi Zoo Keeper. Wartość domyślna to: Standard_D3.	Nie.

Określanie rozmiarów węzłów Zobacz artykuł Rozmiary maszyn wirtualnych dla wartości ciągów, które należy określić dla właściwości wymienionych w poprzedniej sekcji. Wartości muszą być zgodne z kluczami CMDLETs i APIS , do których odwołuje się artykuł. Jak widać w artykule, węzeł danych o dużym rozmiarze (domyślnym) ma 7 GB pamięci, co może nie być wystarczająco dobre dla danego scenariusza.

Jeśli chcesz utworzyć węzły główne o rozmiarze D4 i węzły robocze, określ Standard_D4 jako wartość właściwości headNodeSize i dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Jeśli określisz nieprawidłową wartość tych właściwości, może zostać wyświetlony następujący błąd: Nie można utworzyć klastra. Wyjątek: nie można ukończyć operacji tworzenia klastra. Operacja zakończona niepowodzeniem z kodem „400”. Końcowy stan klastra: „Błąd”. Komunikat: "PreClusterCreationValidationFailure". Po wystąpieniu tego błędu upewnij się, że używasz nazwy poleceń CMDLET i interfejsów API z tabeli w artykule Rozmiary maszyn wirtualnych.

Korzystanie z własnego środowiska obliczeniowego

W tej konfiguracji użytkownicy mogą zarejestrować już istniejące środowisko obliczeniowe jako połączoną usługę. Środowisko obliczeniowe jest zarządzane przez użytkownika, a usługa używa go do wykonywania działań.

Ten typ konfiguracji jest obsługiwany w następujących środowiskach obliczeniowych:

Azure HDInsight
Usługa Azure Batch
Azure Machine Learning
Azure Data Lake Analytics
Azure SQL DB, Azure Synapse Analytics, SQL Server

Połączona usługa Azure HDInsight

Możesz utworzyć połączoną usługę Azure HDInsight, aby zarejestrować własny klaster usługi HDInsight za pomocą fabryki danych lub obszaru roboczego usługi Synapse.

Przykład

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Właściwości

Właściwości	Opis	Wymagania
type	Właściwość type powinna być ustawiona na wartość HDInsight.	Tak
clusterUri	Identyfikator URI klastra usługi HDInsight.	Tak
nazwa użytkownika	Określ nazwę użytkownika, który ma zostać użyty do nawiązania połączenia z istniejącym klastrem usługi HDInsight.	Tak
hasło	Określ hasło dla konta użytkownika.	Tak
linkedServiceName	Nazwa połączonej usługi Azure Storage odwołującej się do magazynu obiektów blob platformy Azure używanego przez klaster usługi HDInsight. Obecnie nie można określić połączonej usługi Azure Data Lake Storage (Gen 2) dla tej właściwości. Jeśli klaster usługi HDInsight ma dostęp do usługi Data Lake Store, możesz uzyskać dostęp do danych w usłudze Azure Data Lake Storage (Gen 2) za pomocą skryptów Hive/Pig.	Tak
isEspEnabled	Określ wartość "true", jeśli klaster usługi HDInsight ma włączony pakiet Enterprise Security. Wartość domyślna to "false".	Nie.
connectVia	Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. W przypadku klastra usługi HDInsight z obsługą pakietu Enterprise Security (ESP) należy użyć własnego środowiska Integration Runtime, które ma widok do klastra lub powinno zostać wdrożone w tej samej sieci wirtualnej co klaster ESP HDInsight.	Nie.

Ważne

Obecnie połączone usługi HDInsight nie obsługują technologii HBase, Interactive Query (Hive LLAP), Storm.

Połączona usługa Azure Batch

Uwaga

Do interakcji z platformą Azure zalecamy używanie modułu Azure Az w programie PowerShell. Zobacz Instalowanie programu Azure PowerShell, aby rozpocząć. Aby dowiedzieć się, jak przeprowadzić migrację do modułu Az PowerShell, zobacz Migracja programu Azure PowerShell z modułu AzureRM do modułu Az.

Możesz utworzyć połączoną usługę Azure Batch, aby zarejestrować pulę maszyn wirtualnych usługi Batch w danych lub obszarze roboczym usługi Synapse. Działanie niestandardowe można uruchomić przy użyciu usługi Azure Batch.

Jeśli dopiero zaczynasz korzystać z usługi Azure Batch, zobacz następujące artykuły:

Podstawy usługi Azure Batch dotyczące przeglądu usługi Azure Batch.
Polecenie cmdlet New-AzBatchAccount w celu utworzenia konta usługi Azure Batch (lub) witryny Azure Portal w celu utworzenia konta usługi Azure Batch przy użyciu witryny Azure Portal. Aby uzyskać szczegółowe instrukcje dotyczące korzystania z polecenia cmdlet, zobacz artykuł Using PowerShell to manage Azure Batch Account (Zarządzanie kontem usługi Azure Batch przy użyciu programu PowerShell).
Polecenie cmdlet New-AzBatchPool w celu utworzenia puli usługi Azure Batch.

Ważne

Podczas tworzenia nowej puli usługi Azure Batch należy użyć polecenia "VirtualMachineConfiguration" i NIE "CloudServiceConfiguration". Aby uzyskać więcej informacji, zobacz Wskazówki dotyczące migracji puli usługi Azure Batch.

Przykład

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Właściwości

Właściwości	Opis	Wymagania
type	Właściwość type powinna być ustawiona na AzureBatch.	Tak
accountName	Nazwa konta usługi Azure Batch.	Tak
accessKey	Klucz dostępu dla konta usługi Azure Batch.	Tak
batchUri	Adres URL konta usługi Azure Batch w formacie https:// batchaccountname.region.batch.azure.com.	Tak
poolName	Nazwa puli maszyn wirtualnych.	Tak
linkedServiceName	Nazwa połączonej usługi Azure Storage skojarzonej z tą połączoną usługą Azure Batch. Ta połączona usługa jest używana na potrzeby plików przejściowych wymaganych do uruchomienia działania.	Tak
connectVia	Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime.	Nie.

Połączona usługa Machine Learning Studio (klasyczna)

Ważne

Obsługa usługi Azure Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning do tej daty.

Dokumentacja usługi Machine Learning Studio (klasyczna) jest wycofywana i może nie zostać zaktualizowana w przyszłości.

Utworzysz połączoną usługę Machine Learning Studio (klasyczną), aby zarejestrować punkt końcowy oceniania wsadowego usługi Machine Learning Studio (klasycznej) do fabryki danych lub obszaru roboczego usługi Synapse.

Przykład

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Właściwości

Właściwości	Opis	Wymagania
Typ	Właściwość type powinna być ustawiona na: AzureML.	Tak
mlEndpoint	Adres URL oceniania wsadowego.	Tak
apiKey	Interfejs API opublikowanego modelu obszaru roboczego.	Tak
updateResourceEndpoint	Adres URL aktualizacji zasobu dla punktu końcowego usługi internetowej ML Studio (wersja klasyczna) służący do aktualizowania predykcyjnej usługi sieci Web przy użyciu wytrenowanego pliku modelu	Nie.
servicePrincipalId	Określ identyfikator klienta aplikacji.	Wymagane, jeśli określono parametr updateResourceEndpoint
servicePrincipalKey	Określ klucz aplikacji.	Wymagane, jeśli określono parametr updateResourceEndpoint
tenant	Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu witryny Azure Portal.	Wymagane, jeśli określono parametr updateResourceEndpoint
connectVia	Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime.	Nie.

Połączona usługa Azure Machine Learning

Utworzysz połączoną usługę Azure Machine Learning, aby połączyć obszar roboczy usługi Azure Machine Learning z fabryką danych lub obszarem roboczym usługi Synapse.

Uwaga

Obecnie tylko uwierzytelnianie jednostki usługi jest obsługiwane w przypadku połączonej usługi Azure Machine Learning.

Przykład

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Właściwości

Właściwości	Opis	Wymagania
Typ	Właściwość type powinna być ustawiona na: AzureMLService.	Tak
subscriptionId	Identyfikator subskrypcji Azure	Tak
resourceGroupName	name	Tak
mlWorkspaceName	Nazwa obszaru roboczego usługi Azure Machine Learning	Tak
servicePrincipalId	Określ identyfikator klienta aplikacji.	Tak
servicePrincipalKey	Określ klucz aplikacji.	Tak
tenant	Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu witryny Azure Portal.	Wymagane, jeśli określono parametr updateResourceEndpoint
connectVia	Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime.	Nie.

Połączona usługa Azure Data Lake Analytics

Utworzysz połączoną usługę Azure Data Lake Analytics, aby połączyć usługę obliczeniową Azure Data Lake Analytics z fabryką danych lub obszarem roboczym usługi Synapse. Działanie U-SQL usługi Data Lake Analytics w potoku odwołuje się do tej połączonej usługi.

Przykład

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Właściwości

Właściwości	Opis	Wymagania
type	Właściwość typu powinna być ustawiona na: AzureDataLakeAnalytics.	Tak
accountName	Nazwa konta usługi Azure Data Lake Analytics.	Tak
dataLakeAnalyticsUri	Identyfikator URI usługi Azure Data Lake Analytics.	Nie.
subscriptionId	Identyfikator subskrypcji Azure	Nie.
resourceGroupName	Nazwa grupy zasobów platformy Azure	Nie.
servicePrincipalId	Określ identyfikator klienta aplikacji.	Tak
servicePrincipalKey	Określ klucz aplikacji.	Tak
tenant	Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu witryny Azure Portal.	Tak
connectVia	Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime.	Nie.

Połączona usługa Azure Databricks

Możesz utworzyć połączoną usługę Azure Databricks, aby zarejestrować obszar roboczy usługi Databricks używany do uruchamiania obciążeń usługi Databricks (notes, jar, python).

Ważne

Połączone usługi Databricks obsługują pule wystąpień i uwierzytelnianie tożsamości zarządzanej przypisanej przez system.

Przykład — używanie nowego klastra zadań w usłudze Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Przykład — używanie istniejącego klastra interaktywnego w usłudze Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Właściwości

Właściwości	Opis	Wymagania
name	Nazwa połączonej usługi	Tak
type	Właściwość type powinna być ustawiona na: Azure Databricks.	Tak
domena	Określ odpowiednio region świadczenia usługi Azure na podstawie regionu obszaru roboczego usługi Databricks. Przykład: https://eastus.azuredatabricks.net	Tak
accessToken	Token dostępu jest wymagany, aby usługa uwierzytelniła się w usłudze Azure Databricks. Token dostępu należy wygenerować z obszaru roboczego usługi Databricks. Bardziej szczegółowe kroki znajdowania tokenu dostępu można znaleźć tutaj	Nie.
MSI	Użyj tożsamości zarządzanej usługi (przypisanej przez system), aby uwierzytelnić się w usłudze Azure Databricks. Token dostępu nie jest potrzebny podczas korzystania z uwierzytelniania "MSI". Więcej szczegółów na temat uwierzytelniania tożsamości zarządzanej można znaleźć tutaj	Nie.
existingClusterId	Identyfikator klastra istniejącego klastra do uruchamiania wszystkich zadań w tym celu. Powinien to być już utworzony klaster interaktywny. Jeśli klaster przestanie odpowiadać, może być konieczne ręczne ponowne uruchomienie klastra. Usługa Databricks sugeruje uruchamianie zadań w nowych klastrach w celu zwiększenia niezawodności. Identyfikator klastra interaktywnego klastra można znaleźć w obszarze roboczym usługi Databricks —> Klastry — nazwa klastra interakcyjnego —>> konfiguracja —> tagi. Więcej szczegółów	Nie.
instancePoolId	Identyfikator puli wystąpień istniejącej puli w obszarze roboczym usługi Databricks.	Nie.
newClusterVersion	Wersja platformy Spark klastra. Tworzy klaster zadań w usłudze databricks.	Nie.
newClusterNumOfWorker	Liczba węzłów roboczych, które powinien mieć ten klaster. Klaster ma jeden sterownik Spark i funkcje wykonawcze num_workers dla łącznie num_workers i 1 węzłów platformy Spark. Ciąg sformatowany w formacie Int32, na przykład "1", oznacza, że wartość numOfWorker to 1 lub "1:10" oznacza automatyczne skalowanie z zakresu od 1 jako minuty i 10 jako maksimum.	Nie.
newClusterNodeType	To pole koduje za pomocą jednej wartości zasoby dostępne dla każdego z węzłów platformy Spark w tym klastrze. Na przykład węzły platformy Spark można aprowizować i optymalizować pod kątem obciążeń intensywnie korzystających z pamięci lub obliczeń. To pole jest wymagane dla nowego klastra	Nie.
newClusterSparkConf	zestaw opcjonalnych par klucz-wartość konfiguracji platformy Spark określonych przez użytkownika. Użytkownicy mogą również przekazać ciąg dodatkowych opcji JVM do sterownika i funkcji wykonawczych za pośrednictwem odpowiednio spark.driver.extraJavaOptions i spark.executor.extraJavaOptions.	Nie.
newClusterInitScripts	zestaw opcjonalnych skryptów inicjowania zdefiniowanych przez użytkownika dla nowego klastra. Skrypty inicjowania można określić w plikach obszaru roboczego (zalecane) lub za pomocą ścieżki DBFS (starsza wersja).	Nie.

Połączona usługa Azure SQL Database

Utworzysz połączoną usługę Azure SQL i użyjesz jej z działaniem Procedury składowanej, aby wywołać procedurę składowaną z potoku. Aby uzyskać szczegółowe informacje o tej połączonej usłudze, zobacz artykuł Azure SQL Connector (Łącznik usługi Azure SQL).

Połączona usługa Azure Synapse Analytics

Utworzysz połączoną usługę Azure Synapse Analytics i użyjesz jej z działaniem Procedury składowanej, aby wywołać procedurę składowaną z potoku. Aby uzyskać szczegółowe informacje na temat tej połączonej usługi, zobacz artykuł Azure Synapse Analytics Connector (Łącznik usługi Azure Synapse Analytics).

Połączona usługa PROGRAMU SQL Server

Utworzysz połączoną usługę programu SQL Server i użyjesz jej z działaniem Procedury składowanej, aby wywołać procedurę składowaną z potoku. Aby uzyskać szczegółowe informacje na temat tej połączonej usługi, zobacz artykuł dotyczący łącznika programu SQL Server.

Połączona usługa Azure Synapse Analytics (Artifacts)

Utworzysz połączoną usługę Azure Synapse Analytics (Artifacts) i użyjesz jej z działaniem działania notesu usługi Synapse i definicji zadania platformy Synapse Spark.

Przykład

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Właściwości

Właściwości	Opis	Wymagane
name	Nazwa połączonej usługi	Tak
opis	opis połączonej usługi	Nie.
Adnotacje	adnotacje połączonej usługi	Nie.
type	Właściwość type powinna być ustawiona na AzureSynapseArtifacts	Tak
endpoint	Adres URL usługi Azure Synapse Analytics	Tak
uwierzytelnianie	Ustawieniem domyślnym jest tożsamość zarządzana przypisana przez system	Tak
workspaceResourceId	identyfikator zasobu obszaru roboczego	Tak
connectVia	Środowisko Integration Runtime do nawiązania połączenia z magazynem danych. Możesz użyć środowiska Azure Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. Własne środowisko Integration Runtime nie jest obecnie obsługiwane.	Tak

Połączona usługa funkcji platformy Azure

Utworzysz połączoną usługę funkcji platformy Azure i użyjesz jej z działaniem funkcji platformy Azure, aby uruchomić usługę Azure Functions w potoku. Zwracany typ funkcji platformy Azure musi być prawidłowym JObjecttypem . (Pamiętaj, że JArray nie jest .JObject) Każdy typ zwracany inny niż JObject niepowodzenie i zgłasza błąd użytkownika Zawartość odpowiedzi nie jest prawidłowym obiektem JObject.

Właściwości	Opis	Wymagane
type	Właściwość type musi być ustawiona na: AzureFunction	tak
adres URL aplikacji funkcji	Adres URL aplikacji funkcji platformy Azure. Format to `https://<accountname>.azurewebsites.net`. Ten adres URL jest wartością w sekcji Adres URL podczas wyświetlania aplikacji funkcji w witrynie Azure Portal	tak
klucz funkcji	Klucz dostępu dla funkcji platformy Azure. Kliknij sekcję Zarządzanie odpowiednią funkcją i skopiuj klucz funkcji lub klucz hosta. Dowiedz się więcej tutaj: Praca z kluczami dostępu	tak

Aby uzyskać listę obsługiwanych działań przekształcania, zobacz Przekształcanie danych.

Udostępnij za pośrednictwem

Środowiska obliczeniowe obsługiwane przez potoki usługi Azure Data Factory i Synapse

Środowisko obliczeniowe usługi HDInsight

Połączona usługa Azure HDInsight na żądanie

Przykład

Właściwości

Uwierzytelnianie nazwy głównej usługi

Właściwości zaawansowane

Rozmiary węzłów

Korzystanie z własnego środowiska obliczeniowego

Połączona usługa Azure HDInsight

Przykład

Właściwości

Połączona usługa Azure Batch

Przykład

Właściwości

Połączona usługa Machine Learning Studio (klasyczna)

Przykład

Właściwości

Połączona usługa Azure Machine Learning

Przykład

Właściwości

Połączona usługa Azure Data Lake Analytics

Przykład

Właściwości

Połączona usługa Azure Databricks

Przykład — używanie nowego klastra zadań w usłudze Databricks

Przykład — używanie istniejącego klastra interaktywnego w usłudze Databricks

Właściwości

Połączona usługa Azure SQL Database

Połączona usługa Azure Synapse Analytics

Połączona usługa PROGRAMU SQL Server

Połączona usługa Azure Synapse Analytics (Artifacts)

Przykład

Właściwości

Połączona usługa funkcji platformy Azure

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Środowiska obliczeniowe obsługiwane przez potoki usługi Azure Data Factory i Synapse

Środowisko obliczeniowe usługi HDInsight

Połączona usługa Azure HDInsight na żądanie

Przykład

Właściwości

Uwierzytelnianie nazwy głównej usługi

Właściwości zaawansowane

Rozmiary węzłów

Korzystanie z własnego środowiska obliczeniowego

Połączona usługa Azure HDInsight

Przykład

Właściwości

Połączona usługa Azure Batch

Przykład

Właściwości

Połączona usługa Machine Learning Studio (klasyczna)

Przykład

Właściwości

Połączona usługa Azure Machine Learning

Przykład

Właściwości

Połączona usługa Azure Data Lake Analytics

Przykład

Właściwości

Połączona usługa Azure Databricks

Przykład — używanie nowego klastra zadań w usłudze Databricks

Przykład — używanie istniejącego klastra interaktywnego w usłudze Databricks

Właściwości

Połączona usługa Azure SQL Database

Połączona usługa Azure Synapse Analytics

Połączona usługa PROGRAMU SQL Server

Połączona usługa Azure Synapse Analytics (Artifacts)

Przykład

Właściwości

Połączona usługa funkcji platformy Azure

Powiązana zawartość

Opinia

Dodatkowe zasoby