Środowiska obliczeniowe obsługiwane przez potoki Azure Data Factory i Synapse

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory w usłudze Microsoft Fabric jest następną generacją Azure Data Factory z prostszą architekturą, wbudowaną sztuczną inteligencją i nowymi funkcjami. Jeśli dopiero zaczynasz integrować dane, zacznij od Fabric Data Factory. Istniejące obciążenia ADF można zaktualizować do Fabric, aby uzyskać dostęp do nowych możliwości w zakresie nauki o danych, analiz w czasie rzeczywistym oraz raportowania.

Important

Obsługa platformy Azure Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do Azure Machine Learning do tej daty.

Od 1 grudnia 2021 r. nie można utworzyć nowych zasobów Machine Learning Studio (klasycznych) (obszar roboczy i plan usługi internetowej). Do 31 sierpnia 2024 r. można nadal używać istniejących eksperymentów Machine Learning Studio (klasycznych) i usług internetowych. Aby uzyskać więcej informacji, zobacz:

Machine Learning Studio (klasyczna) dokumentacja jest wycofywana i może nie zostać zaktualizowana w przyszłości.

W tym artykule opisano różne środowiska obliczeniowe, których można użyć do przetwarzania lub przekształcania danych. Zawiera również szczegółowe informacje o różnych konfiguracjach (na żądanie a korzystanie z własnych) obsługiwanych podczas konfigurowania połączonych usług łączących te środowiska obliczeniowe.

Poniższa tabela zawiera listę obsługiwanych środowisk obliczeniowych i działań, które można na nich uruchomić.

Środowisko obliczeniowe Activities
Klaster HDInsight na żądanie lub własnego klastra HDInsight Hive, Pig, Spark, MapReduce, Hadoop Streaming
Azure Batch Custom
ML Studio (wersja klasyczna) Działania programu ML Studio (klasyczne): wykonywanie zbiorcze i aktualizacja zasobu
Azure Machine Learning Uruchomienie potoku w Azure Machine Learning
Azure Data Lake Analytics Data Lake Analytics U-SQL
Azure SQL, Azure Synapse Analytics, SQL Server Procedura składowana
Azure Databricks Notebook, Jar, Python
Azure Synapse Analytics (Artifacts) Aktywność notatnika Synapse, definicja pracy Synapse Spark
Funkcja platformy Azure działanie funkcji Azure

Środowisko obliczeniowe usługi HDInsight

Zapoznaj się z poniższą tabelą, aby uzyskać szczegółowe informacje na temat obsługiwanych typów połączonych usług magazynowania do konfiguracji w środowisku na żądanie i BYOC (Bring your own compute).

W połączonej usłudze obliczeniowej Nazwa właściwości Description Blob ADLS Gen2 Azure SQL DB ADLS Gen 1
On-demand linkedServiceName Usługa połączenia Azure Storage, która ma być używana przez klaster na żądanie do przechowywania i przetwarzania danych. Yes Yes No No
additionalLinkedServiceNames Określa dodatkowe konta przechowywania dla usługi powiązanej z HDInsight, aby usługa mogła je zarejestrować na Twoją rzecz. Yes No No No
hcatalogLinkedServiceName Nazwa połączonej usługi Azure SQL wskazującej bazę danych HCatalog. Klaster usługi HDInsight na żądanie jest tworzony przy użyciu bazy danych Azure SQL jako magazynu metadanych. No No Yes No
BYOC linkedServiceName Dokumentacja połączonej usługi Azure Storage. Yes Yes No No
additionalLinkedServiceNames Określa dodatkowe konta przechowywania dla usługi powiązanej z HDInsight, aby usługa mogła je zarejestrować na Twoją rzecz. No No No No
hcatalogLinkedServiceName Odniesienie do usługi połączonej Azure SQL, która wskazuje na bazę danych HCatalog. No No No No

połączona usługa Azure HDInsight na żądanie

W tej konfiguracji środowisko obliczeniowe jest w pełni zarządzane przez usługę. Jest on tworzony automatycznie przez usługę, zanim zadanie zostanie przesłane do przetwarzania danych i usunięte po zakończeniu zadania. Możesz utworzyć połączoną usługę dla środowiska obliczeniowego na żądanie, skonfigurować ją i kontrolować szczegółowe ustawienia wykonywania zadań, zarządzania klastrem i akcji uruchamiania.

Note

Konfiguracja na żądanie jest obecnie obsługiwana tylko w przypadku klastrów Azure HDInsight. Azure Databricks obsługuje również zadania na żądanie przy użyciu klastrów zadań. Aby uzyskać więcej informacji, zobacz powiązaną usługę Azure Databricks.

Usługa może automatycznie utworzyć klaster usługi HDInsight na żądanie w celu przetwarzania danych. Klaster jest tworzony w tym samym regionie co konto storage (właściwość linkedServiceName w formacie JSON) skojarzone z klastrem. Konto magazynowania must powinno być kontem Azure Storage ogólnego przeznaczenia.

Zwróć uwagę na następujące ważne kwestie dotyczące połączonej usługi HDInsight na żądanie:

  • Klaster usługi HDInsight na żądanie jest tworzony w ramach subskrypcji Azure. Klaster jest widoczny w portalu Azure, gdy klaster jest uruchomiony.
  • Dzienniki zadań uruchamianych w klastrze usługi HDInsight na żądanie są kopiowane do konta storage skojarzonego z klastrem usługi HDInsight. clusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword zdefiniowane w powiązanej definicji usługi są używane do logowania się do klastra w celu szczegółowego rozwiązywania problemów podczas cyklu życia klastra.
  • Opłaty są naliczane tylko za czas, kiedy klaster usługi HDInsight jest włączony i wykonuje zadania.
  • Możesz użyć akcji Script z usługą Azure HDInsight połączoną na żądanie.

Important

Zwykle aprowizowanie klastra Azure HDInsight na żądanie trwa 20 minut lub więcej.

Przykład użycia klucza jednostki usługi

Poniższy kod JSON definiuje powiązaną usługę HDInsight opartą na Linuksie. Usługa automatycznie tworzy klaster HDInsight oparty na systemie Linux w celu przetworzenia wymaganego działania.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenant id>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "ServicePrincipalKey",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Przykład użycia tożsamości zarządzanej przypisanej przez system

Poniższy kod JSON definiuje powiązaną usługę HDInsight opartą na Linuksie. Usługa automatycznie tworzy klaster HDInsight oparty na systemie Linux w celu przetworzenia wymaganego działania.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "SystemAssignedManagedIdentity",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Przykład użycia tożsamości zarządzanej przypisanej przez użytkownika

Poniższy kod JSON definiuje powiązaną usługę HDInsight opartą na Linuksie. Usługa automatycznie tworzy klaster HDInsight oparty na systemie Linux w celu przetworzenia wymaganego działania.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "clusterResourceGroup": "<resource group name>",
      "clusterResourceGroupAuthType": "UserAssignedManagedIdentity",
      "credential": {
            "referenceName": "CredentialName",
            "type": "CredentialReference"
       },
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Important

Klaster HDInsight tworzy domyślny kontener w określonym przez Ciebie obszarze blob storage w JSON (linkedServiceName). Usługa HDInsight nie powoduje usunięcia tego kontenera w przypadku usunięcia klastra. Takie zachowanie jest zamierzone. W przypadku połączonej usługi HDInsight na żądanie klaster usługi HDInsight jest tworzony za każdym razem, gdy należy przetworzyć fragment, chyba że istnieje istniejący klaster na żywo (timeToLive) i zostanie usunięty po zakończeniu przetwarzania.

W miarę uruchamiania większej liczby działań w magazynie obiektów blob Azure jest wyświetlanych wiele kontenerów. Jeśli nie potrzebujesz ich do rozwiązywania problemów z zadaniami, możesz je usunąć, aby zmniejszyć koszty storage. Nazwy tych kontenerów są zgodne z następującym wzorcem: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Użyj narzędzi, takich jak Microsoft Azure Storage Explorer, aby usunąć kontenery w Azure Blob Storage.

Properties

Property Description Required
typ Właściwość type powinna być ustawiona na wartość HDInsightOnDemand. Yes
clusterSize Liczba węzłów roboczych/danych w klastrze. Klaster HDInsight jest tworzony z 2 węzłami głównymi oraz liczby węzłów roboczych, którą określisz dla tego parametru. Węzły mają rozmiar Standard_D3, który ma 4 rdzenie, więc klaster 4 węzłów roboczych przyjmuje 24 rdzenie (4*4 = 16 rdzeni dla węzłów roboczych, plus 2*4 = 8 rdzeni dla węzłów głównych). Aby uzyskać szczegółowe informacje, zobacz Konfigurowanie klastrów w usłudze HDInsight przy użyciu usług Hadoop, Spark, Kafka i innych . Yes
linkedServiceName Usługa połączenia Azure Storage, która ma być używana przez klaster na żądanie do przechowywania i przetwarzania danych. Klaster usługi HDInsight jest tworzony w tym samym regionie co to konto Azure Storage. Azure HDInsight ma ograniczenie całkowitej liczby rdzeni, których można używać w każdym Azure regionie, który obsługuje. Upewnij się, że masz wystarczające limity przydziału rdzeni w tym regionie Azure, aby spełnić wymagany rozmiar klastra. Aby uzyskać szczegółowe informacje, zobacz Konfigurowanie klastrów w usłudze HDInsight przy użyciu usług Hadoop, Spark, Kafka i nie tylko

Obecnie nie można utworzyć klastra usługi HDInsight na żądanie, który używa Azure Data Lake Storage (Gen 2) jako magazynu. Jeśli chcesz przechowywać dane wynikowe z przetwarzania usługi HDInsight w Azure Data Lake Storage (Gen 2), użyj działania kopiowania, aby skopiować dane z Azure Blob Storage do Azure Data Lake Storage (Gen 2).

Yes
clusterResourceGroup Klaster usługi HDInsight jest tworzony w tej grupie zasobów. Yes
TypUwierzytelnianiaGrupyZasobówKlastra (clusterResourceGroupAuthType) Określ typ uwierzytelniania grupy zasobów klastra na żądanie usługi HDInsight. Obsługiwane typy uwierzytelniania to "ServicePrincipalKey", "SystemAssignedManagedIdentity", "UserAssignedManagedIdentity". Wymagane do korzystania z uwierzytelniania tożsamości zarządzanej. Jeśli pole nie istnieje, wartość domyślna to ServicePrincipalKey
poświadczenie Określ odwołanie do poświadczeń zawierające obiekt tożsamości zarządzanej, który ma dostęp do grupy zasobów. Wymagane tylko w przypadku uwierzytelniania "UserAssignedManagedIdentity".
timetolive Dozwolony czas bezczynności klastra HDInsight na żądanie. Określa, jak długo klaster usługi HDInsight na żądanie pozostaje aktywny po zakończeniu działania, jeśli w klastrze nie ma żadnych innych aktywnych zadań. Minimalna dozwolona wartość to 5 minut (00:05:00).

Jeśli na przykład uruchomienie działania trwa 6 minut, a wartość timetolive jest ustawiona na 5 minut, klaster pozostaje aktywny przez 5 minut po 6 minutach przetwarzania działania. Jeśli inne działanie zostanie uruchomione w czasie 6-minutowego okna, jest ono przetwarzane przez ten sam klaster.

Tworzenie klastra usługi HDInsight na żądanie jest kosztowną operacją (może chwilę potrwać), dlatego użyj tego ustawienia w razie potrzeby, aby zwiększyć wydajność usługi przez ponowne użycie klastra usługi HDInsight na żądanie.

Jeśli ustawisz wartość timetolive na 0, klaster zostanie usunięty natychmiast po zakończeniu działania. Jeśli ustawisz wysoką wartość, klaster może pozostać bezczynny, aby można było się zalogować w celu rozwiązywania niektórych problemów, ale może to prowadzić do wysokich kosztów. Dlatego ważne jest, aby ustawić odpowiednią wartość na podstawie Twoich potrzeb.

Jeśli wartość właściwości timetolive jest odpowiednio ustawiona, wiele pipelines może współużytkować wystąpienie klastra usługi HDInsight na żądanie.
Yes
clusterType Typ klastra HDInsight do utworzenia. Dozwolone wartości to "hadoop" i "spark". Jeśli nie zostanie określony, wartość domyślna to hadoop. Nie można utworzyć klastra z włączonym pakietem Enterprise Security na żądanie; zamiast tego należy użyć istniejącego klastra lub użyć własnego sprzętu obliczeniowego. No
wersja Wersja klastra usługi HDInsight. Jeśli nie zostanie określony, używa bieżącej wersji domyślnej zdefiniowanej w usłudze HDInsight. No
hostSubscriptionId Identyfikator subskrypcji Azure używany do tworzenia klastra usługi HDInsight. Jeśli nie jest to określone, używany jest identyfikator subskrypcji z kontekstu logowania Azure. No
clusterNamePrefix Prefiks nazwy klastra HDI, do którego na końcu nazwy klastra automatycznie dołączany jest znacznik czasu No
sparkVersion Wersja platformy Spark, jeśli typ klastra to "Spark" No
additionalLinkedServiceNames Określa dodatkowe konta przechowywania dla usługi powiązanej z HDInsight, aby usługa mogła je zarejestrować na Twoją rzecz. Te konta storage muszą znajdować się w tym samym regionie co klaster usługi HDInsight, który jest tworzony w tym samym regionie co konto storage określone przez linkedServiceName. No
osType Typ systemu operacyjnego. Dozwolone wartości to: Linux i Windows (tylko dla usługi HDInsight 3.3). Wartość domyślna to Linux. No
hcatalogLinkedServiceName Nazwa połączonej usługi Azure SQL wskazującej bazę danych HCatalog. Klaster usługi HDInsight na żądanie jest tworzony przy użyciu Azure SQL Database jako magazynu metadanych. No
connectVia Integration Runtime do przesyłania działań do tej połączonej usługi HDInsight. W przypadku połączonej usługi HDInsight na żądanie obsługuje ona tylko Azure Integration Runtime. Jeśli nie zostanie to określone, zostanie użyta Azure Integration Runtime domyślna. No
clusterUserName Nazwa użytkownika do dostępu do klastra. No
clusterPassword Hasło w formacie bezpiecznego ciągu znaków do dostępu do klastra. No
clusterSshUserName Nazwa użytkownika do protokołu SSH zdalnie łączy się z węzłem klastra (dla systemu Linux). No
clusterSshPassword Bezpieczny ciąg hasła do zdalnego połączenia się z węzłem klastra za pomocą SSH (dla systemu Linux). No
scriptActions Podaj skrypt personalizacji dla usługi HDInsight podczas tworzenia klastra na żądanie.
Obecnie narzędzie do tworzenia interfejsu użytkownika obsługuje określanie tylko 1 akcji skryptu, ale można przejść przez to ograniczenie w formacie JSON (określ wiele akcji skryptu w formacie JSON).
No

Important

Usługa HDInsight obsługuje wiele wersji klastra Hadoop, które można wdrożyć. Każdy wybór wersji tworzy określoną wersję dystrybucji Hortonworks Data Platform (HDP) i zestaw składników zawartych w tej dystrybucji. Lista obsługiwanych wersji usługi HDInsight jest aktualizowana w celu udostępnienia najnowszych składników i poprawek ekosystemu usługi Hadoop. Upewnij się, że zawsze odwołujesz się do najnowszych informacji o obsługiwanej wersji usługi HDInsight i typie systemu operacyjnego, aby upewnić się, że używasz obsługiwanej wersji usługi HDInsight.

Important

Obecnie połączone usługi HDInsight nie obsługują bazy danych HBase, Interactive Query (Hive LLAP), Storm.

  • przykład pliku JSON additionalLinkedServiceNames
"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Authentication

Uwierzytelnianie głównego obiektu usługi

Połączona usługa na żądanie HDInsight wymaga uwierzytelniania jednostki usługi w celu utworzenia klastrów HDInsight w Twoim imieniu. Aby użyć uwierzytelniania za pomocą zasady usługi, zarejestruj jednostkę aplikacji w Microsoft Entra ID i przyznaj jej rolę Contributor dla subskrypcji lub grupy zasobów, w której tworzony jest klaster HDInsight. Aby uzyskać szczegółowe instrukcje, zobacz Użyj portal, aby utworzyć aplikację Microsoft Entra i jednostkę usługi, która może uzyskiwać dostęp do zasobów. Zanotuj następujące wartości, których użyjesz do zdefiniowania połączonej usługi:

  • Identyfikator aplikacji
  • Klucz aplikacji
  • Identyfikator dzierżawy

Użyj uwierzytelniania jednostki usługi (service principal), określając następujące właściwości:

Property Description Required
servicePrincipalId Określ identyfikator klienta aplikacji. Yes
servicePrincipalKey Określ klucz aplikacji. Yes
tenant Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu portalu Azure. Yes

Uwierzytelnianie tożsamości zarządzanej

W przypadku korzystania z uwierzytelniania tożsamości zarządzanej dla usług połączonych Azure HDInsight na żądanie upewnij się, że obiekt tożsamość zarządzana ma dostęp roli Współautor do grupy zasobów.

Konta podstawowej storage usługi ADLS Gen2 obsługują teraz uwierzytelnianie oparte na przypisanej przez użytkownika tożsamości zarządzanej (UAMI) oprócz istniejącego uwierzytelniania opartego na kluczach. Użytkownik UAMI musi mieć uprawnienia właściciela danych obiektów blob Storage na podstawowym koncie magazynu.

Ograniczenia:

  • Podstawowe konto magazynu ADLS Gen2 i UAMI muszą znajdować się w tej samej grupie zasobów, co grupa użyta do utworzenia klastra usługi HDInsight na żądanie.
  • Nazwa obiektu poświadczeń dla UAMI w usłudze Data Factory musi dokładnie odpowiadać nazwie UAMI.

Aby uzyskać więcej informacji, zobacz Tworzenie Azure HDInsight — Azure Data Lake Storage Gen2 — portal i Zarządzane tożsamościami w Azure HDInsight

Właściwości zaawansowane

Można również określić następujące właściwości dla szczegółowej konfiguracji klastra usługi HDInsight na żądanie.

Property Description Required
coreConfiguration Określa podstawowe parametry konfiguracji (jak w core-site.xml) dla klastra usługi HDInsight do utworzenia. No
hBaseConfiguration Określa parametry konfiguracji bazy danych HBase (hbase-site.xml) dla klastra usługi HDInsight. No
hdfsConfiguration Określa parametry konfiguracji systemu plików HDFS (hdfs-site.xml) dla klastra usługi HDInsight. No
hiveConfiguration Określa parametry konfiguracyjne Hive (hive-site.xml) dla klastra HDInsight. No
mapReduceConfiguration Określa parametry konfiguracji MapReduce (mapred-site.xml) dla klastra usługi HDInsight. No
oozieConfiguration Określa parametry konfiguracji Oozie (oozie-site.xml) dla klastra usługi HDInsight. No
stormConfiguration Określa parametry konfiguracji systemu Storm (storm-site.xml) dla klastra usługi HDInsight. No
yarnConfiguration Określa parametry konfiguracji usługi Yarn (yarn-site.xml) dla klastra usługi HDInsight. No
  • Przykład — konfiguracja klastra usługi HDInsight na żądanie z zaawansowanymi właściwościami
{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenant id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Rozmiary węzłów

Rozmiary węzłów głównych, danych i węzłów dozorcy można określić przy użyciu następujących właściwości:

Property Description Required
headNodeSize Określa rozmiar węzła głównego. Wartość domyślna to: Standard_D3. Aby uzyskać szczegółowe informacje, zobacz sekcję Określanie rozmiarów węzłów . No
dataNodeSize Określa rozmiar węzła danych. Wartość domyślna to: Standard_D3. No
zookeeperNodeSize Określa rozmiar węzła usługi Zoo Keeper. Wartość domyślna to: Standard_D3. No
  • Określanie rozmiarów węzłów Zobacz artykuł Sizes of Virtual Machines dla wartości ciągów, które należy określić dla właściwości wymienionych w poprzedniej sekcji. Wartości muszą być zgodne z CMDLETs i APIs, do których odwołuje się artykuł. Jak widać w artykule, węzeł danych o dużym rozmiarze (domyślnym) ma 7 GB pamięci, co może nie być wystarczająco dobre dla danego scenariusza.

Jeśli chcesz utworzyć węzły główne i węzły robocze o rozmiarze D4, określ Standard_D4 jako wartość właściwości headNodeSize i dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Jeśli określisz nieprawidłową wartość tych właściwości, może zostać wyświetlony następujący błąd: Nie można utworzyć klastra. Wyjątek: nie można ukończyć operacji tworzenia klastra. Operacja zakończona niepowodzeniem z kodem „400”. Końcowy stan klastra: „Błąd”. Komunikat: "PreClusterCreationValidationFailure". Po wyświetleniu tego błędu upewnij się, że używasz CMDLET & APIS nazwa z tabeli w Znane rozmiary maszyn wirtualnych artykule.

Przynieś własne środowisko obliczeniowe

W tej konfiguracji użytkownicy mogą zarejestrować już istniejące środowisko obliczeniowe jako połączoną usługę. Środowisko obliczeniowe jest zarządzane przez użytkownika, a usługa używa go do wykonywania działań.

Ten typ konfiguracji jest obsługiwany w następujących środowiskach obliczeniowych:

  • Azure HDInsight
  • Azure Batch
  • Azure Machine Learning
  • Azure Data Lake Analytics
  • Azure SQL DB, Azure Synapse Analytics, SQL Server

połączona usługa Azure HDInsight

Możesz utworzyć usługę powiązaną Azure HDInsight, aby zarejestrować swój klaster HDInsight w ramach usługi Azure Data Factory lub obszaru roboczego Azure Synapse.

Przykład użycia uwierzytelniania podstawowego

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Przykład użycia tożsamości zarządzanej przypisanej przez system

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "clusterAuthType": "SystemAssignedManagedIdentity",
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Przykład użycia tożsamości zarządzanej przypisanej przez użytkownika

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
         "clusterAuthType": "UserAssignedManagedIdentity",
         "credential": {
                "referenceName": "CredentialName",
                "type": "CredentialReference"
            },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property Description Required
typ Właściwość type powinna być ustawiona na wartość HDInsight. Yes
clusterUri Identyfikator URI klastra usługi HDInsight. Yes
nazwa użytkownika Określ nazwę użytkownika, który ma zostać użyty do nawiązania połączenia z istniejącym klastrem usługi HDInsight. Yes
hasło Określ hasło dla konta użytkownika. Yes
linkedServiceName Nazwa połączonej usługi Azure Storage odwołującej się do magazynu obiektów blob Azure używanego przez klaster usługi HDInsight.

Obecnie nie można określić połączonej usługi Azure Data Lake Storage (Gen 2) dla tej właściwości. Jeśli klaster usługi HDInsight ma dostęp do magazynu Data Lake, możesz uzyskać dostęp do danych w Azure Data Lake Storage (Gen 2) ze skryptów Hive/Pig.

Yes
isEspEnabled Określ wartość "true", jeśli klaster usługi HDInsight ma włączony pakiet Enterprise Security . Wartość domyślna to "false". No
connectVia Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć Azure Integration Runtime lub lokalnie hostowanego Integration Runtime. Jeśli nie zostanie to określone, zostanie użyta Azure Integration Runtime domyślna.
W przypadku klastra HDInsight z włączonym Pakietem Zabezpieczeń Korporacyjnych (ESP) należy użyć lokalnie hostowanego środowiska uruchomieniowego integracji, które ma połączenie z klastrem lub powinno zostać wdrożone w tej samej wirtualnej sieci co klaster ESP HDInsight.
No
clusterAuthType Określ typ uwierzytelniania klastra usługi HDInsight. Obsługiwane typy uwierzytelniania to "BasicAuth", "SystemAssignedManagedIdentity", "UserAssignedManagedIdentity". Wymagane do korzystania z uwierzytelniania tożsamości zarządzanej. Jeśli pole nie istnieje, wartość domyślna to BasicAuth
poświadczenie Określ referencję do poświadczeń zawierającą informacje o obiekcie Tożsamości Zarządzanej dla klastra usługi HDInsight. Wymagane tylko dla uwierzytelniania za pomocą "UserAssignedManagedIdentity"

Authentication

Połączona usługa Azure Storage dla ADLS Gen2 obsługuje teraz tożsamości zarządzane przypisane przez system i przypisane przez użytkownika, oprócz istniejących metod uwierzytelniania. Ta obsługa jest domyślnie dostępna podczas korzystania z Azure Integration Runtime (Azure IR) i jest wspierana w Self-hosted Integration Runtime (SHIR) od wersji 5.55.9306.2 lub nowszej. W przypadku Azure Blob Storage połączona usługa Azure Storage nadal obsługuje tylko uwierzytelnianie klucza konta. Uwierzytelnianie tożsamości zarządzanej klastra jest teraz również domyślnie dostępne przy użyciu Azure Integration Runtime i obsługiwane na SHIR począwszy od wersji 5.58 lub nowszej. Podczas tworzenia klastra można użyć tylko jednej metody uwierzytelniania dla klastra. Aby uzyskać szczegółowe informacje na temat tworzenia klastrów z tożsamością zarządzaną i zarządzania nimi, zobacz Tworzenie klastra Azure HDInsight i zarządzanie nim przy użyciu uwierzytelniania Entra ID

Important

Usługa HDInsight obsługuje wiele wersji klastra Hadoop, które można wdrożyć. Każdy wybór wersji tworzy określoną wersję dystrybucji Hortonworks Data Platform (HDP) i zestaw składników zawartych w tej dystrybucji. Lista obsługiwanych wersji usługi HDInsight jest aktualizowana w celu udostępnienia najnowszych składników i poprawek ekosystemu usługi Hadoop. Upewnij się, że zawsze odwołujesz się do najnowszych informacji o obsługiwanej wersji usługi HDInsight i typie systemu operacyjnego, aby upewnić się, że używasz obsługiwanej wersji usługi HDInsight.

Important

Obecnie połączone usługi HDInsight nie obsługują bazy danych HBase, Interactive Query (Hive LLAP), Storm.

połączona usługa Azure Batch

Note

Zalecamy użycie modułu Azure Az programu PowerShell do interakcji z Azure. Aby rozpocząć, zobacz Install Azure PowerShell. Aby dowiedzieć się, jak przeprowadzić migrację do modułu Az programu PowerShell, zobacz Migrate Azure PowerShell z modułu AzureRM do modułu Az.

Możesz utworzyć połączoną usługę Azure Batch, aby zarejestrować pulę maszyn wirtualnych usługi Batch w danych lub obszarze roboczym usługi Synapse. Działanie niestandardowe można uruchomić przy użyciu Azure Batch.

Jeśli dopiero zaczynasz korzystać z usługi Azure Batch, zobacz następujące artykuły:

Important

Podczas tworzenia nowej puli Azure Batch należy użyć "VirtualMachineConfiguration" i NIE "CloudServiceConfiguration".

Example

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Properties

Property Description Required
typ Właściwość type powinna być ustawiona na AzureBatch. Yes
accountName Nazwa konta Azure Batch. Yes
accessKey Klucz dostępu dla konta Azure Batch. Yes
batchUri Adres URL konta Azure Batch w formacie https://batchaccountname.region.batch.azure.com. Yes
poolName Nazwa puli maszyn wirtualnych. Yes
linkedServiceName Nazwa połączonej usługi Azure Batch skojarzonej z tą połączoną usługą Azure Storage. Ta połączona usługa jest używana na potrzeby plików przejściowych wymaganych do uruchomienia działania. Yes
connectVia Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć Azure Integration Runtime lub lokalnie hostowanego Integration Runtime. Jeśli nie zostanie to określone, zostanie użyta Azure Integration Runtime domyślna. No

połączona usługa Machine Learning Studio (klasyczna)

Important

Obsługa platformy Azure Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do Azure Machine Learning do tej daty.

Od 1 grudnia 2021 r. nie można utworzyć nowych zasobów Machine Learning Studio (klasycznych) (obszar roboczy i plan usługi internetowej). Do 31 sierpnia 2024 r. można nadal używać istniejących eksperymentów Machine Learning Studio (klasycznych) i usług internetowych. Aby uzyskać więcej informacji, zobacz:

Machine Learning Studio (klasyczna) dokumentacja jest wycofywana i może nie zostać zaktualizowana w przyszłości.

Utworzysz usługę powiązaną Machine Learning Studio (klasyczną), aby zarejestrować punkt końcowy oceniania wsadowego Machine Learning Studio (klasycznego) w fabryce danych lub przestrzeni roboczej usługi Synapse.

Example

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Properties

Property Description Required
Typ Właściwość type powinna być ustawiona na: AzureML. Yes
mlEndpoint Adres URL oceniania grupowego. Yes
apiKey Interfejs API opublikowanego modelu obszaru roboczego. Yes
updateResourceEndpoint Adres URL aktualizacji zasobu dla punktu końcowego usługi internetowej ML Studio (wersja klasyczna) służący do aktualizowania predykcyjnej usługi sieci Web przy użyciu wytrenowanego pliku modelu No
servicePrincipalId Określ identyfikator klienta aplikacji. Wymagane, jeśli określono parametr updateResourceEndpoint
servicePrincipalKey Określ klucz aplikacji. Wymagane, jeśli określono parametr updateResourceEndpoint
dzierżawa Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu portalu Azure. Wymagane, jeśli określono parametr updateResourceEndpoint
connectVia Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć Azure Integration Runtime lub lokalnie hostowanego Integration Runtime. Jeśli nie zostanie to określone, zostanie użyta Azure Integration Runtime domyślna. No

połączona usługa Azure Machine Learning

Utworzysz połączoną usługę Azure Machine Learning, aby połączyć obszar roboczy Azure Machine Learning z fabryką danych lub obszarem roboczym usługi Synapse.

Note

Obecnie tylko uwierzytelnianie jednostki usługi jest obsługiwane w przypadku usługi połączonej Azure Machine Learning.

Example

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
Typ Właściwość type powinna być ustawiona na: AzureMLService. Yes
subscriptionId identyfikator subskrypcji Azure Yes
resourceGroupName name Yes
mlWorkspaceName nazwa obszaru roboczego Azure Machine Learning Yes
servicePrincipalId Określ identyfikator klienta aplikacji. Yes
servicePrincipalKey Określ klucz aplikacji. Yes
dzierżawa Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu portalu Azure. Wymagane, jeśli określono parametr updateResourceEndpoint
connectVia Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć Azure Integration Runtime lub lokalnie hostowanego Integration Runtime. Jeśli nie zostanie to określone, zostanie użyta Azure Integration Runtime domyślna. No

połączona usługa Azure Data Lake Analytics

Utworzysz połączoną usługę Azure Data Lake Analytics w celu połączenia usługi obliczeniowej Azure Data Lake Analytics z fabryką danych lub obszarem roboczym usługi Synapse. Działanie Data Lake Analytics U-SQL w potoku odnosi się do tej połączonej usługi.

Example

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
typ Właściwość typu powinna być ustawiona na: AzureDataLakeAnalytics. Yes
accountName Azure Data Lake Analytics nazwa konta. Yes
dataLakeAnalyticsUri URI usługi Azure Data Lake Analytics No
subscriptionId identyfikator subskrypcji Azure No
resourceGroupName nazwa grupy zasobów Azure No
servicePrincipalId Określ identyfikator klienta aplikacji. Yes
servicePrincipalKey Określ klucz aplikacji. Yes
dzierżawa Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu portalu Azure. Yes
connectVia Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć Azure Integration Runtime lub lokalnie hostowanego Integration Runtime. Jeśli nie zostanie to określone, zostanie użyta Azure Integration Runtime domyślna. No

usługa powiązana z Azure Databricks

Możesz utworzyć Azure Databricks połączoną usługę aby zarejestrować obszar roboczy usługi Databricks używany do uruchamiania obciążeń usługi Databricks (notes, jar, python).

Important

Połączone usługi Databricks obsługują pule instancji oraz uwierzytelnianie z użyciem tożsamości zarządzanej przypisanej przez system.

Przykład — używanie nowego klastra zadań w usłudze Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Przykład — używanie istniejącego klastra interaktywnego w usłudze Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Properties

Property Description Required
name Nazwa połączonej usługi Yes
typ Właściwość type powinna być ustawiona na: Azure Databricks. Yes
domena Określ odpowiednio region Azure na podstawie regionu obszaru roboczego usługi Databricks. Przykład: https://eastus.azuredatabricks.net Yes
accessToken Token dostępu jest wymagany, aby usługa uwierzytelniła się w Azure Databricks. Access token należy wygenerować z obszaru roboczego usługi Databricks. Bardziej szczegółowe kroki znajdowania tokenu access można znaleźć here No
MSI Użyj tożsamości zarządzanej usługi (przypisanej przez system), aby uwierzytelnić się w Azure Databricks. Nie potrzebujesz tokenu Access podczas korzystania z uwierzytelniania "MSI". Więcej szczegółów na temat uwierzytelniania tożsamości zarządzanej można znaleźć here No
existingClusterId Identyfikator istniejącego klastra do uruchamiania wszystkich zadań. Powinien to być już utworzony klaster interaktywny. Jeśli klaster przestanie odpowiadać, może być konieczne ręczne ponowne uruchomienie klastra. Usługa Databricks sugeruje uruchamianie zadań w nowych klastrach w celu zwiększenia niezawodności. Identyfikator interaktywnego klastra można znaleźć w obszarze roboczym usługi Databricks —> Klastry —> Nazwa klastra interaktywnego —> Konfiguracja —> Tagi. Więcej szczegółów No
instancePoolId Identyfikator puli wystąpień istniejącej puli w obszarze roboczym usługi Databricks. No
newClusterVersion Wersja platformy Spark klastra. Tworzy grupę zadań w usłudze Databricks. No
newClusterNumOfWorker Liczba węzłów roboczych, które powinien mieć ten klaster. Klaster ma jeden sterownik Spark i num_workers egzekutorów, co daje łącznie num_workers + 1 węzłów Spark. Ciąg sformatowany jako Int32, jak "1", oznacza, że wartość numOfWorker to 1, a "1:10" oznacza automatyczne skalowanie od 1 jako minimum do 10 jako maksimum. No
newClusterNodeType To pole koduje za pomocą jednej wartości zasoby dostępne dla każdego z węzłów platformy Spark w tym klastrze. Na przykład węzły platformy Spark można aprowizować i optymalizować pod kątem obciążeń intensywnie korzystających z pamięci lub obliczeń. To pole jest wymagane dla nowego klastra No
newClusterSparkConf zestaw opcjonalnych par klucz-wartość konfiguracji Spark określonych przez użytkownika. Użytkownicy mogą również przekazać ciąg dodatkowych opcji JVM do sterownika i funkcji wykonawczych za pośrednictwem odpowiednio spark.driver.extraJavaOptions i spark.executor.extraJavaOptions. No
newClusterInitScripts zestaw opcjonalnych skryptów inicjowania zdefiniowanych przez użytkownika dla nowego klastra. Skrypty inicjowania można określić w plikach obszaru roboczego (zalecane) lub za pomocą ścieżki DBFS (starsza wersja). No

powiązana usługa Azure SQL Database

Utworzysz połączoną usługę Azure SQL i użyjesz jej z działaniem Stored Procedure Activity w celu wywołania procedury składowanej z poziomu potoku. Aby uzyskać szczegółowe informacje na temat tej połączonej usługi, zobacz artykuł Azure SQL connector .

połączona usługa Azure Synapse Analytics

Utworzysz połączoną usługę Azure Synapse Analytics i użyjesz jej z działaniem Stored Procedure Activity aby wywołać procedurę składowaną za pomocą potoku. Aby uzyskać szczegółowe informacje na temat tej połączonej usługi, zobacz artykuł Azure Synapse Analytics Connector.

połączona usługa SQL Server

Utworzysz połączoną usługę SQL Server i użyjesz jej z działaniem Stored Procedure Activity, aby wywołać procedurę składowaną w ramach potoku. Aby uzyskać szczegółowe informacje na temat tej połączonej usługi, zobacz artykuł SQL Server connector .

połączona usługa Azure Synapse Analytics (Artefakty)

Utworzysz połączoną usługę Azure Synapse Analytics (Artifacts) i użyjesz jej z Synapse Notebook Activity oraz Synapse Spark job definition Activity.

Example

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntegrationRuntimeReference"
        }
    }
}

Properties

Property Description Required
name Nazwa połączonej usługi Yes
description opis połączonej usługi No
annotations adnotacje połączonej usługi No
typ Właściwość type powinna być ustawiona na AzureSynapseArtifacts Yes
punkt końcowy Adres URL Azure Synapse Analytics Yes
uwierzytelnianie Ustawieniem domyślnym jest tożsamość zarządzana przypisana przez system Yes
workspaceResourceId identyfikator zasobu przestrzeni roboczej Yes
connectVia Integration runtime, który ma być używany do nawiązywania połączenia z magazynem danych. Możesz użyć Azure Integration Runtime. Jeśli nie zostanie to określone, zostanie użyta Azure Integration Runtime domyślna. Samo-hostowana integracja środowiska uruchomieniowego nie jest obecnie obsługiwana. Yes

połączona usługa Azure Function

Utworzysz usługę powiązaną z funkcjami Azure i użyjesz jej z działaniem Funkcji Azure, aby uruchomić funkcje Azure w tym potoku. Zwracany typ funkcji Azure musi być prawidłowym JObject. (Pamiętaj, że JArraynie jest JObject.) Każdy typ zwracany inny niż JObject kończy się niepowodzeniem i zgłasza błąd użytkownika Zawartość odpowiedzi nie jest prawidłowym obiektem JObject.

Property Description Required
typ Właściwość type musi być ustawiona na: AzureFunction yes
adres URL aplikacji funkcji Adres URL aplikacji funkcji Azure. Format jest https://<accountname>.azurewebsites.net. Ten adres URL jest wartością w sekcji URL gdy przeglądasz swoją Aplikację Funkcji w portalu Azure yes
klucz funkcji Klucz dostępu dla funkcji Azure. Kliknij sekcję Zarządzanie odpowiednią funkcją i skopiuj klucz funkcji lub klucz hosta. Dowiedz się więcej tutaj: Praca z kluczami dostępu yes

Aby uzyskać listę obsługiwanych działań przekształcania, zobacz Przekształcanie danych.