Udostępnij za pośrednictwem


Środowiska obliczeniowe obsługiwane przez potoki usługi Azure Data Factory i Synapse

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Ważne

Obsługa usługi Azure Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning do tej daty.

Od 1 grudnia 2021 r. nie można utworzyć nowych zasobów usługi Machine Learning Studio (klasycznego) (obszaru roboczego i planu usługi internetowej). Do 31 sierpnia 2024 r. możesz nadal korzystać z istniejących eksperymentów i usług internetowych usługi Machine Learning Studio (klasycznych). Aby uzyskać więcej informacji, zobacz:

Dokumentacja usługi Machine Learning Studio (klasyczna) jest wycofywana i może nie zostać zaktualizowana w przyszłości.

W tym artykule opisano różne środowiska obliczeniowe, których można użyć do przetwarzania lub przekształcania danych. Zawiera również szczegółowe informacje o różnych konfiguracjach (na żądanie a korzystanie z własnych) obsługiwanych podczas konfigurowania połączonych usług łączących te środowiska obliczeniowe.

Poniższa tabela zawiera listę obsługiwanych środowisk obliczeniowych i działań, które można na nich uruchomić.

Środowisko obliczeniowe Działania
Klaster usługi HDInsight na żądanie lub własny klaster usługi HDInsight Hive, Pig, Spark, MapReduce, Hadoop Streaming
Azure Batch Okres niestandardowy
ML Studio (wersja klasyczna) Działania programu ML Studio (klasyczne): wykonywanie wsadowe i aktualizowanie zasobu
Azure Machine Learning Potok wykonywania usługi Azure Machine Learning
Azure Data Lake Analytics Język U-SQL usługi Data Lake Analytics
Azure SQL, Azure Synapse Analytics, SQL Server Procedura składowana
Azure Databricks Notes, Jar, Python
Azure Synapse Analytics (artefakty) Działanie notesu usługi Synapse, definicja zadania platformy Synapse Spark
Funkcja platformy Azure Działanie funkcji platformy Azure

Środowisko obliczeniowe usługi HDInsight

Zapoznaj się z poniższą tabelą, aby uzyskać szczegółowe informacje na temat obsługiwanych typów połączonych usług magazynu na potrzeby konfiguracji w środowisku na żądanie i byOC (Bring your own compute).

W połączonej usłudze obliczeniowej Nazwa właściwości Opis Obiekt blob ADLS Gen2 Azure SQL DB Usługa ADLS Gen 1
Na żądanie linkedServiceName Połączona usługa Azure Storage używana przez klaster na żądanie do przechowywania i przetwarzania danych. Tak Tak Nie. Nie.
additionalLinkedServiceNames Określa dodatkowe konta magazynu dla połączonej usługi HDInsight, aby usługa mogła je zarejestrować w Twoim imieniu. Tak Nie. Nie. Nie.
hcatalogLinkedServiceName Nazwa połączonej usługi Azure SQL wskazującej bazę danych HCatalog. Klaster usługi HDInsight na żądanie jest tworzony przy użyciu bazy danych Azure SQL Database jako magazynu metadanych. Nie Nie. Tak Nie.
BYOC linkedServiceName Dokumentacja połączonej usługi Azure Storage. Tak Tak Nie. Nie.
additionalLinkedServiceNames Określa dodatkowe konta magazynu dla połączonej usługi HDInsight, aby usługa mogła je zarejestrować w Twoim imieniu. Nie Nie. Nie. Nie.
hcatalogLinkedServiceName Odwołanie do połączonej usługi Azure SQL wskazującej bazę danych HCatalog. Nie Nie. Nie. Nie.

Połączona usługa Azure HDInsight na żądanie

W tej konfiguracji środowisko obliczeniowe jest w pełni zarządzane przez usługę. Jest on tworzony automatycznie przez usługę, zanim zadanie zostanie przesłane do przetwarzania danych i usunięte po zakończeniu zadania. Możesz utworzyć połączoną usługę dla środowiska obliczeniowego na żądanie, skonfigurować ją i kontrolować szczegółowe ustawienia wykonywania zadań, zarządzania klastrem i akcji uruchamiania.

Uwaga

Konfiguracja na żądanie jest obecnie obsługiwana tylko w przypadku klastrów usługi Azure HDInsight. Usługa Azure Databricks obsługuje również zadania na żądanie przy użyciu klastrów zadań. Aby uzyskać więcej informacji, zobacz połączoną usługę Azure Databricks.

Usługa może automatycznie utworzyć klaster usługi HDInsight na żądanie w celu przetwarzania danych. Klaster jest tworzony w tym samym regionie co konto magazynu (właściwość linkedServiceName w formacie JSON) skojarzonym z klastrem. Konto magazynu to standardowe konto must usługi Azure Storage ogólnego przeznaczenia.

Zwróć uwagę na następujące ważne kwestie dotyczące połączonej usługi HDInsight na żądanie:

  • Klaster usługi HDInsight na żądanie jest tworzony w ramach subskrypcji platformy Azure. Klaster jest widoczny w witrynie Azure Portal, gdy klaster jest uruchomiony.
  • Dzienniki zadań uruchamianych w klastrze usługi HDInsight na żądanie są kopiowane do konta magazynu skojarzonego z klastrem usługi HDInsight. KlasterUserName, clusterPassword, clusterSshUserName, clusterSshPassword zdefiniowany w połączonej definicji usługi służy do logowania się do klastra w celu szczegółowego rozwiązywania problemów w cyklu życia klastra.
  • Opłaty są naliczane tylko za czas uruchamiania i uruchamiania klastra usługi HDInsight.
  • Możesz użyć akcji skryptu z połączoną usługą Azure HDInsight na żądanie.

Ważne

Aprowizowania klastra usługi Azure HDInsight na żądanie zwykle trwa co najmniej 20 minut .

Przykład

Poniższy kod JSON definiuje połączoną usługę HDInsight opartą na systemie Linux. Usługa automatycznie tworzy klaster usługi HDInsight oparty na systemie Linux w celu przetworzenia wymaganego działania.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenent id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Ważne

Klaster usługi HDInsight tworzy kontener domyślny w magazynie obiektów blob określonym w kodzie JSON (linkedServiceName). Usługa HDInsight nie powoduje usunięcia tego kontenera w przypadku usunięcia klastra. Wynika to z ustawienia fabrycznego. W przypadku połączonej usługi HDInsight na żądanie klaster usługi HDInsight jest tworzony za każdym razem, gdy trzeba przetworzyć wycinek — o ile w tym momencie nie istnieje aktywny klaster (timeToLive) — i zostaje usunięty po zakończeniu przetwarzania.

W miarę uruchamiania większej liczby działań w usłudze Azure Blob Storage jest wyświetlanych wiele kontenerów. Jeśli nie potrzebujesz ich do rozwiązywania problemów z zadaniami, możesz je usunąć, aby zmniejszyć koszt magazynowania. Nazwy tych kontenerów są zgodne z następującym wzorcem: adf**yourfactoryorworkspacename**-**linkedservicename**-datetimestamp. Użyj narzędzi, takich jak Eksplorator usługi Microsoft Azure Storage, aby usunąć kontenery w usłudze Azure Blob Storage.

Właściwości

Właściwości Opis Wymagania
type Właściwość type powinna być ustawiona na wartość HDInsightOnDemand. Tak
clusterSize Liczba węzłów procesu roboczego/danych w klastrze. Klaster usługi HDInsight jest tworzony z 2 węzłami głównymi wraz z liczbą węzłów roboczych, które określisz dla tej właściwości. Węzły mają rozmiar Standard_D3, który ma 4 rdzenie, więc klaster 4 węzłów roboczych przyjmuje 24 rdzenie (4*4 = 16 rdzeni dla węzłów roboczych, plus 2*4 = 8 rdzeni dla węzłów głównych). Aby uzyskać szczegółowe informacje, zobacz Konfigurowanie klastrów w usłudze HDInsight przy użyciu usług Hadoop, Spark, Kafka i innych . Tak
linkedServiceName Połączona usługa Azure Storage używana przez klaster na żądanie do przechowywania i przetwarzania danych. Klaster usługi HDInsight jest tworzony w tym samym regionie co to konto usługi Azure Storage. Usługa Azure HDInsight ma ograniczenia całkowitej liczby rdzeni, których możesz użyć w każdym obsługiwanym przez nią regionie platformy Azure. Upewnij się, że masz wystarczające limity przydziału rdzeni w tym regionie świadczenia usługi Azure, aby spełnić wymagany rozmiar klastra. Aby uzyskać szczegółowe informacje, zobacz Konfigurowanie klastrów w usłudze HDInsight przy użyciu usług Hadoop, Spark, Kafka i nie tylko

Obecnie nie można utworzyć klastra usługi HDInsight na żądanie, który używa usługi Azure Data Lake Storage (Gen 2) jako magazynu. Jeśli chcesz przechowywać dane wynikowe z przetwarzania usługi HDInsight w usłudze Azure Data Lake Storage (Gen 2), użyj działania kopiowania, aby skopiować dane z usługi Azure Blob Storage do usługi Azure Data Lake Storage (Gen 2).

Tak
clusterResourceGroup Klaster usługi HDInsight jest tworzony w tej grupie zasobów. Tak
timetolive Dozwolony czas bezczynności klastra usługi HDInsight na żądanie. Określa, jak długo klaster usługi HDInsight na żądanie pozostaje aktywny po zakończeniu działania, jeśli w klastrze nie ma żadnych innych aktywnych zadań. Minimalna dozwolona wartość to 5 minut (00:05:00).

Jeśli na przykład uruchomienie działania trwa 6 minut, a wartość timetolive jest ustawiona na 5 minut, klaster pozostaje aktywny przez 5 minut po 6 minutach przetwarzania działania. Jeśli zostanie wykonane inne uruchomienie działania z 6-minutowym oknem, jest ono przetwarzane przez ten sam klaster.

Tworzenie klastra usługi HDInsight na żądanie jest kosztowną operacją (może chwilę potrwać), dlatego użyj tego ustawienia w razie potrzeby, aby zwiększyć wydajność usługi przez ponowne użycie klastra usługi HDInsight na żądanie.

Jeśli ustawisz wartość timetolive na 0, klaster zostanie usunięty natychmiast po zakończeniu działania. Podczas ustawiania wysokiej wartości klaster może pozostać bezczynny, aby zalogować się w celu rozwiązywania problemów, ale może to spowodować wysokie koszty. Dlatego ważne jest, aby ustawić odpowiednią wartość na podstawie Twoich potrzeb.

Jeśli wartość właściwości timetolive jest odpowiednio ustawiona, wiele potoków może współużytkować wystąpienie klastra usługi HDInsight na żądanie.
Tak
clusterType Typ klastra usługi HDInsight do utworzenia. Dozwolone wartości to "hadoop" i "spark". Jeśli nie zostanie określony, wartość domyślna to hadoop. Nie można utworzyć klastra z obsługą pakietu Enterprise Security na żądanie, zamiast tego użyj istniejącego klastra/ użyj własnego środowiska obliczeniowego. Nie.
version Wersja klastra usługi HDInsight. Jeśli nie zostanie określony, używa bieżącej wersji domyślnej zdefiniowanej w usłudze HDInsight. Nie.
hostSubscriptionId Identyfikator subskrypcji platformy Azure używany do tworzenia klastra usługi HDInsight. Jeśli nie zostanie określony, używa identyfikatora subskrypcji kontekstu logowania platformy Azure. Nie.
clusterNamePrefix Prefiks nazwy klastra USŁUGI HDI, znacznik czasu automatycznie dołącza na końcu nazwy klastra Nie.
sparkVersion Wersja platformy Spark, jeśli typ klastra to "Spark" Nie.
additionalLinkedServiceNames Określa dodatkowe konta magazynu dla połączonej usługi HDInsight, aby usługa mogła je zarejestrować w Twoim imieniu. Te konta magazynu muszą znajdować się w tym samym regionie co klaster usługi HDInsight, który jest tworzony w tym samym regionie co konto magazynu określone przez linkedServiceName. Nie.
osType Typ systemu operacyjnego. Dozwolone wartości to: Linux i Windows (tylko dla usługi HDInsight 3.3). Wartość domyślna to Linux. Nie.
hcatalogLinkedServiceName Nazwa połączonej usługi Azure SQL wskazującej bazę danych HCatalog. Klaster usługi HDInsight na żądanie jest tworzony przy użyciu usługi Azure SQL Database jako magazynu metadanych. Nie.
connectVia Środowisko Integration Runtime do wysłania działań do tej połączonej usługi HDInsight. W przypadku połączonej usługi HDInsight na żądanie obsługuje tylko środowisko Azure Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. Nie.
clusterUserName Nazwa użytkownika, aby uzyskać dostęp do klastra. Nie.
clusterPassword Hasło w typie bezpiecznego ciągu w celu uzyskania dostępu do klastra. Nie.
clusterSshUserName Nazwa użytkownika do protokołu SSH zdalnie łączy się z węzłem klastra (dla systemu Linux). Nie.
clusterSshPassword Hasło w typie bezpiecznego ciągu do zdalnego łączenia węzła klastra SSH (dla systemu Linux). Nie.
scriptActions Określ skrypt dostosowywania klastra usługi HDInsight podczas tworzenia klastra na żądanie.
Obecnie narzędzie do tworzenia interfejsu użytkownika obsługuje określanie tylko 1 akcji skryptu, ale można przejść przez to ograniczenie w formacie JSON (określ wiele akcji skryptu w formacie JSON).
Nie.

Ważne

Usługa HDInsight obsługuje wiele wersji klastra Hadoop, które można wdrożyć. Każdy wybór wersji tworzy określoną wersję dystrybucji Hortonworks Data Platform (HDP) i zestaw składników zawartych w tej dystrybucji. Lista obsługiwanych wersji usługi HDInsight jest aktualizowana w celu udostępnienia najnowszych składników i poprawek ekosystemu usługi Hadoop. Upewnij się, że zawsze odwołujesz się do najnowszych informacji o obsługiwanej wersji usługi HDInsight i typie systemu operacyjnego, aby upewnić się, że używasz obsługiwanej wersji usługi HDInsight.

Ważne

Obecnie połączone usługi HDInsight nie obsługują technologii HBase, Interactive Query (Hive LLAP), Storm.

  • przykład pliku JSON additionalLinkedServiceNames
"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Uwierzytelnianie nazwy głównej usługi

Połączona usługa HDInsight na żądanie wymaga uwierzytelniania jednostki usługi w celu utworzenia klastrów usługi HDInsight w Twoim imieniu. Aby użyć uwierzytelniania jednostki usługi, zarejestruj jednostkę aplikacji w usłudze Microsoft Entra ID i przyznaj jej rolę Współautor subskrypcji lub grupy zasobów, w której jest tworzony klaster usługi HDInsight. Aby uzyskać szczegółowe instrukcje, zobacz Tworzenie aplikacji i jednostki usługi Microsoft Entra przy użyciu portalu, które mogą uzyskiwać dostęp do zasobów. Zanotuj następujące wartości, których użyjesz do zdefiniowania połączonej usługi:

  • Application ID
  • Klucz aplikacji
  • Identyfikator dzierżawy

Użyj uwierzytelniania jednostki usługi, określając następujące właściwości:

Właściwości Opis Wymagania
servicePrincipalId Określ identyfikator klienta aplikacji. Tak
servicePrincipalKey Określ klucz aplikacji. Tak
tenant Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu witryny Azure Portal. Tak

Właściwości zaawansowane

Można również określić następujące właściwości dla szczegółowej konfiguracji klastra usługi HDInsight na żądanie.

Właściwości Opis Wymagania
coreConfiguration Określa podstawowe parametry konfiguracji (jak w core-site.xml) dla klastra usługi HDInsight do utworzenia. Nie.
hBaseConfiguration Określa parametry konfiguracji bazy danych HBase (hbase-site.xml) dla klastra usługi HDInsight. Nie.
hdfsConfiguration Określa parametry konfiguracji systemu plików HDFS (hdfs-site.xml) dla klastra usługi HDInsight. Nie.
hiveConfiguration Określa parametry konfiguracji hive (hive-site.xml) dla klastra usługi HDInsight. Nie.
mapReduceConfiguration Określa parametry konfiguracji MapReduce (mapred-site.xml) dla klastra usługi HDInsight. Nie.
oozieConfiguration Określa parametry konfiguracji Oozie (oozie-site.xml) dla klastra usługi HDInsight. Nie.
stormConfiguration Określa parametry konfiguracji systemu Storm (storm-site.xml) dla klastra usługi HDInsight. Nie.
yarnConfiguration Określa parametry konfiguracji usługi Yarn (yarn-site.xml) dla klastra usługi HDInsight. Nie.
  • Przykład — konfiguracja klastra usługi HDInsight na żądanie z zaawansowanymi właściwościami
{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenent id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Rozmiary węzłów

Rozmiary węzłów głównych, danych i węzłów dozorcy można określić przy użyciu następujących właściwości:

Właściwości Opis Wymagania
headNodeSize Określa rozmiar węzła głównego. Wartość domyślna to: Standard_D3. Aby uzyskać szczegółowe informacje, zobacz sekcję Określanie rozmiarów węzłów . Nie.
dataNodeSize Określa rozmiar węzła danych. Wartość domyślna to: Standard_D3. Nie.
zookeeperNodeSize Określa rozmiar węzła usługi Zoo Keeper. Wartość domyślna to: Standard_D3. Nie.
  • Określanie rozmiarów węzłów Zobacz artykuł Rozmiary maszyn wirtualnych dla wartości ciągów, które należy określić dla właściwości wymienionych w poprzedniej sekcji. Wartości muszą być zgodne z kluczami CMDLETs i APIS , do których odwołuje się artykuł. Jak widać w artykule, węzeł danych o dużym rozmiarze (domyślnym) ma 7 GB pamięci, co może nie być wystarczająco dobre dla danego scenariusza.

Jeśli chcesz utworzyć węzły główne o rozmiarze D4 i węzły robocze, określ Standard_D4 jako wartość właściwości headNodeSize i dataNodeSize.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Jeśli określisz nieprawidłową wartość tych właściwości, może zostać wyświetlony następujący błąd: Nie można utworzyć klastra. Wyjątek: nie można ukończyć operacji tworzenia klastra. Operacja zakończona niepowodzeniem z kodem „400”. Końcowy stan klastra: „Błąd”. Komunikat: "PreClusterCreationValidationFailure". Po wystąpieniu tego błędu upewnij się, że używasz nazwy poleceń CMDLET i interfejsów API z tabeli w artykule Rozmiary maszyn wirtualnych.

Korzystanie z własnego środowiska obliczeniowego

W tej konfiguracji użytkownicy mogą zarejestrować już istniejące środowisko obliczeniowe jako połączoną usługę. Środowisko obliczeniowe jest zarządzane przez użytkownika, a usługa używa go do wykonywania działań.

Ten typ konfiguracji jest obsługiwany w następujących środowiskach obliczeniowych:

  • Azure HDInsight
  • Usługa Azure Batch
  • Azure Machine Learning
  • Azure Data Lake Analytics
  • Azure SQL DB, Azure Synapse Analytics, SQL Server

Połączona usługa Azure HDInsight

Możesz utworzyć połączoną usługę Azure HDInsight, aby zarejestrować własny klaster usługi HDInsight za pomocą fabryki danych lub obszaru roboczego usługi Synapse.

Przykład

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Właściwości

Właściwości Opis Wymagania
type Właściwość type powinna być ustawiona na wartość HDInsight. Tak
clusterUri Identyfikator URI klastra usługi HDInsight. Tak
nazwa użytkownika Określ nazwę użytkownika, który ma zostać użyty do nawiązania połączenia z istniejącym klastrem usługi HDInsight. Tak
hasło Określ hasło dla konta użytkownika. Tak
linkedServiceName Nazwa połączonej usługi Azure Storage odwołującej się do magazynu obiektów blob platformy Azure używanego przez klaster usługi HDInsight.

Obecnie nie można określić połączonej usługi Azure Data Lake Storage (Gen 2) dla tej właściwości. Jeśli klaster usługi HDInsight ma dostęp do usługi Data Lake Store, możesz uzyskać dostęp do danych w usłudze Azure Data Lake Storage (Gen 2) za pomocą skryptów Hive/Pig.

Tak
isEspEnabled Określ wartość "true", jeśli klaster usługi HDInsight ma włączony pakiet Enterprise Security. Wartość domyślna to "false". Nie.
connectVia Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime.
W przypadku klastra usługi HDInsight z obsługą pakietu Enterprise Security (ESP) należy użyć własnego środowiska Integration Runtime, które ma widok do klastra lub powinno zostać wdrożone w tej samej sieci wirtualnej co klaster ESP HDInsight.
Nie.

Ważne

Usługa HDInsight obsługuje wiele wersji klastra Hadoop, które można wdrożyć. Każdy wybór wersji tworzy określoną wersję dystrybucji Hortonworks Data Platform (HDP) i zestaw składników zawartych w tej dystrybucji. Lista obsługiwanych wersji usługi HDInsight jest aktualizowana w celu udostępnienia najnowszych składników i poprawek ekosystemu usługi Hadoop. Upewnij się, że zawsze odwołujesz się do najnowszych informacji o obsługiwanej wersji usługi HDInsight i typie systemu operacyjnego, aby upewnić się, że używasz obsługiwanej wersji usługi HDInsight.

Ważne

Obecnie połączone usługi HDInsight nie obsługują technologii HBase, Interactive Query (Hive LLAP), Storm.

Połączona usługa Azure Batch

Uwaga

Do interakcji z platformą Azure zalecamy używanie modułu Azure Az w programie PowerShell. Aby rozpocząć, zobacz Instalowanie programu Azure PowerShell. Aby dowiedzieć się, jak przeprowadzić migrację do modułu Az PowerShell, zobacz Migracja programu Azure PowerShell z modułu AzureRM do modułu Az.

Możesz utworzyć połączoną usługę Azure Batch, aby zarejestrować pulę maszyn wirtualnych usługi Batch w danych lub obszarze roboczym usługi Synapse. Działanie niestandardowe można uruchomić przy użyciu usługi Azure Batch.

Jeśli dopiero zaczynasz korzystać z usługi Azure Batch, zobacz następujące artykuły:

Ważne

Podczas tworzenia nowej puli usługi Azure Batch należy użyć polecenia "VirtualMachineConfiguration" i NIE "CloudServiceConfiguration". Aby uzyskać więcej informacji, zobacz Wskazówki dotyczące migracji puli usługi Azure Batch.

Przykład

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

Właściwości

Właściwości Opis Wymagania
type Właściwość type powinna być ustawiona na AzureBatch. Tak
accountName Nazwa konta usługi Azure Batch. Tak
accessKey Klucz dostępu dla konta usługi Azure Batch. Tak
batchUri Adres URL konta usługi Azure Batch w formacie https:// batchaccountname.region.batch.azure.com. Tak
poolName Nazwa puli maszyn wirtualnych. Tak
linkedServiceName Nazwa połączonej usługi Azure Storage skojarzonej z tą połączoną usługą Azure Batch. Ta połączona usługa jest używana na potrzeby plików przejściowych wymaganych do uruchomienia działania. Tak
connectVia Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. Nie.

Połączona usługa Machine Learning Studio (klasyczna)

Ważne

Obsługa usługi Azure Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning do tej daty.

Od 1 grudnia 2021 r. nie można utworzyć nowych zasobów usługi Machine Learning Studio (klasycznego) (obszaru roboczego i planu usługi internetowej). Do 31 sierpnia 2024 r. możesz nadal korzystać z istniejących eksperymentów i usług internetowych usługi Machine Learning Studio (klasycznych). Aby uzyskać więcej informacji, zobacz:

Dokumentacja usługi Machine Learning Studio (klasyczna) jest wycofywana i może nie zostać zaktualizowana w przyszłości.

Utworzysz połączoną usługę Machine Learning Studio (klasyczną), aby zarejestrować punkt końcowy oceniania wsadowego usługi Machine Learning Studio (klasycznej) do fabryki danych lub obszaru roboczego usługi Synapse.

Przykład

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

Właściwości

Właściwości Opis Wymagania
Typ Właściwość type powinna być ustawiona na: AzureML. Tak
mlEndpoint Adres URL oceniania wsadowego. Tak
apiKey Interfejs API opublikowanego modelu obszaru roboczego. Tak
updateResourceEndpoint Adres URL aktualizacji zasobu dla punktu końcowego usługi internetowej ML Studio (wersja klasyczna) służący do aktualizowania predykcyjnej usługi sieci Web przy użyciu wytrenowanego pliku modelu Nie.
servicePrincipalId Określ identyfikator klienta aplikacji. Wymagane, jeśli określono parametr updateResourceEndpoint
servicePrincipalKey Określ klucz aplikacji. Wymagane, jeśli określono parametr updateResourceEndpoint
tenant Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu witryny Azure Portal. Wymagane, jeśli określono parametr updateResourceEndpoint
connectVia Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. Nie.

Połączona usługa Azure Machine Learning

Utworzysz połączoną usługę Azure Machine Learning, aby połączyć obszar roboczy usługi Azure Machine Learning z fabryką danych lub obszarem roboczym usługi Synapse.

Uwaga

Obecnie tylko uwierzytelnianie jednostki usługi jest obsługiwane w przypadku połączonej usługi Azure Machine Learning.

Przykład

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Właściwości

Właściwości Opis Wymagania
Typ Właściwość type powinna być ustawiona na: AzureMLService. Tak
subscriptionId Identyfikator subskrypcji Azure Tak
resourceGroupName name Tak
mlWorkspaceName Nazwa obszaru roboczego usługi Azure Machine Learning Tak
servicePrincipalId Określ identyfikator klienta aplikacji. Tak
servicePrincipalKey Określ klucz aplikacji. Tak
tenant Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu witryny Azure Portal. Wymagane, jeśli określono parametr updateResourceEndpoint
connectVia Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. Nie.

Połączona usługa Azure Data Lake Analytics

Utworzysz połączoną usługę Azure Data Lake Analytics, aby połączyć usługę obliczeniową Azure Data Lake Analytics z fabryką danych lub obszarem roboczym usługi Synapse. Działanie U-SQL usługi Data Lake Analytics w potoku odwołuje się do tej połączonej usługi.

Przykład

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Właściwości

Właściwości Opis Wymagania
type Właściwość typu powinna być ustawiona na: AzureDataLakeAnalytics. Tak
accountName Nazwa konta usługi Azure Data Lake Analytics. Tak
dataLakeAnalyticsUri Identyfikator URI usługi Azure Data Lake Analytics. Nie.
subscriptionId Identyfikator subskrypcji Azure Nie.
resourceGroupName Nazwa grupy zasobów platformy Azure Nie.
servicePrincipalId Określ identyfikator klienta aplikacji. Tak
servicePrincipalKey Określ klucz aplikacji. Tak
tenant Określ informacje o dzierżawie (nazwę domeny lub identyfikator dzierżawy), w ramach których znajduje się aplikacja. Możesz go pobrać, umieszczając wskaźnik myszy w prawym górnym rogu witryny Azure Portal. Tak
connectVia Środowisko Integration Runtime do wysłania działań do tej połączonej usługi. Możesz użyć środowiska Azure Integration Runtime lub własnego środowiska Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. Nie.

Połączona usługa Azure Databricks

Możesz utworzyć połączoną usługę Azure Databricks, aby zarejestrować obszar roboczy usługi Databricks używany do uruchamiania obciążeń usługi Databricks (notes, jar, python).

Ważne

Połączone usługi Databricks obsługują pule wystąpień i uwierzytelnianie tożsamości zarządzanej przypisanej przez system.

Przykład — używanie nowego klastra zadań w usłudze Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "YourAccessToken"
            }
        }
    }
}

Przykład — używanie istniejącego klastra interaktywnego w usłudze Databricks

{
    "name": " AzureDataBricksLinkedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "YourAccessToken"
          },
        "existingClusterId": "{clusterId}"
        }
}

Właściwości

Właściwości Opis Wymagania
name Nazwa połączonej usługi Tak
type Właściwość type powinna być ustawiona na: Azure Databricks. Tak
domena Określ odpowiednio region świadczenia usługi Azure na podstawie regionu obszaru roboczego usługi Databricks. Przykład: https://eastus.azuredatabricks.net Tak
accessToken Token dostępu jest wymagany, aby usługa uwierzytelniła się w usłudze Azure Databricks. Token dostępu należy wygenerować z obszaru roboczego usługi Databricks. Bardziej szczegółowe kroki znajdowania tokenu dostępu można znaleźć tutaj Nie.
MSI Użyj tożsamości zarządzanej usługi (przypisanej przez system), aby uwierzytelnić się w usłudze Azure Databricks. Token dostępu nie jest potrzebny podczas korzystania z uwierzytelniania "MSI". Więcej szczegółów na temat uwierzytelniania tożsamości zarządzanej można znaleźć tutaj Nie.
existingClusterId Identyfikator klastra istniejącego klastra do uruchamiania wszystkich zadań w tym celu. Powinien to być już utworzony klaster interaktywny. Jeśli klaster przestanie odpowiadać, może być konieczne ręczne ponowne uruchomienie klastra. Usługa Databricks sugeruje uruchamianie zadań w nowych klastrach w celu zwiększenia niezawodności. Identyfikator klastra interaktywnego klastra można znaleźć w obszarze roboczym usługi Databricks —> Klastry — nazwa klastra interakcyjnego —>> konfiguracja —> tagi. Więcej szczegółów Nie.
instancePoolId Identyfikator puli wystąpień istniejącej puli w obszarze roboczym usługi Databricks. Nie.
newClusterVersion Wersja platformy Spark klastra. Tworzy klaster zadań w usłudze databricks. Nie.
newClusterNumOfWorker Liczba węzłów roboczych, które powinien mieć ten klaster. Klaster ma jeden sterownik Spark i funkcje wykonawcze num_workers dla łącznie num_workers i 1 węzłów platformy Spark. Ciąg sformatowany w formacie Int32, na przykład "1", oznacza, że wartość numOfWorker to 1 lub "1:10" oznacza automatyczne skalowanie z zakresu od 1 jako minuty i 10 jako maksimum. Nie.
newClusterNodeType To pole koduje za pomocą jednej wartości zasoby dostępne dla każdego z węzłów platformy Spark w tym klastrze. Na przykład węzły platformy Spark można aprowizować i optymalizować pod kątem obciążeń intensywnie korzystających z pamięci lub obliczeń. To pole jest wymagane dla nowego klastra Nie.
newClusterSparkConf zestaw opcjonalnych par klucz-wartość konfiguracji platformy Spark określonych przez użytkownika. Użytkownicy mogą również przekazać ciąg dodatkowych opcji JVM do sterownika i funkcji wykonawczych za pośrednictwem odpowiednio spark.driver.extraJavaOptions i spark.executor.extraJavaOptions. Nie.
newClusterInitScripts zestaw opcjonalnych skryptów inicjowania zdefiniowanych przez użytkownika dla nowego klastra. Skrypty inicjowania można określić w plikach obszaru roboczego (zalecane) lub za pomocą ścieżki DBFS (starsza wersja). Nie.

Połączona usługa Azure SQL Database

Utworzysz połączoną usługę Azure SQL i użyjesz jej z działaniem Procedury składowanej, aby wywołać procedurę składowaną z potoku. Aby uzyskać szczegółowe informacje o tej połączonej usłudze, zobacz artykuł Azure SQL Connector (Łącznik usługi Azure SQL).

Połączona usługa Azure Synapse Analytics

Utworzysz połączoną usługę Azure Synapse Analytics i użyjesz jej z działaniem Procedury składowanej, aby wywołać procedurę składowaną z potoku. Aby uzyskać szczegółowe informacje na temat tej połączonej usługi, zobacz artykuł Azure Synapse Analytics Connector (Łącznik usługi Azure Synapse Analytics).

Połączona usługa PROGRAMU SQL Server

Utworzysz połączoną usługę programu SQL Server i użyjesz jej z działaniem Procedury składowanej, aby wywołać procedurę składowaną z potoku. Aby uzyskać szczegółowe informacje na temat tej połączonej usługi, zobacz artykuł dotyczący łącznika programu SQL Server.

Połączona usługa Azure Synapse Analytics (Artifacts)

Utworzysz połączoną usługę Azure Synapse Analytics (Artifacts) i użyjesz jej z działaniem działania notesu usługi Synapse i definicji zadania platformy Synapse Spark.

Przykład

{
    "name": "AzureSynapseArtifacts",
    "type": "Microsoft.DataFactory/factories/linkedservice",
    "properties": {
      "properties": {
        "a":{
          "type": "String"
        }
      },
        "annotations": [],
        "type": "AzureSynapseArtifacts",
        "typeProperties": {
            "endpoint": "@{linkedService().a}",
            "authentication": "MSI",
            "workspaceResourceId": ""
        },
        "ConnectVia":{
          "referenceName": "integrationRuntime1",
          "type": "IntergrationRuntimeReference"
        }
    }
}

Właściwości

Właściwości Opis Wymagane
name Nazwa połączonej usługi Tak
opis opis połączonej usługi Nie.
Adnotacje adnotacje połączonej usługi Nie.
type Właściwość type powinna być ustawiona na AzureSynapseArtifacts Tak
endpoint Adres URL usługi Azure Synapse Analytics Tak
uwierzytelnianie Ustawieniem domyślnym jest tożsamość zarządzana przypisana przez system Tak
workspaceResourceId identyfikator zasobu obszaru roboczego Tak
connectVia Środowisko Integration Runtime do nawiązania połączenia z magazynem danych. Możesz użyć środowiska Azure Integration Runtime. Jeśli nie zostanie określony, używa domyślnego środowiska Azure Integration Runtime. Własne środowisko Integration Runtime nie jest obecnie obsługiwane. Tak

Połączona usługa funkcji platformy Azure

Utworzysz połączoną usługę funkcji platformy Azure i użyjesz jej z działaniem funkcji platformy Azure, aby uruchomić usługę Azure Functions w potoku. Zwracany typ funkcji platformy Azure musi być prawidłowym JObjecttypem . (Pamiętaj, że JArray nie jest .JObject) Każdy typ zwracany inny niż JObject niepowodzenie i zgłasza błąd użytkownika Zawartość odpowiedzi nie jest prawidłowym obiektem JObject.

Właściwości Opis Wymagane
type Właściwość type musi być ustawiona na: AzureFunction tak
adres URL aplikacji funkcji Adres URL aplikacji funkcji platformy Azure. Format to https://<accountname>.azurewebsites.net. Ten adres URL jest wartością w sekcji Adres URL podczas wyświetlania aplikacji funkcji w witrynie Azure Portal tak
klucz funkcji Klucz dostępu dla funkcji platformy Azure. Kliknij sekcję Zarządzanie odpowiednią funkcją i skopiuj klucz funkcji lub klucz hosta. Dowiedz się więcej tutaj: Wyzwalacze i powiązania HTTP usługi Azure Functions tak

Aby uzyskać listę obsługiwanych działań przekształcania, zobacz Przekształcanie danych.