Udostępnij za pośrednictwem


Azure Data Factory — często zadawane pytania

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Ten artykuł zawiera odpowiedzi na często zadawane pytania dotyczące usługi Azure Data Factory.

Co to jest usługa Azure Data Factory?

Data Factory to w pełni zarządzana, oparta na chmurze usługa ETL integracji danych, która automatyzuje przenoszenie i przekształcanie danych. Podobnie jak fabryka, która uruchamia sprzęt do przekształcania surowców w gotowe towary, usługa Azure Data Factory organizuje istniejące usługi, które zbierają nieprzetworzone dane i przekształcają je w gotowe do użycia informacje.

Za pomocą usługi Azure Data Factory można tworzyć oparte na danych przepływy pracy, aby przenosić dane między lokalnymi i chmurowymi magazynami danych. Dane można przetwarzać i przekształcać za pomocą Przepływ danych. Usługa ADF obsługuje również zewnętrzne aparaty obliczeniowe do ręcznych przekształceń przy użyciu usług obliczeniowych, takich jak Azure HDInsight, Azure Databricks i sql Server Integration Services (SSIS).

Usługa Data Factory umożliwia wykonywanie przetwarzania danych w usłudze w chmurze opartej na platformie Azure lub we własnym własnym środowisku obliczeniowym, takim jak SSIS, SQL Server lub Oracle. Po utworzeniu potoku, który wykonuje potrzebną akcję, możesz zaplanować jego okresowe uruchamianie (co godzinę, codziennie lub co tydzień), planowanie przedziału czasu lub wyzwalanie potoku z wystąpienia zdarzenia. Aby uzyskać więcej informacji, zobacz Wprowadzenie do usługi Azure Data Factory.

Zagadnienia dotyczące zgodności i zabezpieczeń

Usługa Azure Data Factory jest certyfikowana dla różnych certyfikatów zgodności, w tym SOC 1, 2, 3, HIPAA BAA i HITRUST. Pełną i rosnącą listę certyfikatów można znaleźć tutaj. Kopie cyfrowe raportów inspekcji i certyfikacji zgodności można znaleźć w Centrum zaufania usługi

Sterowanie przepływami i skalowaniem

Aby obsługiwać różne przepływy i wzorce integracji w nowoczesnym magazynie danych, usługa Data Factory umożliwia elastyczne modelowanie potoków danych. Wiąże się to z pełnymi paradygmatami programowania przepływu sterowania, które obejmują wykonywanie warunkowe, rozgałęzianie w potokach danych oraz możliwość jawnego przekazywania parametrów w ramach i między tymi przepływami. Przepływ sterowania obejmuje również przekształcanie danych poprzez wysyłanie działań do zewnętrznych aparatów wykonywania i możliwości przepływu danych, w tym przenoszenie danych na dużą skalę za pośrednictwem działanie Kopiuj.

Usługa Data Factory zapewnia swobodę modelowania dowolnego stylu przepływu wymaganego do integracji danych, który można wysyłać na żądanie lub wielokrotnie zgodnie z harmonogramem. Oto kilka typowych przepływów, które umożliwia ten model:

  • Przepływy sterowania:
    • Działania mogą być połączone w sekwencji w potoku.
    • Działania można rozgałęzić w potoku.
    • Parametry:
      • Parametry można zdefiniować na poziomie potoku, a argumenty mogą być przekazywane podczas wywoływania potoku na żądanie lub z wyzwalacza.
      • Działania mogą wykorzystywać argumenty przekazywane do potoku.
    • Przekazywanie stanu niestandardowego:
      • Dane wyjściowe działań, w tym stan, mogą być używane przez kolejne działanie w potoku.
    • Kontenery pętli:
      • Działanie foreach będzie iterować po określonej kolekcji działań w pętli.
  • Przepływy oparte na wyzwalaczach:
    • Potoki mogą być wyzwalane na żądanie, według czasu zegara wall-clock lub w odpowiedzi na tematy usługi Event Grid
  • Przepływy różnicowe:
    • Parametry mogą służyć do definiowania znacznika wysokiej wody dla kopii różnicowej podczas przenoszenia tabel wymiarów lub odwołań z magazynu relacyjnego, lokalnego lub w chmurze, w celu załadowania danych do jeziora.

Aby uzyskać więcej informacji, zobacz Samouczek: sterowanie przepływami.

Dane przekształcone na dużą skalę przy użyciu potoków bez kodu

Nowe środowisko narzędzi oparte na przeglądarce zapewnia tworzenie i wdrażanie potoków bez kodu z nowoczesnym, interaktywnym środowiskiem internetowym.

W przypadku deweloperów danych wizualnych i inżynierów danych internetowy interfejs użytkownika usługi Data Factory to środowisko projektowe bez użycia kodu, które będzie używane do tworzenia potoków. Jest ona w pełni zintegrowana z usługą Visual Studio Codespace Git i zapewnia integrację ciągłej integracji/ciągłego wdrażania i programowania iteracyjnego z opcjami debugowania.

Zaawansowane zestawy SDK dla wielu platform dla zaawansowanych użytkowników

Usługa Data Factory V2 udostępnia bogaty zestaw zestawów SDK, których można używać do tworzenia potoków, zarządzania nimi i monitorowania ich przy użyciu ulubionego środowiska IDE, w tym:

  • Zestaw SDK dla języka Python
  • Interfejs wiersza polecenia programu PowerShell
  • Zestaw SDK języka C#

Użytkownicy mogą również używać udokumentowanych interfejsów API REST do interfejsu z usługą Data Factory W wersji 2.

Programowanie iteracyjne i debugowanie przy użyciu narzędzi wizualnych

Narzędzia wizualne usługi Azure Data Factory umożliwiają iteracyjne programowanie i debugowanie. Potoki i przebiegi testów można tworzyć przy użyciu funkcji Debugowanie na kanwie potoku bez konieczności pisania pojedynczego wiersza kodu. Wyniki przebiegów testów można wyświetlić w oknie Dane wyjściowe kanwy potoku. Po pomyślnym zakończeniu przebiegu testu możesz dodać więcej działań do potoku i kontynuować debugowanie w sposób iteracyjny. Możesz również anulować przebiegi testów po ich zakończeniu.

Nie musisz publikować zmian w usłudze fabryki danych przed wybraniem pozycji Debuguj. Jest to przydatne w scenariuszach, w których chcesz upewnić się, że nowe dodatki lub zmiany będą działać zgodnie z oczekiwaniami przed zaktualizowaniem przepływów pracy fabryki danych w środowiskach deweloperskich, testowych lub produkcyjnych.

Możliwość wdrażania pakietów usług SSIS na platformie Azure

Jeśli chcesz przenieść obciążenia usług SSIS, możesz utworzyć usługę Data Factory i aprowizować środowisko Azure-SSIS Integration Runtime. Środowisko Azure-SSIS Integration Runtime to w pełni zarządzany klaster maszyn wirtualnych platformy Azure (węzłów), który jest przeznaczony do uruchamiania pakietów usług SSIS w chmurze. Aby uzyskać instrukcje krok po kroku, zobacz samouczek Wdrażanie pakietów usług SSIS na platformie Azure .

Zestawy SDK

Jeśli jesteś użytkownikiem zaawansowanym i szukasz interfejsu programowego, usługa Data Factory udostępnia bogaty zestaw zestawów SDK, których można użyć do tworzenia potoków, zarządzania nimi lub monitorowania ich przy użyciu ulubionego środowiska IDE. Obsługa języka obejmuje platformy .NET, programu PowerShell, języka Python i interfejsu REST.

Monitorowanie

Fabryki danych można monitorować za pomocą programu PowerShell, zestawu SDK lub narzędzi do monitorowania wizualnego w interfejsie użytkownika przeglądarki. Przepływy niestandardowe oparte na wyzwalaczach i zegarach można monitorować i zarządzać nimi w wydajny i efektywny sposób. Anuluj istniejące zadania, zobacz błędy na pierwszy rzut oka, przejdź do szczegółów, aby uzyskać szczegółowe komunikaty o błędach i debuguj problemy— wszystko z jednego okienka szkła bez przełączania kontekstu lub przechodzenia między ekranami.

Nowe funkcje usług SSIS w usłudze Data Factory

Od czasu początkowej publicznej wersji zapoznawczej w 2017 r. usługa Data Factory dodała następujące funkcje usług SSIS:

  • Obsługa trzech kolejnych konfiguracji/wariantów usługi Azure SQL Database do hostowania bazy danych SSIS (SSISDB) projektów/pakietów:
  • Usługa SQL Database z punktami końcowymi usługi sieci wirtualnej
  • Wystąpienie zarządzane SQL
  • Pula elastyczna
  • Obsługa sieci wirtualnej usługi Azure Resource Manager w oparciu o klasyczną sieć wirtualną, która będzie przestarzała w przyszłości, co umożliwia wprowadzanie/dołączanie środowiska Azure-SSIS Integration Runtime do sieci wirtualnej skonfigurowanej dla usługi SQL Database przy użyciu punktów końcowych usługi sieci wirtualnej/wystąpienia zarządzanego/lokalnego dostępu do danych. Aby uzyskać więcej informacji, zobacz również Dołączanie środowiska Azure-SSIS Integration Runtime do sieci wirtualnej.
  • Obsługa uwierzytelniania entra firmy Microsoft i uwierzytelniania SQL w celu nawiązania połączenia z bazą danych SSISDB, umożliwiając uwierzytelnianie firmy Microsoft entra przy użyciu tożsamości zarządzanej usługi Data Factory dla zasobów platformy Azure
  • Obsługa przenoszenia istniejącej licencji programu SQL Server w celu uzyskania znacznych oszczędności kosztów z opcji Korzyść użycia hybrydowego platformy Azure
  • Obsługa wersji Enterprise Runtime środowiska Azure-SSIS Integration Runtime, która umożliwia korzystanie z zaawansowanych/premium funkcji, niestandardowego interfejsu konfiguracji do instalowania dodatkowych składników/rozszerzeń i ekosystemu partnerskiego. Aby uzyskać więcej informacji, zobacz również Enterprise Edition, Custom Setup i 3rd Party Extensibility for SSIS in ADF (Rozszerzalność usług SSIS w usłudze ADF).
  • Głębsza integracja usług SSIS w usłudze Data Factory, która umożliwia wywoływanie/wyzwalanie pierwszej klasy wykonywania działań pakietu SSIS w potokach usługi Data Factory i planowanie ich za pośrednictwem programu SSMS. Aby uzyskać więcej informacji, zobacz również Modernizuj i rozszerzaj przepływy pracy ETL/ELT za pomocą działań usług SSIS w potokach usługi ADF.

Co to jest środowisko Integration Runtime?

Środowisko Integration Runtime to infrastruktura obliczeniowa używana przez usługę Azure Data Factory w celu zapewnienia następujących funkcji integracji danych w różnych środowiskach sieciowych:

  • Przenoszenie danych: w przypadku przenoszenia danych środowisko Integration Runtime przenosi dane między źródłowymi i docelowymi magazynami danych, zapewniając jednocześnie obsługę wbudowanych łączników, konwersji formatu, mapowania kolumn oraz wydajnego i skalowalnego transferu danych.
  • Przepływ danych: w przypadku przepływu danych wykonaj Przepływ danych w zarządzanym środowisku obliczeniowym platformy Azure.
  • Działania wysyłania: w przypadku transformacji środowisko Integration Runtime zapewnia możliwość natywnego wykonywania pakietów SSIS.
  • Wykonywanie pakietów SSIS: środowisko Integration Runtime natywnie wykonuje pakiety usług SSIS w zarządzanym środowisku obliczeniowym platformy Azure. Środowisko Integration Runtime obsługuje również wysyłanie i monitorowanie działań przekształcania uruchomionych w różnych usługach obliczeniowych, takich jak Azure HDInsight, Azure Machine Learning, SQL Database i SQL Server.

W celu przenoszenia i przekształcania danych można wdrożyć jedno lub wiele wystąpień środowiska Integration Runtime. Środowisko Integration Runtime może działać w sieci publicznej platformy Azure lub w sieci prywatnej (lokalnej, usłudze Azure Virtual Network lub wirtualnej chmurze prywatnej usługi Amazon Web Services [VPC]). W usłudze Data Factory działanie definiuje akcję do wykonania. Połączona usługa definiuje docelowy magazyn danych lub usługę obliczeniową. Infrastruktura Integration Runtime zapewnia połączenie między działaniem i połączonymi usługami. Odwołuje się do niej połączona usługa lub działanie i udostępnia środowisko obliczeniowe, w którym działanie jest uruchamiane lub wysyłane. Dzięki temu działanie można wykonać w regionie najbliższym docelowemu magazynowi danych lub usłudze obliczeniowej, w sposób najbardziej wydajny, jednocześnie spełniając wymagania dotyczące zabezpieczeń i zgodności.

Środowiska Integration Runtime można tworzyć w środowisku użytkownika usługi Azure Data Factory za pośrednictwem centrum zarządzania i wszelkich działań, zestawów danych lub przepływów danych, które się do nich odwołują. Aby uzyskać więcej informacji, zobacz Infrastruktura Integration Runtime w usłudze Azure Data Factory.

Jaki jest limit liczby środowisk Integration Runtime?

Nie ma twardego limitu liczby wystąpień środowiska Integration Runtime, które można mieć w fabryce danych. Istnieje jednak limit liczby rdzeni maszyn wirtualnych, których środowisko Integration Runtime może używać w ramach subskrypcji na potrzeby wykonywania pakietów usług SSIS. Aby uzyskać więcej informacji, zobacz Limity usługi Data Factory.

Jakie są pojęcia najwyższego poziomu usługi Azure Data Factory?

Subskrypcja platformy Azure może zawierać jedno lub więcej wystąpień usługi Azure Data Factory (lub fabryk danych). Usługa Azure Data Factory zawiera cztery kluczowe składniki, które współpracują ze sobą jako platforma, na której można tworzyć oparte na danych przepływy pracy, wykonując kroki przenoszenia i przekształcania danych.

Pipelines

Fabryka danych może obejmować jeden lub wiele potoków. Potok to logiczne grupowanie działań w celu wykonania jednostki pracy. Razem działania w potoku wykonują zadanie. Na przykład potok może zawierać grupę działań, które pozyskują dane z obiektu blob platformy Azure, a następnie uruchamiają zapytanie hive w klastrze usługi HDInsight w celu partycjonowania danych. Korzyść polega na tym, że można użyć potoku do zarządzania działaniami jako zestawu zamiast konieczności zarządzania poszczególnymi działaniami osobno. Możesz połączyć działania w potoku, aby obsługiwać je sekwencyjnie lub niezależnie, równolegle.

Przepływy danych

Przepływy danych to obiekty tworzone wizualnie w usłudze Data Factory, które przekształcają dane na dużą skalę w usługach Spark zaplecza. Nie musisz rozumieć programowania ani wewnętrznych platformy Spark. Wystarczy zaprojektować intencję przekształcania danych przy użyciu wykresów (mapowania) lub arkuszy kalkulacyjnych (działanie dodatku Power Query).

Działania

Działania reprezentują krok przetwarzania w potoku. Na przykład można użyć działanie Kopiuj do skopiowania danych z jednego magazynu danych do innego magazynu danych. Podobnie można użyć działania programu Hive, które uruchamia zapytanie Hive w klastrze usługi Azure HDInsight w celu przekształcania lub analizowania danych. Usługa Data Factory obsługuje trzy typy działań: działania przenoszenia danych, działania przekształcania danych i działania sterowania.

Zestawy danych

Zestawy danych reprezentują struktury w magazynach danych. Struktury te po prostu wskazują na dane, które mają być używane w działaniach jako dane wejściowe lub wyjściowe.

Połączone usługi

Połączone usługi działają podobnie do parametrów połączenia, umożliwiając definiowanie informacji wymaganych przez usługę Data Factory do nawiązywania połączeń z zasobami zewnętrznymi. Pomyśl o tym w ten sposób: połączona usługa definiuje połączenie ze źródłem danych, a zestaw danych reprezentuje strukturę danych. Na przykład połączona usługa Azure Storage określa parametry połączenia, aby nawiązać połączenie z kontem usługi Azure Storage. Zestaw danych obiektów blob platformy Azure określa kontener obiektów blob i folder zawierający dane.

Połączone usługi mają dwa cele w usłudze Data Factory:

  • Aby reprezentować magazyn danych obejmujący, ale nie jest ograniczony do wystąpienia programu SQL Server, wystąpienia bazy danych Oracle, udziału plików lub konta usługi Azure Blob Storage. Aby uzyskać listę obsługiwanych magazynów danych, zobacz Działanie kopiowania w usłudze Azure Data Factory.
  • Reprezentowanie zasobu obliczeniowego, który może hostować wykonywanie działania. Na przykład działanie hive usługi HDInsight jest uruchamiane w klastrze usługi HDInsight Hadoop. Aby uzyskać listę działań przekształcania i obsługiwane środowiska obliczeniowe, zobacz Przekształcanie danych w usłudze Azure Data Factory.

Wyzwalacze

Wyzwalacze reprezentują jednostki przetwarzania, które określają, kiedy wykonywanie potoku jest uruchamiane. Istnieją różne typy wyzwalaczy dla różnych typów zdarzeń.

Uruchomienia potoków

Uruchomienie potoku jest wystąpieniem wykonywania potoku. Zwykle tworzy się wystąpienie przebiegu potoku, przekazując argumenty do parametrów zdefiniowanych w potoku. Argumenty można przekazać ręcznie lub w definicji wyzwalacza.

Parametry

Parametry to pary klucz-wartość w konfiguracji tylko do odczytu. Parametry definiuje się w potoku i przekazuje argumenty dla zdefiniowanych parametrów podczas wykonywania z kontekstu przebiegu. Kontekst przebiegu jest tworzony przez wyzwalacz lub z potoku, który jest wykonywany ręcznie. Działania w ramach potoku wykorzystują wartości parametrów.

Zestaw danych jest silnie typizowanym parametrem i jednostką, której można użyć ponownie lub odwołać. Działanie może odwoływać się do zestawów danych i może korzystać z właściwości zdefiniowanych w definicji zestawu danych.

Połączona usługa jest również silnie typizowanym parametrem zawierającym informacje o połączeniu z magazynem danych lub środowiskiem obliczeniowym. Jest to również jednostka, której można użyć ponownie lub odwołać.

Przepływy sterowania

Przepływy sterowania organizują działania potoku, które obejmują działania łańcuchowe w sekwencji, rozgałęzianie, parametry zdefiniowane na poziomie potoku i argumenty przekazywane podczas wywoływania potoku na żądanie lub z wyzwalacza. Przepływy sterowania obejmują również niestandardowe kontenery przekazywania stanu i pętli (czyli iteratory foreach).

Aby uzyskać więcej informacji o pojęciach związanych z usługą Data Factory, zobacz następujące artykuły:

Jaki jest model cen usługi Data Factory?

Aby uzyskać szczegółowe informacje o cenach usługi Azure Data Factory, zobacz Szczegóły cennika usługi Data Factory.

Jak być na bieżąco z informacjami o usłudze Data Factory?

Aby uzyskać najbardziej aktualne informacje o usłudze Azure Data Factory, przejdź do następujących witryn:

Szczegółowe omówienie techniczne

Ile wystąpień usługi Azure Data Factory należy mieć?

Odpowiedź na to pytanie zależy od modelu zabezpieczeń przyjętego przez organizację. Każde wystąpienie usługi Data Factory powinno mieć zakres z uwzględnieniem dostępu najmniej uprzywilejowanego. Może to być sytuacja, w której jedno wystąpienie usługi Data Factory obsługuje wszystkie obciążenia kadrowe, a inne obsługuje wszystkie dane finansowe. Każde wystąpienie usługi Data Factory ma dostęp do różnych połączonych usług, a każde wystąpienie może być obsługiwane przez różne zespoły programistyczne. Nie ma dodatkowych kosztów, ponieważ opłaty są naliczane za pomocą przyrostów obliczeniowych, więc te same 100 potoków w 1 wystąpieniu usługi Data Factory będzie kosztować tyle samo co 10 potoków w 10 wystąpieniach usługi Data Factory.

Jak mogę zaplanować potok?

Aby zaplanować potok, możesz użyć wyzwalacza harmonogramu lub wyzwalacza okna czasowego. Wyzwalacz używa harmonogramu kalendarza zegarowego, który może okresowo planować potoki lub w wzorcach cyklicznych opartych na kalendarzu (na przykład w poniedziałek o godzinie 18:00 i czwartek o godzinie 19:00). Aby uzyskać więcej informacji, zobacz Wyzwalacze i wykonywanie potoku.

Czy mogę przekazać parametry do uruchomienia potoku?

Tak, parametry są pierwszoklasową koncepcją najwyższego poziomu w usłudze Data Factory. Parametry można zdefiniować na poziomie potoku i przekazać argumenty podczas wykonywania potoku na żądanie lub przy użyciu wyzwalacza.

Czy mogę zdefiniować wartości domyślne dla parametrów potoku?

Tak. Możesz zdefiniować wartości domyślne parametrów w potokach.

Czy działanie w potoku może używać argumentów przekazywanych do uruchomienia potoku?

Tak. Każde działanie w potoku może wykorzystywać wartość parametru przekazywaną do potoku i uruchamiać z konstrukcją @parameter .

Czy właściwość danych wyjściowych działania może być zużywana w innym działaniu?

Tak. Dane wyjściowe działania mogą być używane w kolejnym działaniu z konstrukcją @activity .

Jak mogę bezpiecznie obsługiwać wartości null w danych wyjściowych działania?

Możesz użyć @coalesce konstrukcji w wyrażeniach, aby bezpiecznie obsługiwać wartości null.

Ile działań potoku można wykonać jednocześnie?

Dozwolone jest maksymalnie 50 współbieżnych działań potoku. Działanie potoku 51 zostanie otwarte do momentu otwarcia wolnego miejsca. Dozwolone będzie maksymalnie 800 współbieżnych działań zewnętrznych, po których będą one kolejkowane w taki sam sposób.

Przepływy danych mapowania

Potrzebuję pomocy w rozwiązywaniu problemów z logiką przepływu danych. Jakie informacje należy podać, aby uzyskać pomoc?

Jeśli firma Microsoft udziela pomocy lub rozwiązywania problemów z przepływami danych, podaj pliki pomocy technicznej potoku usługi ADF. Ten plik zip zawiera skrypt za pomocą kodu z grafu przepływu danych. W interfejsie użytkownika usługi ADF wybierz pozycję ... obok potoku, a następnie wybierz pozycję Pobierz pliki pomocy technicznej.

Jak mogę uzyskać dostęp do danych przy użyciu innych 90 typów zestawów danych w usłudze Data Factory?

Funkcja przepływu mapowania danych umożliwia obecnie usługę Azure SQL Database, usługę Azure Synapse Analytics, rozdzielane pliki tekstowe z usługi Azure Blob Storage lub Azure Data Lake Storage Gen2 oraz pliki Parquet z usługi Blob Storage lub Data Lake Storage Gen2 natywnie dla źródła i ujścia.

Użyj działanie Kopiuj, aby przygotować dane z dowolnego innego łącznika, a następnie wykonać działanie Przepływ danych, aby przekształcić dane po jego utworzeniu. Na przykład potok najpierw skopiuje do usługi Blob Storage, a następnie działanie Przepływ danych użyje zestawu danych w źródle, aby przekształcić te dane.

Czy własne środowisko Integration Runtime jest dostępne dla przepływów danych?

Własne środowisko IR to konstrukcja potoku usługi ADF, której można używać z działaniem kopiowania w celu uzyskiwania lub przenoszenia danych do i z lokalnych lub opartych na maszynie wirtualnej źródeł danych i ujść. Maszyny wirtualne używane dla własnego środowiska IR można również umieścić w tej samej sieci wirtualnej, co chronione magazyny danych w celu uzyskania dostępu do tych magazynów danych z usługi ADF. Przepływy danych umożliwiają osiągnięcie tych samych wyników końcowych przy użyciu środowiska Azure IR z zarządzaną siecią wirtualną.

Czy aparat obliczeniowy przepływu danych obsługuje wiele dzierżaw?

Klastry nigdy nie są udostępniane. Gwarantujemy izolację dla każdego uruchomienia zadania w środowisku produkcyjnym. W przypadku scenariusza debugowania jedna osoba otrzymuje jeden klaster, a wszystkie debugowania trafią do tego klastra, które są inicjowane przez tego użytkownika.

Czy istnieje sposób zapisu atrybutów w usłudze Cosmos DB w takiej samej kolejności, jak określono w ujściu w przepływie danych usługi ADF?

W przypadku usługi Cosmos DB podstawowy format każdego dokumentu jest obiektem JSON, który jest nieurządkowanym zestawem par nazw/wartości, więc nie można zarezerwować zamówienia.

Dlaczego użytkownik nie może używać podglądu danych w przepływach danych?

Należy sprawdzić uprawnienia dla roli niestandardowej. Podgląd danych przepływu danych obejmuje wiele akcji. Zacznij od sprawdzenia ruchu sieciowego podczas debugowania w przeglądarce. Aby uzyskać szczegółowe informacje, postępuj zgodnie ze wszystkimi akcjami, zapoznaj się z dostawcą zasobów.

Czy w usłudze ADF mogę obliczyć wartość nowej kolumny z istniejącej kolumny z mapowania?

Możesz użyć przekształcenia pochodnego w przepływie mapowania danych, aby utworzyć nową kolumnę na żądanej logice. Podczas tworzenia kolumny pochodnej można wygenerować nową kolumnę lub zaktualizować istniejącą kolumnę. W polu tekstowym Kolumna wprowadź w tworzonej kolumnie. Aby zastąpić istniejącą kolumnę w schemacie, możesz użyć listy rozwijanej kolumny. Aby skompilować wyrażenie kolumny pochodnej, wybierz pole tekstowe Enter expression (Wprowadź wyrażenie). Możesz rozpocząć wpisywanie wyrażenia lub otworzyć konstruktora wyrażeń, aby utworzyć logikę.

Dlaczego podgląd przepływu mapowania danych kończy się niepowodzeniem z przekroczeniem limitu czasu bramy?

Spróbuj użyć większego klastra i skorzystaj z limitów wierszy w ustawieniach debugowania, aby zmniejszyć rozmiar danych wyjściowych debugowania.

Jak sparametryzować nazwę kolumny w przepływie danych?

Nazwa kolumny może być sparametryzowana podobnie jak inne właściwości. Podobnie jak w kolumnie pochodnej klient może użyć $ColumnNameParam = toString(byName($myColumnNameParamInData)). Te parametry można przekazać z wykonywania potoku w dół do przepływów danych.

Porady dotyczące czasu wygaśnięcia i kosztów przepływu danych

Ten dokument rozwiązywania problemów może pomóc w rozwiązaniu problemów: Wydajność i dostrajanie przepływów danych — czas wygaśnięcia.

Uzdatnianie danych dodatku Power Query

Jakie są obsługiwane regiony uzdatniania danych?

Fabryka danych jest dostępna w następujących regionach. Funkcja Power Query jest dostępna we wszystkich regionach przepływu danych. Jeśli funkcja nie jest dostępna w Twoim regionie, skontaktuj się z pomocą techniczną.

Jaka jest różnica między przepływem mapowania danych a działaniem dodatku Power Query (uzdatnianie danych)?

Przepływy mapowania danych umożliwiają przekształcanie danych na dużą skalę bez konieczności kodowania. Zadanie przekształcania danych można zaprojektować na kanwie przepływu danych, tworząc serię przekształceń. Rozpocznij od dowolnej liczby przekształceń źródłowych, po których następują kroki przekształcania danych. Ukończ przepływ danych za pomocą ujścia, aby wylądować wyniki w miejscu docelowym. Przepływ danych mapowania doskonale nadaje się do mapowania i przekształcania danych przy użyciu znanych i nieznanych schematów w ujściach i źródłach.

Funkcja Wrangling danych dodatku Power Query umożliwia elastyczne przygotowywanie i eksplorację danych przy użyciu edytora mashupów usługi Power Query Online na dużą skalę za pośrednictwem wykonywania platformy Spark. Wraz z powstaniem magazynów typu data lake czasami wystarczy eksplorować zestaw danych lub utworzyć zestaw danych w jeziorze. Nie mapujesz na znany element docelowy.

Obsługiwane typy SQL

Funkcja Wrangling danych dodatku Power Query obsługuje następujące typy danych w języku SQL. Zostanie wyświetlony błąd weryfikacji dotyczący używania typu danych, który nie jest obsługiwany.

  • short
  • double
  • rzeczywiste
  • liczba zmiennoprzecinkowa
  • char
  • nchar
  • varchar
  • nvarchar
  • integer
  • int
  • bitowe
  • boolean
  • smallint
  • tinyint
  • bigint
  • długi
  • text
  • data
  • datetime
  • datetime2
  • smalldatetime
  • timestamp
  • uniqueidentifier
  • xml

Aby uzyskać instrukcje krok po kroku dotyczące tworzenia fabryki danych, zobacz następujące samouczki: