Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
DOTYCZY:
Azure Data Factory
Azure Synapse Analytics
Wskazówka
Data Factory w usłudze Microsoft Fabric jest następną generacją Azure Data Factory z prostszą architekturą, wbudowaną sztuczną inteligencją i nowymi funkcjami. Jeśli dopiero zaczynasz integrować dane, zacznij od Fabric Data Factory. Istniejące obciążenia ADF można zaktualizować do Fabric, aby uzyskać dostęp do nowych możliwości w zakresie nauki o danych, analiz w czasie rzeczywistym oraz raportowania.
Domyślnie autorzy interfejsu użytkownika (UX) w Azure Data Factory pracują bezpośrednio z usługą Data Factory. To doświadczenie ma następujące ograniczenia:
- Usługa Data Factory nie zawiera repozytorium do przechowywania jednostek JSON dla Twoich zmian. Jedynym sposobem zapisania zmian jest użycie przycisku Publikuj wszystko , a wszystkie zmiany są publikowane bezpośrednio w usłudze fabryki danych.
- Usługa Data Factory nie jest zoptymalizowana pod kątem współpracy i kontroli wersji.
- Szablon Azure Resource Manager wymagany do wdrożenia samej usługi Data Factory nie jest dołączony.
Aby zapewnić lepsze środowisko tworzenia, Azure Data Factory umożliwia skonfigurowanie repozytorium Git przy użyciu Azure Repos lub GitHub. Git to system kontroli wersji, który umożliwia łatwiejsze śledzenie zmian i współpracę. W tym artykule opisano sposób konfigurowania i pracy w repozytorium git wraz z wyróżnianiem najlepszych rozwiązań i przewodnikiem rozwiązywania problemów.
Możesz również odwołać się do Continuous integration and delivery (CI/CD) w Azure Data Factory, aby dowiedzieć się więcej na temat większego wzorca ciągłej integracji/ciągłego wdrażania, w którym kontrola wersji jest kluczowym aspektem.
Uwaga
Dodaliśmy publiczne wsparcie dla GitHub na Azure Gov oraz na Microsoft Azure, obsługiwanym przez firmę 21Vianet. Zapoznaj się z blogiem ogłoszeniowym.
Aby dowiedzieć się więcej o tym, jak Azure Data Factory integruje się z usługą Git, zobacz 15-minutowy samouczek poniżej:
Korzyści wynikające z integracji z usługą Git
Poniżej znajduje się lista niektórych zalet integracji z git dla środowiska tworzenia:
-
Kontrola źródła: W miarę jak obciążenia fabryki danych stają się kluczowe, warto zintegrować fabrykę z usługą Git, aby zastosować kilka korzyści związanych z kontrolą źródła, takich jak następujące:
- Możliwość śledzenia/inspekcji zmian.
- Możliwość przywracania zmian, które wprowadziły błędy.
- Zapisywanie częściowe: podczas edycji w usłudze Data Factory nie można zapisywać zmian jako szkicu, a wszystkie publikacje muszą przejść weryfikację usługi Data Factory. Niezależnie od tego, czy Twoje potoki nie są jeszcze ukończone, czy po prostu chcesz uniknąć utraty zmian w przypadku awarii komputera, integracja z Git umożliwia przyrostowe wprowadzanie zmian w zasobach Data Factory, niezależnie od tego, jaki jest ich aktualny stan. Skonfigurowanie repozytorium git umożliwia zapisanie zmian, co pozwala publikować je dopiero po przetestowaniu do pełnego zadowolenia.
- Współpraca i kontrola: jeśli masz wielu członków zespołu współpracujących przy tej samej fabryce, możesz umożliwić swoim współpracownikom współpracę poprzez proces przeglądu kodu. Możesz również skonfigurować fabrykę tak, aby nie każdy użytkownik miał równe uprawnienia. Niektórzy członkowie zespołu mogą wprowadzać zmiany tylko za pośrednictwem usługi Git, a tylko niektóre osoby w zespole mogą publikować zmiany w fabryce.
-
Lepsze CI/CD: Jeśli wdrażasz do wielu środowisk przy użyciu procesu ciągłego dostarczania, integracja z Gitem ułatwia wykonywanie niektórych akcji. Niektóre z tych akcji obejmują:
- Skonfiguruj potok wydania, aby był wyzwalany automatycznie po wprowadzeniu zmian w środowisku "dev".
- Dostosuj właściwości w fabryce, które są dostępne jako parametry w szablonie Resource Manager. Może to być przydatne, aby zachować tylko wymagany zestaw właściwości jako parametry i mieć wszystkie inne trwale zakodowane.
- Lepsza wydajność: Przeciętna fabryka z integracją z Git ładuje się 10 razy szybciej niż podczas tworzenia przeciwko usłudze fabryki danych. Ta poprawa wydajności wynika z faktu, że zasoby są pobierane za pośrednictwem usługi Git.
Uwaga
Tworzenie bezpośrednio w usłudze Data Factory jest wyłączone w interfejsie użytkownika Azure Data Factory, gdy skonfigurowano repozytorium Git. Zmiany wprowadzone za pośrednictwem programu PowerShell lub zestawu SDK są publikowane bezpośrednio w usłudze Data Factory i nie są wprowadzane do usługi Git.
Nawiązywanie połączenia z repozytorium Git
Istnieją cztery różne sposoby łączenia repozytorium Git z fabryką danych dla Azure Repos i GitHub. Po nawiązaniu połączenia z repozytorium Git możesz wyświetlić konfigurację i zarządzać nią w centrum zarządzania w obszarze Konfiguracja usługi Git w sekcji Kontrola źródła.
Metoda konfiguracji 1: strona główna
Na stronie głównej Azure Data Factory wybierz pozycję Konsekguruj repozytorium kodu u góry.
Metoda konfiguracji 2. Tworzenie kanwy
W obszarze tworzenia w interfejsie użytkownika Azure Data Factory wybierz Data Factory z menu rozwijanego, a następnie wybierz pozycję Skonfiguruj repozytorium kodu.
Metoda konfiguracji 3: Centrum zarządzania
Przejdź do centrum zarządzania w programie Azure Data Factory Studio. Wybierz Konfigurację Git w sekcji Kontrola wersji. Jeśli nie masz połączonego repozytorium, wybierz pozycję Konfiguruj.
Metoda konfiguracji 4: Podczas tworzenia fabryki
Podczas tworzenia nowej fabryki danych w portalu Azure można skonfigurować informacje o repozytorium Git na karcie Git.
Uwaga
Podczas konfigurowania narzędzia Git w portalu Azure ustawienia, takie jak nazwa projektu i nazwa repozytorium, muszą zostać wprowadzone ręcznie zamiast być częścią listy rozwijanej.
Tworzenie za pomocą integracji z usługą Azure Repos Git
Tworzenie wizualne za pomocą integracji z usługą Azure Repos Git obsługuje kontrolę źródła i współpracę w celu pracy nad potokami fabryki danych. Fabrykę danych można skojarzyć z repozytorium organizacji Azure Repos Git na potrzeby kontroli źródła, współpracy, przechowywania wersji itd. Jedna organizacja Azure Repos Git może mieć wiele repozytoriów, ale repozytorium git Azure Repos może być skojarzone tylko z jedną fabryką danych. Jeśli nie masz organizacji lub repozytorium Azure Repos, wykonaj instrukcje aby utworzyć zasoby.
Uwaga
Pliki skryptów i danych można przechowywać w repozytorium Git Azure Repos. Należy jednak ręcznie przekazać pliki do Azure Storage. Potok w Data Factory nie przesyła automatycznie skryptów ani plików danych przechowywanych w repozytorium Git w Azure Repos do Azure Storage. Dodatkowe pliki, takie jak szablony usługi ARM, skrypty lub pliki konfiguracji, mogą być przechowywane w repozytorium poza zamapowanym folderem. W takim przypadku należy pamiętać, że do kompilowania/wdrażania i interakcji z plikami przechowywanymi poza zamapowanym folderem Azure DevOps jest wymagane dodatkowe zadanie.
ustawienia Azure Repos
Okienko konfiguracji zawiera szczegółowe instrukcje konfigurowania każdego z następujących ustawień repozytorium kodu:
| Ustawienie | opis | Wartość |
|---|---|---|
| Typ repozytorium | Typ repozytorium kodu Azure Repos. |
Azure DevOps Git lub GitHub |
| Microsoft Entra ID | Nazwa dzierżawy Microsoft Entra. | <your tenant name> |
| Organizacja usługi Azure Repos | Nazwa organizacji Azure Repos. Nazwę organizacji Azure Repos można znaleźć pod adresem https://{organization name}.visualstudio.com. Możesz zalogować się do organizacji Azure Repos, aby uzyskać dostęp do swojego profilu Visual Studio i wyświetlić repozytoria oraz projekty. |
<your organization name> |
| ProjectName | Nazwa projektu Azure Repos. Nazwę projektu Azure Repos można znaleźć pod adresem https://{organization name}.visualstudio.com/{project name}. |
<your Azure Repos project name> |
| Nazwa repozytorium | Nazwa repozytorium kodu w usłudze Azure Repos. Azure Repos projekty zawierają repozytoria Git, aby zarządzać kodem źródłowym w miarę rozwoju projektu. Możesz utworzyć nowe repozytorium lub użyć istniejącego repozytorium, które znajduje się już w projekcie. | <your Azure Repos code repository name> |
| Gałąź współpracy | Gałąź współpracy Azure Repos używana do publikowania. Domyślnie to main. Zmień to ustawienie w przypadku, gdy chcesz opublikować zasoby z innej gałęzi. |
<your collaboration branch name> |
| Publikowanie gałęzi | Gałąź Publish to gałąź w repozytorium, gdzie są przechowywane i aktualizowane szablony ARM związane z publikowaniem. Domyślnie to adf_publish. |
<your publish branch name> |
| Folder główny | Twój katalog główny w gałęzi współpracy w Azure Repos. | <your root folder name> |
| Importowanie istniejących zasobów usługi Data Factory do repozytorium | Określa, czy chcesz zaimportować istniejące zasoby fabryki danych z Kanwy uwierzytelniania do repozytorium Azure Repos Git. Zaznacz pole, aby zaimportować zasoby Twojej fabryki danych do skojarzonego repozytorium Git w formacie JSON. Ta akcja eksportuje każdy zasób indywidualnie (czyli połączone usługi i zestawy danych są eksportowane do oddzielnych nazw JSON). Jeśli to pole nie zostanie zaznaczone, istniejące zasoby nie zostaną zaimportowane. | Wybrane (ustawienie domyślne) |
| Gałąź, do której zaimportować zasób | Określa, do której gałęzi importowane są zasoby fabryki danych (potoki, zestawy danych, połączone usługi itp.). Zasoby można zaimportować do jednej z następujących gałęzi: a. Współpraca b. Utwórz nowy c. Użyj istniejącej |
Uwaga
Jeśli używasz Microsoft Edge i nie widzisz żadnych wartości na liście rozwijanej Konto Azure DevOps, dodaj adres https://*.visualstudio.com do listy zaufanych witryn.
Edytowanie ustawień repozytorium
Jeśli należy wprowadzić jakiekolwiek zmiany w ustawieniach skonfigurowanego repozytorium Azure Repos Git, możesz wybrać opcję Edit.
Możesz zaktualizować gałąź publikowania i zdecydować, czy wyłączyć przycisk publikowania z programu ADF Studio. Jeśli zdecydujesz się wyłączyć przycisk 'publikuj' w Studio, przycisk 'publikuj' będzie nieaktywny w Studio. Pomaga to uniknąć nadpisywania ostatniego automatycznego wdrożenia publikacji.
Użyj innego dzierżawcy Microsoft Entra
Repozytorium Git Azure Repos może znajdować się w innej dzierżawie Microsoft Entra. Aby określić innego dzierżawcę Microsoft Entra, musisz mieć uprawnienia administratora dla subskrypcji Azure, której używasz. Aby uzyskać więcej informacji, zobacz Zmienianie administratora subskrypcji.
Ważne
Aby nawiązać połączenie z innym Microsoft Entra ID, zalogowany użytkownik musi być częścią tej usługi Active Directory.
Użyj swojego osobistego konta Microsoft
Aby użyć osobistego konta Microsoft w celu integracji z Git, możesz połączyć osobiste repozytorium Azure z Active Directory organizacji.
Dodaj swoje osobiste konto Microsoft do Active Directory organizacji jako gość. Aby uzyskać więcej informacji, zobacz Dodaj użytkowników współpracy Microsoft Entra B2B w portalu Azure.
Zaloguj się do portalu Azure przy użyciu osobistego Microsoft account. Następnie przejdź do Active Directory organizacji.
Przejdź do sekcji Azure DevOps, w której zobaczysz repozytorium osobiste. Wybierz repozytorium i połącz się z Active Directory.
Po wykonaniu tych kroków konfiguracji repozytorium osobiste jest dostępne podczas konfigurowania integracji z usługą Git w interfejsie użytkownika usługi Data Factory.
Aby uzyskać więcej informacji na temat łączenia Azure Repos z Active Directory organizacji, zobacz Połączenie organizacji Azure DevOps z Microsoft Entra ID.
Autor z integracją GitHub
Tworzenie wizualne z integracją GitHub obsługuje kontrolę wersji i współpracę przy pracy nad potokami w Data Factory. Fabrykę danych można skojarzyć z repozytorium konta GitHub na potrzeby kontroli źródła, współpracy i przechowywania wersji. Jedno konto GitHub może hostować wiele repozytoriów, a każde repozytorium może być skojarzone z wieloma fabrykami danych. Konfigurując każdą fabrykę danych tak, aby korzystała z innej gałęzi w tym samym repozytorium, można obsługiwać oddzielne środowiska (takie jak programowanie, przemieszczanie i produkcja) podczas niezależnego zarządzania ich konfiguracjami. Jeśli nie masz konta GitHub lub repozytorium, wykonaj instrukcje aby utworzyć zasoby.
Integracja GitHub z usługą Data Factory obsługuje zarówno publiczne GitHub (czyli https://github.com), GitHub Enterprise Cloud i GitHub Enterprise Server. Repozytoria publiczne i prywatne GitHub można używać z usługą Data Factory tak długo, jak długo masz uprawnienia do odczytu i zapisu w repozytorium w GitHub. Aby nawiązać połączenie z repozytorium publicznym, wybierz opcję Użyj opcji Link do repozytorium, ponieważ nie są one widoczne w menu rozwijanym nazwy repozytorium. Integracja serwera GitHub Enterprise dla ADF działa tylko z oficjalnie obsługiwanymi wersjami GitHub Enterprise Server.
W przypadku repozytoriów należących do konta organizacji GitHub administrator musi autoryzować aplikację usługi ADF. W przypadku repozytoriów zarządzanych przez użytkowników GitHub, użytkownik posiadający co najmniej uprawnienia współpracownika może autoryzować aplikację ADF. To uprawnienie nie daje aplikacji usługi ADF bezpośredniego dostępu do wszystkich repozytoriów należących do konta/organizacji. Zezwala ona tylko aplikacji usługi ADF na działanie w imieniu użytkownika w celu uzyskania dostępu do repozytoriów na podstawie uprawnień dostępu użytkownika.
Uwaga
Jeśli używasz Microsoft Edge, program GitHub Enterprise w wersji mniejszej niż 2.1.4 nie działa z nim. GitHub oficjalnie obsługuje >=3.0 i wszystko powinno być w porządku dla ADF. Ponieważ GitHub zmienia minimalną wersję, obsługiwane wersje usługi ADF również się zmieniają.
ustawienia GitHub
Uwaga
Jeśli wystąpi błąd Nie udało się wyświetlić listy repozytoriów GitHub. Upewnij się, że nazwa konta jest poprawna i masz uprawnienia do wykonania akcji., zwróć uwagę, by używać poprawnej nazwy właściciela, a nie adresu URL repozytorium GitHub.
Ustawienia repozytorium GitHub
W okienku konfiguracji są wyświetlane następujące ustawienia repozytorium GitHub:
| Ustawienie | Opis | Wartość |
|---|---|---|
| Typ repozytorium | Typ repozytorium kodu Azure Repos. | GitHub |
| Użyj GitHub Enterprise Server | Pole wyboru, aby zaznaczyć GitHub Enterprise Server. | niezaznaczone (ustawienie domyślne) |
| Adres URL serwera GitHub Enterprise | Główny adres URL GitHub Enterprise (musi być adresem HTTPS dla lokalnego serwera GitHub Enterprise). Na przykład: https://github.mydomain.com. Wymagane tylko wtedy, gdy wybrano Użyj GitHub Enterprise Server |
<your GitHub Enterprise Server URL> |
| właściciel repozytorium GitHub | Organizacja lub konto GitHub, które jest właścicielem repozytorium. Tę nazwę można znaleźć w https://github.com/{owner}/{repository nazwie. Przejście do tej strony powoduje wyświetlenie monitu o wprowadzenie poświadczeń protokołu OAuth GitHub do organizacji lub konta GitHub. Jeśli wybierzesz Użyj GitHub Enterprise Server zostanie wyświetlone okno dialogowe z informacją o wprowadzeniu tokenu dostępu. | <your GitHub repository owner name> |
| Nazwa repozytorium | Nazwa repozytorium kodu GitHub. GitHub konta zawierają repozytoria Git do zarządzania kodem źródłowym. Możesz utworzyć nowe repozytorium lub użyć istniejącego repozytorium, które znajduje się już na Twoim koncie. Określ nazwę repozytorium kodu GitHub po wybraniu Wybierz repozytorium. | <your repository name> |
| Link do repozytorium Git | Twój link do repozytorium kodu GitHub. Podaj link do repozytorium kodu GitHub, gdy wybierzesz opcję Użyj linku repozytorium. | <your repository link> |
| Gałąź współpracy | Gałąź współpracy na GitHubie używana do publikowania. Domyślnie jest to główne. Zmień to ustawienie w przypadku, gdy chcesz opublikować zasoby z innej gałęzi. Możesz również utworzyć nową gałąź współpracy tutaj. | <your collaboration branch> |
| Publikowanie gałęzi | Gałąź w swoim repozytorium, w której są przechowywane i aktualizowane szablony ARM związane z publikowaniem. | <your publish branch name> |
| Folder główny | Katalog główny w Twojej gałęzi współpracy na GitHub. | <your root folder name> |
| Importowanie istniejących zasobów do repozytorium | Określa, czy mają być importowane istniejące zasoby Data Factory z kanwy tworzenia UX do repozytorium GitHub. Zaznacz pole, aby zaimportować zasoby Twojej fabryki danych do skojarzonego repozytorium Git w formacie JSON. Ta akcja eksportuje każdy zasób indywidualnie (czyli połączone usługi i zestawy danych są eksportowane do oddzielnych nazw JSON). Jeśli to pole nie zostanie zaznaczone, istniejące zasoby nie zostaną zaimportowane. | Wybrane (ustawienie domyślne) |
| Zaimportuj zasób do tej gałęzi | Określa, do której gałęzi importowane są zasoby fabryki danych (potoki, zestawy danych, połączone usługi itp.). |
Edytowanie ustawień repozytorium
Jeśli należy wprowadzić jakiekolwiek zmiany w ustawieniach skonfigurowanego repozytorium GitHub, możesz wybrać opcję Edit.
Możesz zaktualizować gałąź publikowania i zdecydować, czy wyłączyć przycisk publikowania z programu ADF Studio. Jeśli zdecydujesz się wyłączyć przycisk 'publikuj' w Studio, przycisk 'publikuj' będzie nieaktywny w Studio. Pomaga to uniknąć nadpisania ostatniej zautomatyzowanej publikacji.
organizacje GitHub
Nawiązywanie połączenia z organizacją GitHub wymaga, aby organizacja udzieliła uprawnień do Azure Data Factory. Użytkownik z uprawnieniami ADMINISTRATORA w organizacji musi wykonać poniższe kroki, aby umożliwić usłudze Data Factory nawiązywanie połączenia.
Nawiązywanie połączenia z publicznym repozytorium GitHub lub z GitHub Enterprise Cloud po raz pierwszy w Azure Data Factory
Jeśli łączysz się z publicznymi GitHub lub GitHub Enterprise Cloud z usługi Azure Data Factory po raz pierwszy, wykonaj następujące kroki, aby nawiązać połączenie z organizacją GitHub.
- W okienku Konfiguracja usługi Git wprowadź nazwę organizacji w polu GitHub Konto. Zostanie wyświetlony monit o zalogowanie się do GitHub.
- Zaloguj się przy użyciu poświadczeń użytkownika.
- Zostanie wyświetlony monit o autoryzowanie Azure Data Factory jako aplikacji o nazwie AzureDataFactory. Na tym ekranie zostanie wyświetlona opcja udzielenia uprawnień dla usługi ADF w celu uzyskania dostępu do organizacji. Jeśli nie widzisz opcji udzielenia uprawnień, poproś administratora o ręczne udzielenie uprawnień za pośrednictwem GitHub.
Po zakończeniu tych kroków fabryka może łączyć się zarówno z repozytoriami publicznymi, jak i prywatnymi w organizacji. Jeśli nie możesz nawiązać połączenia, spróbuj wyczyścić pamięć podręczną przeglądarki i ponowić próbę.
Już połączone z publicznym GitHubem lub GitHub Enterprise Cloud przy użyciu konta osobistego
Jeśli masz już połączenie z publicznym GitHub lub GitHub Enterprise Cloud i udzieliłeś uprawnień tylko do konta osobistego, wykonaj poniższe kroki, aby udzielić uprawnień organizacji.
Przejdź do GitHub i otwórz Settings.
Wybierz Aplikacje. Na karcie OAuth Autoryzowane aplikacje powinien zostać wyświetlony element AzureDataFactory.
Wybierz aplikację i przyznaj aplikacji dostęp do organizacji.
Po zakończeniu tych kroków fabryka może łączyć się zarówno z repozytoriami publicznymi, jak i prywatnymi w organizacji.
Nawiązywanie połączenia z serwerem GitHub Enterprise Server
Jeśli nawiąższ połączenie z serwerem GitHub Enterprise Server, musisz użyć osobistego tokenu dostępu do uwierzytelniania. Dowiedz się, jak utworzyć osobisty token dostępu w temacie Tworzenie osobistego tokenu dostępu.
Uwaga
GitHub Enterprise Server znajduje się w własnym środowisku prywatnym, dlatego potrzebujesz pełnej kontroli nad zaporą, zasadami sieci i siecią VPN podczas korzystania z tego uwierzytelniania. Aby uzyskać więcej informacji, zobacz About GitHub Enterprise Server.
Znane ograniczenia GitHub
Skrypty i pliki danych można przechowywać w repozytorium GitHub. Należy jednak ręcznie przekazać pliki do Azure Storage. Potok usługi Data Factory nie przekazuje automatycznie skryptu ani plików danych przechowywanych w repozytorium GitHub do Azure Storage.
GitHub Enterprise w wersji starszej niż 2.14.0 nie działa w przeglądarce Microsoft Edge.
Integracja GitHub z wizualnymi narzędziami autorskimi Data Factory działa tylko w ogólnie dostępnej wersji usługi Data Factory.
Nawiązywanie połączenia z usługą Azure DevOps Server 2022
Jeśli połączysz się z Azure DevOps Server 2022 r., musisz użyć osobistego tokenu dostępu do uwierzytelniania. Dowiedz się, jak utworzyć osobisty token dostępu tutaj.
Połącz z lokalnym systemem Azure DevOps, podając Azure DevOps Server URL i Azure DevOps Project Collection
Podaj token z zakresem dostępu jako odczyt/zapis dla kodu.
Kontrola wersji
Systemy kontroli wersji (znane również jako kontrola źródła) umożliwiają deweloperom współpracę nad kodem i śledzenie zmian wprowadzonych w bazie kodu. Kontrola źródła jest podstawowym narzędziem dla projektów z wieloma deweloperami.
Tworzenie gałęzi funkcjonalnych
Każde Azure Repos repozytorium Git skojarzone z fabryką danych ma gałąź współpracy. (main jest domyślną gałęzią współpracy). Użytkownicy mogą również tworzyć gałęzie funkcji, klikając pozycję + Nowa gałąź na liście rozwijanej gałęzi.
Po pojawieniu się nowego panelu gałęzi wprowadź nazwę swojej gałęzi funkcjonalności i wybierz gałąź, na której będzie się opierać praca.
Kiedy będziesz gotowy na scalenie zmian z gałęzi funkcji do gałęzi współpracy, kliknij na rozwijaną listę gałęzi i wybierz pozycję Utwórz żądanie ściągnięcia (pull request). Ta akcja przenosi Cię do Azure Repos Git, gdzie można zgłaszać wnioski o pobranie, przeglądać kod i scalać zmiany w gałęzi współdzielonej. (main jest wartością domyślną). Masz pozwolenie na publikowanie w usłudze Data Factory tylko z gałęzi współpracy.
Konfigurowanie ustawień publikowania
Domyślnie Data Factory generuje szablony Resource Manager dla opublikowanej wersji fabryki danych i zapisuje je w gałęzi o nazwie adf_publish. Aby skonfigurować niestandardową gałąź publikowania, dodaj plik publish_config.json do folderu głównego w gałęzi współpracy. Podczas publikowania usługa ADF odczytuje ten plik, wyszukuje pole publishBranch i zapisuje wszystkie szablony Resource Manager w określonej lokalizacji. Jeśli gałąź nie istnieje, fabryka danych automatycznie ją utworzy. Przykład tego, jak wygląda ten plik, znajduje się poniżej:
{
"publishBranch": "factory/adf_publish"
}
Azure Data Factory może mieć tylko jedną gałąź publikacyjną jednocześnie. Po określeniu nowej gałęzi publikowania usługa Data Factory nie usuwa poprzedniej gałęzi publikowania. Jeśli chcesz usunąć poprzednią gałąź publikowania, usuń ją ręcznie.
Uwaga
Usługa Data Factory odczytuje publish_config.json plik tylko podczas ładowania fabryki. Jeśli fabryka jest już załadowana w portalu, odśwież przeglądarkę, aby zmiany zaczęły obowiązywać.
Publikowanie zmian kodu
Po scaleniu zmian w gałęzi współpracy (main jest to ustawienie domyślne), kliknij przycisk Publikuj , aby ręcznie opublikować zmiany kodu w gałęzi głównej w usłudze Data Factory.
Zostanie otwarte okienko boczne, w którym potwierdzisz, że gałąź publikowania i oczekujące zmiany są poprawne. Po zweryfikowaniu zmian kliknij przycisk OK , aby potwierdzić publikowanie.
Ważne
Gałąź główna nie jest reprezentatywna dla elementów wdrożonych w usłudze Data Factory. Gałąź główna musi zostać opublikowana ręcznie w usłudze Data Factory.
Najlepsze rozwiązania dotyczące integracji z usługą Git
Uprawnienia
Zazwyczaj nie chcesz, aby każdy członek zespołu miał uprawnienia do aktualizowania usługi Data Factory. Zalecane są następujące ustawienia uprawnień:
- Wszyscy członkowie zespołu powinni mieć uprawnienia do odczytu w usłudze Data Factory.
- Tylko wybrany zestaw osób powinien być dozwolony do publikowania w usłudze Data Factory. W tym celu muszą mieć rolę współautora usługi Data Factory w grupie zasobów zawierającej usługę Data Factory. Aby uzyskać więcej informacji na temat uprawnień, zobacz Role i uprawnienia dla Azure Data Factory.
Zaleca się, aby nie zezwalać na bezpośrednie ewidencjonowania w gałęzi współpracy. To ograniczenie może pomóc zapobiec błędom, ponieważ każdy commit przejdzie przez proces przeglądu pull request, opisany w Tworzenie gałęzi funkcji.
Używanie haseł z Azure Key Vault
Zaleca się używanie Azure Key Vault do przechowywania dowolnych parametrów połączenia, haseł lub uwierzytelniania tożsamości zarządzanej dla połączonych usług Data Factory. Ze względów bezpieczeństwa fabryka danych nie przechowuje wpisów tajnych w usłudze Git. Wszelkie zmiany w usługach połączonych zawierających wpisy tajne, takie jak hasła, są natychmiast publikowane w usłudze Azure Data Factory.
Użycie Key Vault lub uwierzytelniania MSI ułatwia procesy ciągłej integracji i wdrażania, gdyż nie trzeba udostępniać tych sekretów podczas wdrażania szablonu Resource Manager.
Rozwiązywanie problemów dotyczących integracji z platformą Git
Gałąź publikacyjna przestarzała
Poniżej przedstawiono kilka przykładów sytuacji, które mogą powodować przestarzałą gałąź publikacji:
- Użytkownik ma wiele gałęzi. W jednej gałęzi funkcji usunęli połączoną usługę, która nie jest skojarzona z usługą AKV (połączone usługi niezwiązane z usługą AKV są publikowane natychmiast niezależnie od tego, czy znajdują się w usłudze Git, czy nie) i nigdy nie scaliły gałęzi funkcji z gałęzią współpracy.
- Użytkownik zmodyfikował fabrykę danych przy użyciu zestawu SDK lub programu PowerShell
- Użytkownik przeniósł wszystkie zasoby do nowej gałęzi i próbował opublikować ją po raz pierwszy. Połączone usługi należy tworzyć ręcznie podczas importowania zasobów.
- Użytkownik przekazuje ręcznie usługę, która nie jest powiązana z AKV, lub plik JSON środowiska uruchomieniowego integracji. Odwołują się do tego zasobu z innego zasobu, takiego jak zestaw danych, połączona usługa lub potok. Usługa połączona niebędąca częścią AKV utworzona poprzez interfejs użytkownika jest publikowana natychmiast, ponieważ poświadczenia muszą być szyfrowane. Jeśli przekażesz zestaw danych odwołujący się do tej połączonej usługi i spróbujesz go opublikować, interfejs użytkownika zezwala na to, ponieważ istnieje w środowisku git. Zostanie odrzucony w momencie publikacji, ponieważ nie istnieje w usłudze Data Factory.
Jeśli gałąź publikowania nie jest zsynchronizowana z gałęzią główną i zawiera nieaktualne zasoby pomimo ostatniego opublikowania, możesz użyć jednego z poniższych rozwiązań:
Opcja 1. Skorzystaj z funkcji trybu nadpisywania na żywo
Publikuje lub zastępuje kod z gałęzi współpracy w trybie na żywo. Kod w repozytorium jest uznawany za źródło prawdy.
Przepływ kodu:gałąź współpracy —> tryb na żywo
Opcja 2. Rozłącz i ponownie połącz repozytorium Git
Importuje kod z trybu na żywo do gałęzi współpracy. Uważa kod w trybie na żywo za źródło prawdy.
Przepływ kodu:tryb na żywo —> gałąź współpracy
- Usuwanie bieżącego repozytorium Git
- Skonfiguruj ponownie usługę Git przy użyciu tych samych ustawień, ale upewnij się, że wybrano opcję Importuj istniejące zasoby usługi Data Factory do repozytorium , a następnie wybierz pozycję Gałąź współpracy (ta sama gałąź)
- Utwórz pull request, aby scalić zmiany do gałęzi współpracy.
Uwaga
Utworzenie i scalenie pull requestu jest konieczne tylko wtedy, gdy pracujesz w repozytorium, które nie zezwala na bezpośrednie commitowanie. W większości organizacji przesyłanie do repozytorium wymaga przeglądu przed scaleniem, więc najlepszym rozwiązaniem jest zwykle użycie tego podejścia. Jednak w niektórych przypadkach nie jest wymagana żadna recenzja, w takim przypadku nie jest konieczne utworzenie i scalenie żądania ściągnięcia, ale zmiany mogą być bezpośrednio zatwierdzone w gałęzi współpracy.
W razie potrzeby wybierz jedną z metod.
Wszystkie zasoby wyświetlane jako nowe podczas publikowania
Podczas publikowania wszystkie zasoby mogą być wyświetlane jako nowe, nawet jeśli zostały wcześniej opublikowane. Może się tak zdarzyć, jeśli właściwość lastCommitId zostanie zresetowana we właściwości repoConfiguration fabryki, czy to poprzez ponowne wdrożenie szablonu ARM fabryki, czy przez zaktualizowanie właściwości repoConfiguration fabryki za pomocą programu PowerShell lub interfejsu API REST. Kontynuowanie publikowania zasobów może rozwiązać ten problem, ale aby zapobiec jego wystąpieniu ponownie, unikaj aktualizowania właściwości factory repoConfiguration .
Przełączanie do innego repozytorium Git
Aby przełączyć się do innego repozytorium Git, przejdź do strony konfiguracji usługi Git w centrum zarządzania w obszarze Kontrola źródła. Wybierz pozycję Odłącz.
Wprowadź nazwę fabryki danych i kliknij przycisk Potwierdź , aby usunąć repozytorium Git skojarzone z fabryką danych.
Po usunięciu skojarzenia z bieżącym repozytorium możesz skonfigurować ustawienia usługi Git tak, aby korzystały z innego repozytorium, a następnie zaimportować istniejące zasoby usługi Data Factory do nowego repozytorium.
Ważne
Usunięcie konfiguracji usługi Git z fabryki danych nie powoduje usunięcia niczego z repozytorium. Fabryka zawiera wszystkie opublikowane zasoby. Możesz kontynuować edycję fabryki bezpośrednio względem usługi.
Powiązana zawartość
- Aby dowiedzieć się więcej na temat monitorowania potoków i zarządzania nimi, zobacz Monitorowanie potoków i zarządzanie nimi programowo.
- Aby zaimplementować ciągłą integrację i wdrażanie, zobacz Continuous integration and delivery (CI/CD) w Azure Data Factory.