Udostępnij za pośrednictwem


Jak pozyskiwać dane przy użyciu usługi Azure Data Factory w usłudze Azure Cosmos DB for PostgreSQL

DOTYCZY: Usługa Azure Cosmos DB for PostgreSQL (obsługiwana przez rozszerzenie bazy danych Citus do bazy danych PostgreSQL)

Azure Data Factory to oparta na chmurze usługa ETL i usługa integracji danych. Umożliwia tworzenie przepływów pracy opartych na danych w celu przenoszenia i przekształcania danych na dużą skalę.

Za pomocą usługi Data Factory można tworzyć i planować oparte na danych przepływy pracy (nazywane potokami), które pozyskują dane z różnych magazynów danych. Potoki mogą działać lokalnie, na platformie Azure lub u innych dostawców chmury na potrzeby analizy i raportowania.

Usługa Data Factory zawiera ujście danych dla usługi Azure Cosmos DB for PostgreSQL. Ujście danych umożliwia przenoszenie danych (relacyjnych, NoSQL, plików data lake) do tabel usługi Azure Cosmos DB for PostgreSQL na potrzeby magazynowania, przetwarzania i raportowania.

Diagram przepływu danych dla usługi Azure Data Factory.

Ważne

Usługa Data Factory nie obsługuje obecnie prywatnych punktów końcowych dla usługi Azure Cosmos DB for PostgreSQL.

Usługa Data Factory na potrzeby pozyskiwania danych w czasie rzeczywistym

Oto kluczowe powody, dla których należy wybrać usługę Azure Data Factory na potrzeby pozyskiwania danych do usługi Azure Cosmos DB for PostgreSQL:

  • Łatwe w użyciu — oferuje środowisko wizualne bez użycia kodu do organizowania i automatyzowania przenoszenia danych.
  • Zaawansowane — wykorzystuje pełną pojemność bazowej przepustowości sieci, do 5 GiB/s przepływności.
  • Wbudowane łączniki — integruje wszystkie źródła danych z ponad 90 wbudowanymi łącznikami.
  • Opłacalne — obsługuje usługę w chmurze bezserwerową z płatnością zgodnie z rzeczywistym użyciem, która jest skalowana na żądanie.

Kroki korzystania z usługi Data Factory

W tym artykule utworzysz potok danych przy użyciu interfejsu użytkownika usługi Data Factory. Potok w tej fabryce danych kopiuje dane z usługi Azure Blob Storage do bazy danych. Aby zapoznać się z listą magazynów danych obsługiwanych jako źródła i ujścia, zobacz tabelę zawierającą obsługiwane magazyny danych.

W usłudze Data Factory możesz użyć działania Kopiowania , aby skopiować dane między magazynami danych znajdującymi się lokalnie i w chmurze do usługi Azure Cosmos DB for PostgreSQL. Jeśli dopiero zaczynasz pracę z usługą Data Factory, zapoznaj się z szybkim przewodnikiem dotyczącym rozpoczynania pracy:

  1. Po aprowizacji usługi Data Factory przejdź do fabryki danych i uruchom narzędzie Azure Data Factory Studio. Zostanie wyświetlona strona główna usługi Data Factory, jak pokazano na poniższej ilustracji:

    Zrzut ekranu przedstawiający stronę docelową usługi Azure Data Factory.

  2. Na stronie głównej narzędzia Azure Data Factory Studio wybierz pozycję Orkiestruj.

    Zrzut ekranu przedstawiający stronę

  3. W obszarze Właściwości wprowadź nazwę potoku.

  4. W przyborniku Działania rozwiń kategorię Przenieś i przekształć , a następnie przeciągnij i upuść działanie Kopiuj dane na powierzchnię projektanta potoku. W dolnej części okienka projektanta na karcie Ogólne wprowadź nazwę działania kopiowania.

    Zrzut ekranu przedstawiający potok w usłudze Azure Data Factory.

  5. Skonfiguruj źródło.

    1. Na stronie Działania wybierz kartę Źródło . Wybierz pozycję Nowy , aby utworzyć źródłowy zestaw danych.

    2. W oknie dialogowym Nowy zestaw danych wybierz pozycję Azure Blob Storage, a następnie wybierz pozycję Kontynuuj.

    3. Wybierz typ formatu danych, a następnie wybierz pozycję Kontynuuj.

    4. Na stronie Ustawianie właściwości w obszarze Połączona usługa wybierz pozycję Nowy.

    5. Na stronie Nowa połączona usługa wprowadź nazwę połączonej usługi i wybierz konto magazynu z listy Nazwa konta magazynu.

      Zrzut ekranu przedstawiający konfigurowanie źródła w usłudze Azure Data Factory.

    6. W obszarze Testuj połączenie wybierz pozycję Do ścieżki pliku, wprowadź kontener i katalog, z którymi chcesz nawiązać połączenie, a następnie wybierz pozycję Testuj połączenie.

    7. Wybierz pozycję Utwórz , aby zapisać konfigurację.

    8. Na ekranie Ustawianie właściwości wybierz przycisk OK.

  6. Skonfiguruj ujście.

    1. Na stronie Działania wybierz kartę Ujście . Wybierz pozycję Nowy , aby utworzyć zestaw danych ujścia.

    2. W oknie dialogowym Nowy zestaw danych wybierz pozycję Azure Database for PostgreSQL, a następnie wybierz pozycję Kontynuuj.

    3. Na stronie Ustawianie właściwości w obszarze Połączona usługa wybierz pozycję Nowy.

    4. Na stronie Nowa połączona usługa wprowadź nazwę połączonej usługi i wybierz pozycję Wprowadź ręcznie w metodzie wyboru Konto.

    5. Wprowadź nazwę koordynatora klastra w polu W pełni kwalifikowana nazwa domeny. Nazwę koordynatora można skopiować ze strony Przegląd klastra usługi Azure Cosmos DB for PostgreSQL.

    6. Pozostaw domyślny port 5432 w polu Port dla bezpośredniego połączenia z koordynatorem lub zastąp go portem 6432, aby nawiązać połączenie z zarządzanym portem PgBouncer .

    7. Wprowadź nazwę bazy danych w klastrze i podaj poświadczenia, aby nawiązać z nim połączenie.

    8. Wybierz pozycję SSL z listy rozwijanej Metoda szyfrowania.

      Zrzut ekranu przedstawiający konfigurowanie ujścia w usłudze Azure Data Factory.

    9. Wybierz pozycję Testuj połączenie w dolnej części panelu, aby zweryfikować konfigurację ujścia.

    10. Wybierz pozycję Utwórz , aby zapisać konfigurację.

    11. Na ekranie Ustawianie właściwości wybierz przycisk OK.

    12. Na karcie Ujście na stronie Działania wybierz pozycję Otwórz obok listy rozwijanej Zestaw danych ujścia i wybierz nazwę tabeli w klastrze docelowym, w którym chcesz pozyskać dane.

    13. W obszarze Metoda zapisu wybierz polecenie Kopiuj.

    Zrzut ekranu przedstawiający wybieranie tabeli i polecenie Kopiuj.

  7. Na pasku narzędzi nad kanwą wybierz pozycję Weryfikuj , aby zweryfikować ustawienia potoku. Napraw wszelkie błędy, popraw poprawność i upewnij się, że potok został pomyślnie zweryfikowany.

  8. Wybierz pozycję Debuguj na pasku narzędzi, aby wykonać potok.

    Zrzut ekranu przedstawiający debugowanie i wykonywanie w usłudze Azure Data Factory.

  9. Po pomyślnym uruchomieniu potoku na górnym pasku narzędzi wybierz pozycję Opublikuj wszystko. Ta akcja publikuje jednostki (zestawy danych i potoki) utworzone w usłudze Data Factory.

Wywoływanie procedury składowanej w usłudze Data Factory

W niektórych konkretnych scenariuszach możesz wywołać procedurę składowaną/funkcję, aby wypchnąć zagregowane dane z tabeli przejściowej do tabeli podsumowania. Usługa Data Factory nie oferuje działania procedury składowanej dla usługi Azure Cosmos DB for PostgreSQL, ale jako obejście można użyć działania Lookup z zapytaniem w celu wywołania procedury składowanej, jak pokazano poniżej:

Zrzut ekranu przedstawiający wywoływanie procedury w usłudze Azure Data Factory.

Następne kroki