Udostępnij przez


Przyrostowe ładowanie danych ze źródłowego do docelowego magazynu danych

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W rozwiązaniu integracji danych przyrostowe (lub różnicowe) ładowanie danych po początkowym pełnym ładowaniu danych to powszechnie używany scenariusz. W samouczkach w tej sekcji opisano różne sposoby przyrostowego ładowania danych przy użyciu usługi Azure Data Factory.

Ładowanie danych różnicowych z bazy danych przy użyciu limitu

W takim przypadku należy zdefiniować limit w źródłowej bazie danych. Limit to kolumna, która zawiera znacznik czasu ostatniej aktualizacji lub klucz o zwiększającej się wartości. Rozwiązanie ładowania różnicowego służy do ładowania zmienionych danych między starą a nową wartością limitu. Na poniższym diagramie przedstawiono przepływ pracy dla tej metody:

Przepływ pracy dotyczący używania limitu

Aby uzyskać instrukcje krok po kroku, zobacz następujące samouczki:

Aby uzyskać informacje o szablonach, zobacz następujące elementy:

Ładowanie danych różnicowych z bazy danych SQL przy użyciu technologii Change Tracking

Technologia Change Tracking to rozwiązanie o małych wymaganiach w programie SQL Server i bazie danych Azure SQL Database, które zapewnia wydajny mechanizm śledzenia zmian na potrzeby aplikacji. Dzięki temu w aplikacji można łatwo zidentyfikować dane, które zostały wstawione, zaktualizowane lub usunięte.

Na poniższym diagramie przedstawiono przepływ pracy dla tej metody:

Przepływ pracy dotyczący używania technologii Change Tracking

Aby uzyskać instrukcje krok po kroku, zobacz następujący samouczek:

Ładowanie nowych i zmienionych plików tylko przy użyciu parametru LastModifiedDate

Nowe i zmienione pliki można skopiować tylko przy użyciu funkcji LastModifiedDate do magazynu docelowego. Usługa ADF przeskanuje wszystkie pliki z magazynu źródłowego, zastosuje filtr pliku według właściwości LastModifiedDate i skopiuje tylko nowy i zaktualizowany plik od ostatniego czasu do magazynu docelowego. Jeśli zezwolisz usłudze ADF na skanowanie ogromnych ilości plików, ale skopiujesz tylko kilka plików do miejsca docelowego, będzie to nadal trwać długo z powodu procesu skanowania plików.

Aby uzyskać instrukcje krok po kroku, zobacz następujący samouczek:

Aby uzyskać informacje o szablonach, zobacz następujące elementy:

Ładowanie nowych plików tylko przy użyciu folderu partycjonowanego w czasie lub nazwy pliku

Możesz kopiować tylko nowe pliki, gdy pliki lub foldery zostały już poddane partycjonowaniu na podstawie czasu za pomocą informacji o kwancie czasu jako części nazwy pliku lub folderu (na przykład /rrrr/mm/dd/plik.csv). Jest to najbardziej wydajne podejście do przyrostowego ładowania nowych plików.

Aby uzyskać instrukcje krok po kroku, zobacz następujący samouczek:

Przejdź do następującego samouczka: