Wybieranie technologii aranżacji potoku danych na platformie Azure

2024-12-13

Większość rozwiązań do obsługi danych big data składa się z powtarzających się operacji przetwarzania danych, hermetyzowanych w przepływach pracy. Orkiestrator potoków zadań to narzędzie, które pomaga zautomatyzować te przepływy pracy. Orkiestrator może planować zadania, wykonywać przepływy pracy i koordynować zależności między zadaniami.

Jakie są opcje aranżacji potoku danych?

Na platformie Azure następujące usługi i narzędzia spełniają podstawowe wymagania dotyczące aranżacji potoków, przepływu sterowania i przenoszenia danych:

Te usługi i narzędzia mogą być używane niezależnie od siebie lub używane razem do tworzenia rozwiązania hybrydowego. Na przykład środowisko Integration Runtime (IR) w usłudze Azure Data Factory W wersji 2 może natywnie wykonywać pakiety SSIS w zarządzanym środowisku obliczeniowym platformy Azure. Chociaż istnieją pewne nakładające się funkcje między tymi usługami, istnieje kilka kluczowych różnic.

Kluczowe kryteria wyboru

Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:

Czy potrzebujesz możliwości danych big data do przenoszenia i przekształcania danych? Zwykle oznacza to od wielu gigabajtów do terabajtów danych. Jeśli tak, zawęź opcje do tych, które najlepiej nadają się do obsługi danych big data.
Czy potrzebujesz usługi zarządzanej, która może działać na dużą skalę? Jeśli tak, wybierz jedną z usług w chmurze, które nie są ograniczone przez lokalną moc obliczeniową.
Czy niektóre źródła danych znajdują się lokalnie? Jeśli tak, poszukaj opcji, które mogą współdziałać zarówno z chmurowymi, jak i lokalnymi źródłami danych lub lokalizacjami docelowymi.
Czy dane źródłowe są przechowywane w usłudze Blob Storage w systemie plików HDFS? Jeśli tak, wybierz opcję, która obsługuje zapytania Hive.

Macierz możliwości

W poniższych tabelach podsumowano kluczowe różnice w możliwościach.

Ogólne możliwości

Zdolność	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie w usłudze HDInsight
Zarządzane	Tak	Nie	Tak
Chmurowe	Tak	Nie (lokalny)	Tak
Warunek wstępny	Subskrypcja platformy Azure	SQL Server	Subskrypcja platformy Azure, klaster usługi HDInsight
Narzędzia do zarządzania	Witryna Azure Portal, program PowerShell, interfejs wiersza polecenia, zestaw SDK platformy .NET	SSMS, PowerShell	Bash, interfejs API REST Oozie, interfejs webowy Oozie
Ceny	Płatność za użycie	Licencjonowanie/płacenie za funkcje	Brak dodatkowych opłat oprócz uruchomienia klastra usługi HDInsight

Możliwości rurociągu

Zdolność	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie w usłudze HDInsight
Kopiowanie danych	Tak	Tak	Tak
Przekształcenia niestandardowe	Tak	Tak	Tak (zadania MapReduce, Pig i Hive)
Ocenianie usługi Azure Machine Learning	Tak	Tak (ze skryptami)	Nie
Usługa HDInsight na żądanie	Tak	Nie	Nie
Usługa Azure Batch	Tak	Nie	Nie
Świnia, Ul, MapReduce	Tak	Nie	Tak
Iskra	Tak	Nie	Nie
Uruchom pakiet SSIS	Tak	Tak	Nie
Sterowanie przebiegiem	Tak	Tak	Tak
Uzyskiwanie dostępu do danych lokalnych	Tak	Tak	Nie

Możliwości skalowalności

Zdolność	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie w usłudze HDInsight
Zwiększenie skali	Tak	Nie	Nie
Skalowanie w poziomie	Tak	Nie	Tak (dodając węzły robocze do klastra)
Zoptymalizowane pod kątem dużych zbiorów danych	Tak	Nie	Tak

Współpracownicy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Zoiner Tejada | Dyrektor generalny i architekt

Następne kroki

DataOps dla nowoczesnego magazynu danych