Wybieranie technologii aranżacji potoku danych na platformie Azure

Większość rozwiązań do obsługi danych big data składa się z powtarzających się operacji przetwarzania danych, hermetyzowanych w przepływach pracy. Orkiestrator potoku to narzędzie, które pomaga zautomatyzować te przepływy pracy. Orkiestrator może planować zadania, wykonywać przepływy pracy i koordynować zależności między zadaniami.

Jakie są opcje aranżacji potoku danych?

Na platformie Azure następujące usługi i narzędzia spełniają podstawowe wymagania dotyczące aranżacji potoków, przepływu sterowania i przenoszenia danych:

Te usługi i narzędzia mogą być używane niezależnie od siebie lub używane razem do tworzenia rozwiązania hybrydowego. Na przykład środowisko Integration Runtime (IR) w usłudze Azure Data Factory W wersji 2 może natywnie wykonywać pakiety SSIS w zarządzanym środowisku obliczeniowym platformy Azure. Chociaż istnieją pewne nakładające się funkcje między tymi usługami, istnieje kilka kluczowych różnic.

Kluczowe kryteria wyboru

Aby zawęzić opcje, zacznij od udzielenia odpowiedzi na następujące pytania:

  • Czy potrzebujesz możliwości danych big data do przenoszenia i przekształcania danych? Zwykle oznacza to, że wiele gigabajtów do terabajtów danych. Jeśli tak, zawęź opcje do tych, które najlepiej nadają się do obsługi danych big data.

  • Czy potrzebujesz usługi zarządzanej, która może działać na dużą skalę? Jeśli tak, wybierz jedną z usług w chmurze, które nie są ograniczone przez lokalną moc obliczeniową.

  • Czy niektóre źródła danych znajdują się lokalnie? Jeśli tak, poszukaj opcji, które mogą współdziałać zarówno z chmurowymi, jak i lokalnymi źródłami danych lub lokalizacjami docelowymi.

  • Czy dane źródłowe są przechowywane w usłudze Blob Storage w systemie plików HDFS? Jeśli tak, wybierz opcję, która obsługuje zapytania Hive.

Macierz możliwości

W poniższych tabelach podsumowano kluczowe różnice w możliwościach.

Ogólne możliwości

Możliwość Azure Data Factory SQL Server Integration Services (SSIS) Oozie w usłudze HDInsight
Zarządzana Tak Nie Tak
Oparte na chmurze Tak Nie (lokalny) Tak
Warunek wstępny Subskrypcja platformy Azure SQL Server Subskrypcja platformy Azure, klaster usługi HDInsight
Narzędzia do zarządzania Witryna Azure Portal, program PowerShell, interfejs wiersza polecenia, zestaw SDK platformy .NET SSMS, PowerShell Powłoka Bash, interfejs API REST Oozie, internetowy interfejs użytkownika usługi Oozie
Cennik Płatność za użycie Licencjonowanie/płacenie za funkcje Brak dodatkowych opłat za uruchomienie klastra usługi HDInsight

Możliwości potoku

Możliwość Azure Data Factory SQL Server Integration Services (SSIS) Oozie w usłudze HDInsight
Kopiowanie danych Tak Tak Tak
Przekształcenia niestandardowe Tak Tak Tak (zadania MapReduce, Pig i Hive)
Ocenianie usługi Azure Machine Edukacja Tak Tak (ze skryptami) Nie.
Usługa HDInsight na żądanie Tak Nie. Nie.
Usługa Azure Batch Tak Nie. Nie.
Pig, Hive, MapReduce Tak Nie Tak
platforma Spark Tak Nie. Nie.
Wykonywanie pakietu usług SSIS Tak Tak Nie.
Przepływ sterowania Tak Tak Tak
Dostęp do danych lokalnych Tak Tak Nie.

Możliwości skalowalności

Możliwość Azure Data Factory SQL Server Integration Services (SSIS) Oozie w usłudze HDInsight
Skalowanie w górę Tak Nie. Nie.
Skalowanie w poziomie Tak Nie. Tak (dodając węzły robocze do klastra)
Zoptymalizowane pod kątem danych big data Tak Nie Tak

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Następne kroki