Kurz: Vytvoření prvního kanálu pro transformaci dat pomocí clusteru Hadoop

Poznámka

Tento článek platí pro Data Factory verze 1. Pokud používáte aktuální verzi této služby, přečtěte si Rychlý start: Vytvoření datové továrny pomocí Azure Data Factory.

V tomto kurzu vytvoříte první datovou továrnu Azure s datovým kanálem. Kanál transformuje vstupní data spuštěním skriptu Hive v clusteru Azure HDInsight (Hadoop) za účelem vytvoření výstupních dat.

Tento článek obsahuje přehled a požadavky pro tento kurz. Po dokončení požadavků můžete kurz provést pomocí jednoho z následujících nástrojů nebo sad SDK: Visual Studio, PowerShellu, šablony Resource Manager, rozhraní REST API. Vyberte jednu z možností v rozevíracím seznamu na začátku (nebo) odkazy na konci tohoto článku a proveďte kurz pomocí jedné z těchto možností.

Přehled kurzu

V tomto kurzu budete provádět následující kroky:

  1. Vytvořte datovou továrnu. Datová továrna může obsahovat jeden nebo více datových kanálů, které přesunují a transformují data.

    V tomto kurzu vytvoříte jeden kanál v datové továrně.

  2. Vytvořte kanál. Kanál může mít jednu nebo více aktivit (příklady: aktivita kopírování, aktivita HDInsight Hive). Tato ukázka používá aktivitu HDInsight Hive, která spouští skript Hive v clusteru HDInsight Hadoop. Skript nejprve vytvoří tabulku, která odkazuje na nezpracovaná data webového protokolu uložená ve službě Azure Blob Storage a potom rozdělí nezpracovaná data podle roku a měsíce.

    V tomto kurzu kanál používá aktivitu Hive k transformaci dat spuštěním dotazu Hive v clusteru Azure HDInsight Hadoop.

  3. Vytvořte propojené služby. Vytvoříte propojenou službu, která spojuje úložiště dat nebo výpočetní službu s datovou továrnou. Úložiště dat, jako například Azure Storage, uchovává vstupní a výstupní data aktivit v kanálu. Výpočetní služba, jako je cluster HDInsight Hadoop, zpracovává nebo transformuje data.

    V tomto kurzu vytvoříte dvě propojené služby: Azure Storage a Azure HDInsight. Propojená služba Azure Storage propojuje účet Azure Storage, který obsahuje vstupní a výstupní data do datové továrny. Propojená služba Azure HDInsight propojuje cluster Azure HDInsight, který se používá k transformaci dat do datové továrny.

  4. Vytváření vstupních a výstupních datových sad Vstupní datová sada představuje vstup pro aktivitu v kanálu a výstupní datová sada představuje výstup pro aktivitu.

    V tomto kurzu vstupní a výstupní datové sady určují umístění vstupních a výstupních dat v Azure Blob Storage. Propojená služba Azure Storage určuje, jaký Azure Storage účet se používá. Vstupní datová sada určuje umístění vstupních souborů a výstupní datová sada určuje umístění výstupních souborů.

Podrobný přehled Azure Data Factory najdete v článku Úvod do Azure Data Factory.

Tady je zobrazení diagramu ukázkové datové továrny, kterou vytvoříte v tomto kurzu. MyFirstPipeline má jednu aktivitu typu Hive, která jako vstup využívá datovou sadu AzureBlobInput a vytváří datovou sadu AzureBlobOutput jako výstup.

Diagram view in Data Factory tutorial

V tomto kurzu obsahuje složka inputdata kontejneru objektů blob Azure adfgetstarted jeden soubor s názvem input.log. Tento soubor protokolu obsahuje položky ze tří měsíců: leden, únor a březen 2016. Zde jsou řádky vzorku pro každý měsíc ve vstupním souboru.

2016-01-01,02:01:09,SAMPLEWEBSITE,GET,/blogposts/mvc4/step2.png,X-ARR-LOG-ID=2ec4b8ad-3cf0-4442-93ab-837317ece6a1,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,53175,871
2016-02-01,02:01:10,SAMPLEWEBSITE,GET,/blogposts/mvc4/step7.png,X-ARR-LOG-ID=d7472a26-431a-4a4d-99eb-c7b4fda2cf4c,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,30184,871
2016-03-01,02:01:10,SAMPLEWEBSITE,GET,/blogposts/mvc4/step7.png,X-ARR-LOG-ID=d7472a26-431a-4a4d-99eb-c7b4fda2cf4c,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,30184,871

Při zpracování souboru pomocí kanálu s aktivitou HDInsight Hive aktivita spustí v klastru HDInsight skript Hive, který rozdělí vstupní data podle roku a měsíce. Skript vytvoří tři výstupní složky, které obsahují soubor s položkami za jednotlivé měsíce.

adfgetstarted/partitioneddata/year=2016/month=1/000000_0
adfgetstarted/partitioneddata/year=2016/month=2/000000_0
adfgetstarted/partitioneddata/year=2016/month=3/000000_0

Z výše uvedených vzorových řádků se první řádek (s 1. 1. 2016) zapíše do souboru 000000_0 ve složce month=1. Podobně je druhý řádek zapsán do souboru ve složce month=2 a třetí řádek je zapsán do souboru ve složce month=3.

Požadavky

Je nutné, abyste před zahájením tohoto kurzu splňovali následující požadavky:

  1. Předplatné Azure – Pokud nemáte předplatné Azure, můžete si během několika minut vytvořit bezplatný zkušební účet. Postup při vytváření bezplatného zkušebního účtu najdete v článku Bezplatná zkušební verze.
  2. Úložiště Azure – Pro ukládání dat v rámci tohoto kurzu budete používat účet úložiště Azure. Pokud nemáte účet úložiště Azure, přečtěte si článek Vytvoření účtu úložiště. Po vytvoření účtu úložiště si poznamenejte název účtu a přístupový klíč. Informace o tom, jak načíst přístupové klíče účtu úložiště, najdete v tématu Správa přístupových klíčů k účtu úložiště.
  3. Stáhněte a zkontrolujte soubor dotazu Hive (HQL) umístěný na adrese: https://adftutorialfiles.blob.core.windows.net/hivetutorial/partitionweblogs.hql. Tento dotaz transformuje vstupní data za účelem vytvoření výstupních dat.
  4. Stáhněte a zkontrolujte ukázkový vstupní soubor (input.log) umístěný na adrese: https://adftutorialfiles.blob.core.windows.net/hivetutorial/input.log
  5. Vytvořte kontejner objektů blob s názvem adfgetstarted v Azure Blob Storage.
  6. Upload souboru partitionweblogs.hql do složky skriptu v kontejneru adfgetstarted. Používejte nástroje, jako je Průzkumník služby Microsoft Azure Storage.
  7. Upload soubor input.log do složky inputdata v kontejneru adfgetstarted.

Po dokončení požadavků vyberte jeden z následujících nástrojů nebo sad SDK, které tento kurz provedete:

Visual Studio poskytuje způsob vytváření datových továren grafickým rozhraním. Zatímco možnosti powershellu Resource Manager šablony a rozhraní REST API poskytují skriptovací a programovací způsob vytváření datových továren.

Poznámka

Datový kanál v tomto kurzu transformuje vstupní data, aby vytvořil výstupní data. Nekopíruje data ze zdrojového úložiště dat do cílového úložiště dat. Kurz předvádějící způsoby kopírování dat pomocí Azure Data Factory najdete v tématu popisujícím kurz kopírování dat z Blob Storage do SQL Database.

Dvě aktivity můžete zřetězit (spustit jednu aktivitu po druhé) nastavením výstupní datové sady jedné aktivity jako vstupní datové sady druhé aktivity. Podrobné informace najdete v tématu s popisem plánování a provádění ve službě Data Factory.