Självstudie: Skapa din första pipeline för att transformera data med Hjälp av Hadoop-kluster

Anteckning

Den här artikeln gäller för version 1 av Data Factory. Läs Quickstart: Create a data factory using Azure Data Factory (Snabbstart: Skapa en datafabrik med Azure Data Factory) om du använder den aktuella versionen av Data Factory-tjänsten.

I den här självstudien skapar du din första Azure-datafabrik med en datapipeline. Pipelinen transformerar indata genom att köra Hive-skript i ett Azure HDInsight-kluster (Hadoop) för att producera utdata.

Den här artikeln innehåller översikt och förutsättningar för självstudien. När du har slutfört förutsättningarna kan du göra självstudien med något av följande verktyg/SDK:er: Visual Studio, PowerShell, Resource Manager mall, REST API. Välj ett av alternativen i listrutan i början (eller) länkarna i slutet av den här artikeln för att utföra självstudien med något av dessa alternativ.

Självstudier – översikt

I den här självstudien får du göra följande:

  1. Skapa en datafabrik. En datafabrik kan innehålla en eller flera datapipelines som flyttar och transformerar data.

    I den här självstudien skapar du en pipeline i datafabriken.

  2. Skapa en pipeline. En pipeline kan ha en eller flera aktiviteter (exempel: Kopieringsaktivitet, HDInsight Hive-aktivitet). Det här exemplet använder HDInsight Hive-aktiviteten som kör ett Hive-skript i ett HDInsight Hadoop-kluster. Skriptet skapar först en tabell som refererar till rådata för webbloggar som lagras i Azure Blob Storage och partitioner sedan rådata efter år och månad.

    I den här självstudien använder pipelinen Hive-aktiviteten för att transformera data genom att köra en Hive-fråga på ett Azure HDInsight Hadoop-kluster.

  3. Skapa länkade tjänster. Du skapar en länkad tjänst för att länka ett datalager eller en beräkningstjänst till datafabriken. Ett datalager som Azure Storage innehåller indata/utdata för aktiviteter i pipelinen. En beräkningstjänst som HDInsight Hadoop-kluster bearbetar/transformerar data.

    I den här självstudien skapar du två länkade tjänster: Azure Storage och Azure HDInsight. Den länkade Azure Storage-tjänsten länkar ett Azure Storage-konto som innehåller indata/utdata till datafabriken. Länkad Azure HDInsight-tjänst länkar ett Azure HDInsight-kluster som används för att transformera data till datafabriken.

  4. Skapa in- och utdatauppsättningar. En indatauppsättning representerar indata för en aktivitet i pipeline och en utdatauppsättning representerar utdata för aktiviteten.

    I den här självstudien anger indata- och utdatauppsättningarna platser för in- och utdata i Azure Blob Storage. Den länkade Azure Storage-tjänsten anger vilket Azure Storage-konto som används. En indatauppsättning anger var indatafilerna finns och en utdatauppsättning anger var utdatafilerna placeras.

En detaljerad översikt över Azure Data Factory finns i artikeln Introduktion till Azure Data Factory.

Här är diagramvyn för den exempeldatafabrik som du skapar i den här självstudien. MyFirstPipeline har en aktivitet av typen Hive som använder AzureBlobInput-datauppsättning som indata och producerar AzureBlobOutput-datauppsättning som utdata.

Diagramvy i Självstudiekurs om Data Factory

I den här självstudien innehåller mappen inputdata i azure-blobcontainern adfgetstarted en fil med namnet input.log. Den här loggfilen innehåller poster från tre månader: januari, februari och mars 2016. Här är exempelraderna för varje månad i indatafilen.

2016-01-01,02:01:09,SAMPLEWEBSITE,GET,/blogposts/mvc4/step2.png,X-ARR-LOG-ID=2ec4b8ad-3cf0-4442-93ab-837317ece6a1,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,53175,871
2016-02-01,02:01:10,SAMPLEWEBSITE,GET,/blogposts/mvc4/step7.png,X-ARR-LOG-ID=d7472a26-431a-4a4d-99eb-c7b4fda2cf4c,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,30184,871
2016-03-01,02:01:10,SAMPLEWEBSITE,GET,/blogposts/mvc4/step7.png,X-ARR-LOG-ID=d7472a26-431a-4a4d-99eb-c7b4fda2cf4c,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,30184,871

När filen bearbetas av pipelinen med HDInsight Hive Activity kör aktiviteten ett Hive-skript i HDInsight-klustret som partitionerar indata per år och månad. Skriptet skapar tre utdatamappar som innehåller en fil med poster från varje månad.

adfgetstarted/partitioneddata/year=2016/month=1/000000_0
adfgetstarted/partitioneddata/year=2016/month=2/000000_0
adfgetstarted/partitioneddata/year=2016/month=3/000000_0

Från exempelraderna som visas ovan skrivs den första (med 2016-01-01) till filen 000000_0 i mappen month=1. På samma sätt skrivs den andra till filen i mappen month=2 och den tredje skrivs till filen i mappen month=3.

Krav

Innan du påbörjar den här självstudien måste du ha följande krav:

  1. Azure-prenumeration – Om du inte har en Azure-prenumeration kan du skapa ett kostnadsfritt utvärderingskonto på bara några minuter. Se den kostnadsfria utvärderingsartikeln om hur du kan skaffa ett kostnadsfritt utvärderingskonto.
  2. Azure Storage – Du använder ett Azure Storage-konto för att lagra data i den här självstudien. Om du inte har något Azure Storage-konto kan du läsa artikeln Skapa ett lagringskonto . När du har skapat lagringskontot noterar du kontonamnet och åtkomstnyckeln. Information om hur du hämtar åtkomstnycklarna för lagringskontot finns i Hantera åtkomstnycklar för lagringskonto.
  3. Ladda ned och granska Hive-frågefilen (HQL) som finns på: https://adftutorialfiles.blob.core.windows.net/hivetutorial/partitionweblogs.hql. Den här frågan transformerar indata för att skapa utdata.
  4. Ladda ned och granska exempelindatafilen (input.log) på: https://adftutorialfiles.blob.core.windows.net/hivetutorial/input.log
  5. Skapa en blobcontainer med namnet adfgetstarted i din Azure Blob Storage.
  6. Ladda upp filen partitionweblogs.hql till skriptmappen i containern adfgetstarted . Använd verktyg som Microsoft Azure Storage Explorer.
  7. Ladda upp filen input.log till mappen inputdata i containern adfgetstarted .

När du har slutfört förutsättningarna väljer du något av följande verktyg/SDK:er för att utföra självstudien:

Visual Studio är ett GUI-sätt att skapa dina datafabriker. Alternativen PowerShell, Resource Manager Template och REST API tillhandahåller skript-/programmeringssätt för att skapa dina datafabriker.

Anteckning

Datapipelinen i den här självstudien transformerar indata för att generera utdata. Den kopierar inte data från ett källdatalager till ett måldatalager. En självstudiekurs om hur du kopierar data med Azure Data Factory finns i Tutorial: Copy data from Blob Storage to SQL Database (Självstudie: Kopiera data från Blob Storage till SQL Database).

Du kan länka två aktiviteter (köra en aktivitet efter en annan) genom att ställa in datauppsättningen för utdata för en aktivitet som den inkommande datauppsättningen för den andra aktiviteten. Mer detaljerad information finns i Scheduling and execution in Data Factory (Schemaläggning och utförande i Data Factory).