Utöver Oracle-migrering implementerar du ett modernt informationslager i Microsoft Azure

Den här artikeln är del sju i en serie i sju delar som ger vägledning om hur du migrerar från Oracle till Azure Synapse Analytics. Fokus i den här artikeln är metodtips för att implementera moderna informationslager.

Utöver migrering av informationslager till Azure

En viktig orsak till att migrera ditt befintliga informationslager till Azure Synapse Analytics är att använda en globalt säker, skalbar analysdatabas med låg kostnad och molnbaserad analysdatabas där du betalar per användning. Med Azure Synapse kan du integrera ditt migrerade informationslager med hela Microsoft Azure-analysekosystemet för att dra nytta av andra Microsoft-tekniker och modernisera ditt migrerade informationslager. Dessa tekniker omfattar:

  • Azure Data Lake Storage för kostnadseffektiv datainmatning, mellanlagring, rensning och transformering. Data Lake Storage kan frigöra informationslagerkapaciteten som används av snabbväxande mellanlagringstabeller.

  • Azure Data Factory för samarbetsbaserad IT- och självbetjäningsintegrering av data med anslutningsappar till molnbaserade och lokala datakällor och strömmande data.

  • Common Data Model för att dela konsekventa betrodda data över flera tekniker, inklusive:

    • Azure Synapse
    • Azure Synapse Spark
    • Azure HDInsight
    • Power BI
    • Adobe Customer Experience Platform
    • Azure IoT
    • Microsoft ISV-partner
  • Microsofts datavetenskapstekniker, inklusive:

    • Azure Machine Learning-studio
    • Azure Machine Learning
    • Azure Synapse Spark (Spark som en tjänst)
    • Jupyter Notebook
    • RStudio
    • ML.NET
    • .NET för Apache Spark, som gör att dataexperter kan använda Azure Synapse data för att träna maskininlärningsmodeller i stor skala.
  • Azure HDInsight för att bearbeta stora mängder data och för att koppla samman stordata med Azure Synapse data genom att skapa ett logiskt informationslager med PolyBase.

  • Azure Event Hubs, Azure Stream Analytics och Apache Kafka för att integrera liveuppspelningsdata från Azure Synapse.

Tillväxten av stordata har lett till en akut efterfrågan på maskininlärning för att möjliggöra specialbyggda, tränade maskininlärningsmodeller för användning i Azure Synapse. Maskininlärningsmodeller gör det möjligt för analys i databasen att köras i stor skala i batch, på händelsedriven basis och på begäran. Möjligheten att dra nytta av databasanalys i Azure Synapse från flera BI-verktyg och program garanterar också konsekventa förutsägelser och rekommendationer.

Dessutom kan du integrera Azure Synapse med Microsofts partnerverktyg i Azure för att korta ned tiden till värdet.

Låt oss ta en närmare titt på hur du kan dra nytta av tekniker i Microsofts analysekosystem för att modernisera ditt informationslager när du har migrerat till Azure Synapse.

Avlasta data mellanlagring och ETL-bearbetning till Data Lake Storage och Data Factory

Digital omvandling har skapat en viktig utmaning för företag genom att generera en ström av nya data för insamling och analys. Ett bra exempel är transaktionsdata som skapas genom att öppna OLTP-system (online transactional processing) för att hantera åtkomst från mobila enheter. Mycket av dessa data hittar sin väg in i informationslager, och OLTP-system är huvudkällan. Med kunder som nu driver transaktionshastigheten snarare än anställda har mängden data i mellanlagringstabeller för informationslager ökat snabbt.

Med den snabba tillströmningen av data till företaget, tillsammans med nya datakällor som Sakernas Internet (IoT), måste företag hitta sätt att skala upp ETL-bearbetning av dataintegrering. En metod är att avlasta inmatning, datarensning, transformering och integrering till en datasjö och bearbeta data i stor skala där, som en del av ett moderniseringsprogram för informationslager.

När du har migrerat ditt informationslager till Azure Synapse kan Microsoft modernisera din ETL-bearbetning genom att mata in och mellanlagra data i Data Lake Storage. Du kan sedan rensa, transformera och integrera dina data i stor skala med datafabriken innan du läser in dem i Azure Synapse parallellt med PolyBase.

För ELT-strategier bör du överväga att avlasta ELT-bearbetning till Data Lake Storage för att enkelt skala när datavolymen eller frekvensen växer.

Microsoft Azure Data Factory

Azure Data Factory är en tjänst för hybriddataintegrering där du betalar per användning för mycket skalbar ETL- och ELT-bearbetning. Data Factory tillhandahåller ett webbaserat användargränssnitt för att skapa pipelines för dataintegrering utan kod. Med Data Factory kan du:

  • Skapa kodfria pipelines för skalbar dataintegrering.

  • Hämta enkelt data i stor skala.

  • Du betalar bara för det du använder.

  • Anslut till lokala, molnbaserade och SaaS-baserade datakällor.

  • Mata in, flytta, rensa, transformera, integrera och analysera molnbaserade och lokala data i stor skala.

  • Skapa, övervaka och hantera pipelines som omfattar datalager både lokalt och i molnet.

  • Aktivera betala per användning-utskalning i enlighet med kundtillväxten.

Du kan använda dessa funktioner utan att skriva någon kod, eller så kan du lägga till anpassad kod i Data Factory-pipelines. Följande skärmbild visar ett exempel på en Data Factory-pipeline.

Skärmbild av ett exempel på en Data Factory-pipeline.

Tips

Med Data Factory kan du skapa skalbara pipelines för dataintegrering utan kod.

Implementera Data Factory-pipelineutveckling från någon av flera platser, inklusive:

  • Microsoft Azure Portal.

  • Microsoft Azure PowerShell.

  • Programmatiskt från .NET och Python med hjälp av ett SDK med flera språk.

  • Arm-mallar (Azure Resource Manager).

  • REST API:er.

Tips

Data Factory kan ansluta till lokala data, molndata och SaaS-data.

Utvecklare och dataforskare som föredrar att skriva kod kan enkelt skapa Data Factory-pipelines i Java, Python och .NET med hjälp av de SDK:er (Software Development Kit) som är tillgängliga för dessa programmeringsspråk. Data Factory-pipelines kan vara hybriddatapipelines eftersom de kan ansluta, mata in, rensa, transformera och analysera data i lokala datacenter, Microsoft Azure, andra moln och SaaS-erbjudanden.

När du har utvecklat Data Factory-pipelines för att integrera och analysera data kan du distribuera dessa pipelines globalt och schemalägga dem att köras i batch, anropa dem på begäran som en tjänst eller köra dem i realtid på händelsedriven basis. En Data Factory-pipeline kan också köras på en eller flera körningsmotorer och övervaka körningen för att säkerställa prestanda och spåra fel.

Tips

I Azure Data Factory styr pipelines integreringen och analysen av data. Data Factory är en dataintegreringsprogramvara i företagsklass som riktar sig till IT-proffs och har dataomvandlingsfunktioner för företagsanvändare.

Användningsfall

Data Factory stöder flera användningsfall, till exempel:

  • Förbereda, integrera och utöka data från molnbaserade och lokala datakällor för att fylla i ditt migrerade informationslager och dataförråd på Microsoft Azure Synapse.

  • Förbereda, integrera och berika data från molnbaserade och lokala datakällor för att skapa träningsdata för användning i utveckling av maskininlärningsmodeller och vid omträning av analysmodeller.

  • Samordna förberedelse och analys av data för att skapa prediktiva och förebyggande analyspipelines för bearbetning och analys av data i batch, till exempel attitydanalys. Agera antingen på resultatet av analysen eller fyll i ditt informationslager med resultatet.

  • Förbereda, integrera och utöka data för datadrivna affärsprogram som körs i Azure-molnet ovanpå driftdatalager som Azure Cosmos DB.

Tips

Skapa träningsdatauppsättningar inom data science för att utveckla maskininlärningsmodeller.

Datakällor

Med Data Factory kan du använda anslutningsappar från både molnbaserade och lokala datakällor. Agentprogramvara, som kallas en lokalt installerad integrationskörning, har säker åtkomst till lokala datakällor och stöder säker och skalbar dataöverföring.

Transformera data med Azure Data Factory

I en Data Factory-pipeline kan du mata in, rensa, transformera, integrera och analysera alla typer av data från dessa källor. Data kan vara strukturerade, halvstrukturerade som JSON eller Avro eller ostrukturerade.

Utan att skriva någon kod kan professionella ETL-utvecklare använda Data Factory-mappningsdataflöden för att filtrera, dela, koppla flera typer, slå upp, pivotera, orpivot, sortera, unionera och aggregera data. Dessutom stöder Data Factory surrogatnycklar, flera alternativ för skrivbearbetning som insert, upsert, update, table recreation och table truncation och flera typer av måldatalager, även kallade mottagare. ETL-utvecklare kan också skapa aggregeringar, inklusive tidsserieaggregeringar som kräver att ett fönster placeras på datakolumner.

Tips

Professionella ETL-utvecklare kan använda Data Factory-mappningsdataflöden för att rensa, transformera och integrera data utan att behöva skriva kod.

Du kan köra mappning av dataflöden som transformerar data som aktiviteter i en Data Factory-pipeline, och om det behövs kan du inkludera flera mappningsdataflöden i en enda pipeline. På så sätt kan du hantera komplexiteten genom att dela upp utmanande datatransformerings- och integreringsuppgifter i mindre mappningsdataflöden som kan kombineras. Och du kan lägga till anpassad kod när det behövs. Förutom den här funktionen omfattar Data Factory-mappning av dataflöden möjligheten att:

  • Definiera uttryck för att rensa och transformera data, beräkningsaggregeringar och berika data. De här uttrycken kan till exempel utföra funktionsframställning i ett datumfält för att dela upp det i flera fält för att skapa träningsdata under utveckling av maskininlärningsmodeller. Du kan konstruera uttryck från en omfattande uppsättning funktioner som inkluderar matematiska, temporala, delade, sammanfogningar, strängsammanfogning, villkor, mönstermatchning, ersätt och många andra funktioner.

  • Hantera schemaavvikelser automatiskt så att datatransformeringspipelines kan undvika att påverkas av schemaändringar i datakällor. Den här möjligheten är särskilt viktig för direktuppspelning av IoT-data, där schemaändringar kan ske utan föregående meddelande om enheter uppgraderas eller när avläsningar missas av gatewayenheter som samlar in IoT-data.

  • Partitionera data så att transformeringar kan köras parallellt i stor skala.

  • Granska strömmande data för att visa metadata för en ström som du transformerar.

Tips

Data Factory stöder möjligheten att automatiskt identifiera och hantera schemaändringar i inkommande data, till exempel i strömmande data.

Följande skärmbild visar ett exempel på dataflödet för Data Factory-mappning.

Skärmbild av ett exempel på ett Data Factory-mappningsdataflöde.

Datatekniker kan profilera datakvaliteten och visa resultatet av enskilda datatransformering genom att aktivera felsökningsfunktionen under utvecklingen.

Tips

Data Factory kan också partitionera data så att ETL-bearbetning kan köras i stor skala.

Om det behövs kan du utöka datafabrikens transformerings- och analysfunktioner genom att lägga till en länkad tjänst som innehåller din kod i en pipeline. Till exempel kan en Azure Synapse Notebook-fil för Spark-pool innehålla Python-kod som använder en tränad modell för att bedöma data som är integrerade i ett mappningsdataflöde.

Du kan lagra integrerade data och eventuella resultat från analyser i en Data Factory-pipeline i ett eller flera datalager, till exempel Data Lake Storage, Azure Synapse eller Hive-tabeller i HDInsight. Du kan också anropa andra aktiviteter för att agera på insikter som skapas av en Data Factory-analyspipeline.

Tips

Data Factory-pipelines är utökningsbara eftersom Data Factory låter dig skriva din egen kod och köra den som en del av en pipeline.

Använda Spark för att skala dataintegrering

Vid körning använder Data Factory internt Azure Synapse Spark-pooler, som är Microsofts Spark som ett tjänsterbjudande, för att rensa och integrera data i Azure-molnet. Du kan rensa, integrera och analysera högvolymdata med hög hastighet, till exempel klickströmsdata, i stor skala. Microsofts avsikt är också att köra Data Factory-pipelines på andra Spark-distributioner. Förutom att köra ETL-jobb på Spark kan Data Factory anropa Pig-skript och Hive-frågor för att komma åt och transformera data som lagras i HDInsight.

Med dataomvandling kan företagsanvändare, även kallade integrerare av medborgardata och datatekniker, använda plattformen för att visuellt identifiera, utforska och förbereda data i stor skala utan att skriva kod. Den här Data Factory-funktionen är enkel att använda och liknar Microsoft Excel-Power Query eller Microsoft Power BI-dataflöden, där självbetjäningsanvändare använder ett kalkylbladsformat med listrutetransformer för att förbereda och integrera data. Följande skärmbild visar ett exempel på Data Factory-dataflöde.

Skärmbild av ett exempel på Data Factory-dataflöden.

Till skillnad från Excel och Power BI använder Data Factory-dataflöden Power Query för att generera M-kod och sedan översätta den till ett massivt parallellt Spark-jobb i minnet för körning i molnskala. Kombinationen av att mappa dataflöden och omvandla dataflöden i Data Factory gör att professionella ETL-utvecklare och företagsanvändare kan samarbeta för att förbereda, integrera och analysera data för ett gemensamt affärssyfte. Det föregående dataflödesdiagrammet för Data Factory-mappning visar hur både Data Factory och Azure Synapse Spark-poolanteckningsböcker kan kombineras i samma Data Factory-pipeline. Kombinationen av mappning och vridning av dataflöden i Data Factory hjälper IT- och företagsanvändare att vara medvetna om vilka dataflöden var och en har skapat och stöder återanvändning av dataflöden för att minimera förnyelsen och maximera produktiviteten och konsekvensen.

Tips

Data Factory stöder både wrangling dataflöden och mappning av dataflöden, så att företagsanvändare och IT-användare kan integrera data i samarbete på en gemensam plattform.

Förutom att rensa och transformera data kan Data Factory kombinera dataintegrering och analys i samma pipeline. Du kan använda Data Factory för att skapa både dataintegrerings- och analyspipelines, där det senare är ett tillägg till den förra. Du kan släppa en analysmodell i en pipeline för att skapa en analyspipeline som genererar rena, integrerade data för förutsägelser eller rekommendationer. Sedan kan du agera på förutsägelserna eller rekommendationerna omedelbart, eller lagra dem i ditt informationslager för att ge nya insikter och rekommendationer som kan visas i BI-verktyg.

Om du vill batchpoänga dina data kan du utveckla en analysmodell som du anropar som en tjänst i en Data Factory-pipeline. Du kan utveckla analysmodeller utan kod med Azure Machine Learning-studio eller med Azure Machine Learning SDK med hjälp av Azure Synapse Notebook-filer för Spark-pool eller R i RStudio. När du kör Spark-maskininlärningspipelines på Azure Synapse Notebook-filer för Spark-poolen sker analysen i stor skala.

Du kan lagra integrerade data och datafabrikens analyspipelineresultat i ett eller flera datalager, till exempel Data Lake Storage, Azure Synapse eller Hive-tabeller i HDInsight. Du kan också anropa andra aktiviteter för att agera på insikter som skapas av en Data Factory-analyspipeline.

Använda en lake-databas för att dela konsekventa betrodda data

Ett viktigt mål för alla konfigurationer av dataintegrering är möjligheten att integrera data en gång och återanvända dem överallt, inte bara i ett informationslager. Du kanske till exempel vill använda integrerade data inom data science. Återanvändning undviker återuppfinning och säkerställer konsekventa, allmänt förstådda data som alla kan lita på.

Common Data Model beskriver viktiga dataentiteter som kan delas och återanvändas i hela företaget. För att uppnå återanvändning upprättar Common Data Model en uppsättning vanliga datanamn och definitioner som beskriver logiska dataentiteter. Exempel på vanliga datanamn är Kund, Konto, Produkt, Leverantör, Beställningar, Betalningar och Returer. IT- och företagsexperter kan använda dataintegreringsprogram för att skapa och lagra gemensamma datatillgångar för att maximera återanvändning och skapa konsekvens överallt.

Azure Synapse tillhandahåller branschspecifika databasmallar för att standardisera data i sjön. Lake-databasmallar tillhandahåller scheman för fördefinierade affärsområden, vilket gör att data kan läsas in i en sjödatabas på ett strukturerat sätt. Kraften kommer när du använder dataintegreringsprogram för att skapa lake database common data assets, vilket resulterar i självbeskrivande betrodda data som kan användas av program och analyssystem. Du kan skapa vanliga datatillgångar i Data Lake Storage med hjälp av Data Factory.

Tips

Data Lake Storage är delad lagring som ligger till grund för Microsoft Azure Synapse, Azure Machine Learning, Azure Synapse Spark och HDInsight.

Power BI, Azure Synapse Spark, Azure Synapse och Azure Machine Learning kan använda vanliga datatillgångar. Följande diagram visar hur en sjödatabas kan användas i Azure Synapse.

Skärmbild som visar hur en lake-databas kan användas i Azure Synapse.

Tips

Integrera data för att skapa logiska entiteter för sjödatabaser i delad lagring för att maximera återanvändningen av vanliga datatillgångar.

Integrering med Microsofts datavetenskapstekniker i Azure

Ett annat viktigt mål när du moderniserar ett informationslager är att skapa insikter för konkurrensfördelar. Du kan skapa insikter genom att integrera ditt migrerade informationslager med Microsoft och datavetenskapstekniker från tredje part i Azure. I följande avsnitt beskrivs maskininlärnings- och datavetenskapsteknik som erbjuds av Microsoft för att se hur de kan användas med Azure Synapse i en modern informationslagermiljö.

Microsoft-tekniker för datavetenskap i Azure

Microsoft erbjuder en rad tekniker som stöder förhandsanalys. Med dessa tekniker kan du skapa förutsägelseanalysmodeller med hjälp av maskininlärning eller analysera ostrukturerade data med hjälp av djupinlärning. Teknikerna omfattar:

  • Azure Machine Learning-studio

  • Azure Machine Learning

  • Azure Synapse Notebook-filer för Spark-poolen

  • ML.NET (API, CLI eller ML.NET Model Builder för Visual Studio)

  • .NET för Apache Spark

Dataexperter kan använda RStudio (R) och Jupyter Notebooks (Python) för att utveckla analysmodeller, eller använda ramverk som Keras eller TensorFlow.

Tips

Utveckla maskininlärningsmodeller med en no/low-code-metod eller med hjälp av programmeringsspråk som Python, R och .NET.

Azure Machine Learning-studio

Azure Machine Learning-studio är en fullständigt hanterad molntjänst som gör att du kan skapa, distribuera och dela förutsägelseanalyser med hjälp av ett dra och släpp-, webbaserat användargränssnitt. Följande skärmbild visar användargränssnittet för Azure Machine Learning-studio.

Skärmbild som visar förutsägelseanalys i användargränssnittet för Azure Machine Learning-studio.

Azure Machine Learning

Azure Machine Learning tillhandahåller en SDK och tjänster för Python som stöder kan hjälpa dig att snabbt förbereda data och även träna och distribuera maskininlärningsmodeller. Du kan använda Azure Machine Learning i Azure Notebooks med Jupyter Notebook, med ramverk med öppen källkod, till exempel PyTorch, TensorFlow, scikit-learn eller Spark MLlib – maskininlärningsbiblioteket för Spark. Azure Machine Learning tillhandahåller en AutoML-funktion som automatiskt testar flera algoritmer för att identifiera de mest exakta algoritmerna för att påskynda modellutvecklingen.

Tips

Azure Machine Learning tillhandahåller en SDK för utveckling av maskininlärningsmodeller med flera ramverk med öppen källkod.

Du kan också använda Azure Machine Learning för att skapa maskininlärningspipelines som hanterar arbetsflöden från slutpunkt till slutpunkt, skala programmatiskt i molnet och distribuera modeller både till molnet och gränsen. Azure Machine Learning innehåller arbetsytor, som är logiska utrymmen som du kan skapa programmatiskt eller manuellt i Azure Portal. Dessa arbetsytor behåller beräkningsmål, experiment, datalager, tränade maskininlärningsmodeller, Docker-avbildningar och distribuerade tjänster på ett och samma ställe så att teamen kan arbeta tillsammans. Du kan använda Azure Machine Learning i Visual Studio med Visual Studio for AI-tillägget.

Tips

Organisera och hantera relaterade datalager, experiment, tränade modeller, Docker-avbildningar och distribuerade tjänster på arbetsytor.

Azure Synapse Notebook-filer för Spark-poolen

En Azure Synapse Spark-poolanteckningsbok är en Azure-optimerad Apache Spark-tjänst. Med notebook-filer för Azure Synapse Spark-pool:

  • Datatekniker kan skapa och köra skalbara dataförberedelsejobb med hjälp av Data Factory.

  • Dataexperter kan skapa och köra maskininlärningsmodeller i stor skala med notebook-filer skrivna på språk som Scala, R, Python, Java och SQL för att visualisera resultat.

Tips

Azure Synapse Spark är ett dynamiskt skalbart Spark som ett tjänsterbjudande från Microsoft erbjuder Spark skalbar körning av förberedelse av data, modellutveckling och distribuerad modellkörning.

Jobb som körs i Azure Synapse Spark-poolanteckningsböcker kan hämta, bearbeta och analysera data i stor skala från Azure Blob Storage, Data Lake Storage, Azure Synapse, HDInsight och strömmande datatjänster som Apache Kafka.

Tips

Azure Synapse Spark kan komma åt data i en rad microsofts analysekosystemdatalager i Azure.

Azure Synapse Spark-poolanteckningsböcker stöder automatisk skalning och automatisk avslutning för att minska den totala ägandekostnaden (TCO). Dataexperter kan använda MLflow-ramverket med öppen källkod för att hantera maskininlärningslivscykeln.

ML.NET

ML.NET är ett plattformsoberoende ramverk för maskininlärning med öppen källkod för Windows, Linux och macOS. Microsoft skapade ML.NET så att .NET-utvecklare kan använda befintliga verktyg, till exempel ML.NET Model Builder för Visual Studio, för att utveckla anpassade maskininlärningsmodeller och integrera dem i sina .NET-program.

Tips

Microsoft har utökat sin maskininlärningsfunktion till .NET-utvecklare.

.NET för Apache Spark

.NET för Apache Spark utökar Spark-stöd utöver R, Scala, Python och Java till .NET och syftar till att göra Spark tillgängligt för .NET-utvecklare i alla Spark-API:er. Även om .NET för Apache Spark för närvarande endast är tillgängligt på Apache Spark i HDInsight, avser Microsoft att göra .NET för Apache Spark tillgängligt på Azure Synapse Spark-poolanteckningsböcker.

Använda Azure Synapse Analytics med ditt informationslager

Om du vill kombinera maskininlärningsmodeller med Azure Synapse kan du:

  • Använd maskininlärningsmodeller i batch eller i realtid på strömmande data för att skapa nya insikter och lägga till dessa insikter i det du redan vet i Azure Synapse.

  • Använd data i Azure Synapse för att utveckla och träna nya förutsägelsemodeller för distribution någon annanstans, till exempel i andra program.

  • Distribuera maskininlärningsmodeller, inklusive modeller som tränats någon annanstans, i Azure Synapse för att analysera data i ditt informationslager och driva nytt affärsvärde.

Tips

Träna, testa, utvärdera och köra maskininlärningsmodeller i stor skala på Azure Synapse Notebook-filer för Spark-poolen med hjälp av data i Azure Synapse.

Dataexperter kan använda RStudio, Jupyter Notebooks och Azure Synapse Spark-poolanteckningsböcker tillsammans med Azure Machine Learning för att utveckla maskininlärningsmodeller som körs i stor skala på Azure Synapse Notebook-filer i Spark-poolen med hjälp av data i Azure Synapse. Dataexperter kan till exempel skapa en oövervakad modell för att segmentera kunder för att driva olika marknadsföringskampanjer. Använd övervakad maskininlärning för att träna en modell att förutsäga ett specifikt resultat, till exempel för att förutsäga en kunds benägenhet att lämna data, eller för att rekommendera det näst bästa erbjudandet för en kund att försöka öka sitt värde. Följande diagram visar hur Azure Synapse kan användas för Azure Machine Learning.

Skärmbild av en Azure Synapse träna och förutsäga modellen.

I ett annat scenario kan du mata in sociala nätverk eller granska webbplatsdata i Data Lake Storage och sedan förbereda och analysera data i stor skala på en Azure Synapse Spark-poolanteckningsbok med hjälp av bearbetning av naturligt språk för att bedöma kundsentiment om dina produkter eller varumärke. Du kan sedan lägga till dessa poäng i ditt informationslager. Genom att använda stordataanalys för att förstå effekten av negativa sentiment på produktförsäljningen lägger du till det du redan vet i informationslagret.

Tips

Skapa nya insikter med hjälp av maskininlärning i Azure i batch eller i realtid och lägg till det du vet i ditt informationslager.

Integrera liveuppspelningsdata i Azure Synapse Analytics

När du analyserar data i ett modernt informationslager måste du kunna analysera strömmande data i realtid och koppla dem till historiska data i ditt informationslager. Ett exempel är att kombinera IoT-data med produkt- eller tillgångsdata.

Tips

Integrera ditt informationslager med strömmande data från IoT-enheter eller klickströmmar.

När du har migrerat ditt informationslager till Azure Synapse kan du introducera integrering av liveuppspelningsdata som en del av en moderniseringsövning för informationslager genom att dra nytta av de extra funktionerna i Azure Synapse. Det gör du genom att mata in strömmande data via Event Hubs, andra tekniker som Apache Kafka eller eventuellt ditt befintliga ETL-verktyg om det stöder strömmande datakällor. Lagra data i Data Lake Storage. Skapa sedan en extern tabell i Azure Synapse med PolyBase och peka den på de data som strömmas till Data Lake Storage så att informationslagret nu innehåller nya tabeller som ger åtkomst till strömmande realtidsdata. Fråga den externa tabellen som om data fanns i informationslagret med hjälp av standard-T-SQL från alla BI-verktyg som har åtkomst till Azure Synapse. Du kan också koppla strömmande data till andra tabeller med historiska data för att skapa vyer som kopplar liveuppspelningsdata till historiska data för att göra det enklare för företagsanvändare att komma åt data.

Tips

Mata in strömmande data i Data Lake Storage från Event Hubs eller Apache Kafka och få åtkomst till data från Azure Synapse med hjälp av externa PolyBase-tabeller.

I följande diagram är ett informationslager i realtid på Azure Synapse integrerat med strömmande data i Data Lake Storage.

Skärmbild av Azure Synapse med strömmande data i Data Lake Storage.

Skapa ett logiskt informationslager med PolyBase

Med PolyBase kan du skapa ett logiskt informationslager för att förenkla användaråtkomsten till flera analysdatalager. Många företag har infört analysdatalager som är "arbetsbelastningsoptimerade" under de senaste åren utöver sina informationslager. Analysplattformarna i Azure omfattar:

  • Data Lake Storage med Azure Synapse Spark-poolanteckningsbok (Spark som en tjänst) för stordataanalys.

  • HDInsight (Hadoop som en tjänst), även för stordataanalys.

  • NoSQL Graph-databaser för grafanalys, vilket kan göras i Azure Cosmos DB.

  • Event Hubs och Stream Analytics för realtidsanalys av data i rörelse.

Du kan ha motsvarigheter som inte kommer från Microsoft för dessa plattformar, eller ett MDM-system (Master Data Management) som behöver nås för konsekventa betrodda data om kunder, leverantörer, produkter, tillgångar med mera.

Tips

PolyBase förenklar åtkomsten till flera underliggande analysdatalager i Azure för enkel åtkomst för företagsanvändare.

Dessa analysplattformar uppstod på grund av explosionen av nya datakällor inom och utanför företaget och företagsanvändares behov av att samla in och analysera nya data. De nya datakällorna omfattar:

  • Datorgenererade data, till exempel IoT-sensordata och klickströmsdata.

  • Människogenererade data, till exempel sociala nätverksdata, granska webbplatsdata, inkommande e-post, bilder och video från kunder.

  • Andra externa data, till exempel öppna myndighetsdata och väderdata.

Dessa nya data går utöver strukturerade transaktionsdata och huvudsakliga datakällor som vanligtvis matar in informationslager och som ofta omfattar:

  • Halvstrukturerade data som JSON, XML eller Avro.
  • Ostrukturerade data som text, röst, bild eller video, vilket är mer komplext att bearbeta och analysera.
  • Data med hög volym, data med hög hastighet eller både och.

Därför har nya mer komplexa typer av analyser dykt upp, till exempel bearbetning av naturligt språk, grafanalys, djupinlärning, strömningsanalys eller komplex analys av stora mängder strukturerade data. Den här typen av analys sker vanligtvis inte i ett informationslager, så det är inte förvånande att se olika analysplattformar för olika typer av analytiska arbetsbelastningar, som du ser i följande diagram.

Skärmbild av olika analysplattformar för olika typer av analytiska arbetsbelastningar i Azure Synapse.

Tips

Möjligheten att få data i flera analysdatalager att se ut som om allt finns i ett system och koppla dem till Azure Synapse kallas för en logisk informationslagerarkitektur.

Eftersom dessa plattformar ger nya insikter är det normalt att se ett krav på att kombinera de nya insikterna med det du redan vet i Azure Synapse, vilket är vad PolyBase gör möjligt.

Genom att använda PolyBase-datavirtualisering i Azure Synapse kan du implementera ett logiskt informationslager där data i Azure Synapse är anslutna till data i andra Azure- och lokala analysdatalager som HDInsight, Azure Cosmos DB eller strömmande data som flödar till Data Lake Storage från Stream Analytics eller Event Hubs. Den här metoden minskar komplexiteten för användare som har åtkomst till externa tabeller i Azure Synapse och inte behöver veta att de data som de har åtkomst till lagras i flera underliggande analyssystem. Följande diagram visar en komplex informationslagerstruktur som nås via jämförelsevis enklare men ändå kraftfulla UI-metoder.

Skärmbild som visar ett exempel på en komplex informationslagerstruktur som nås via UI-metoder.

Diagrammet visar hur andra tekniker i Microsofts analysekosystem kan kombineras med funktionen för den logiska informationslagerarkitekturen i Azure Synapse. Du kan till exempel mata in data i Data Lake Storage och kurera data med hjälp av Data Factory för att skapa betrodda dataprodukter som representerar logiska dataentiteter i Microsoft Lake Database. Dessa betrodda, allmänt förstådda data kan sedan användas och återanvändas i olika analysmiljöer, till exempel Azure Synapse, Azure Synapse Notebook-filer för Spark-pool eller Azure Cosmos DB. Alla insikter som skapas i dessa miljöer är tillgängliga via ett logiskt informationslager för datavirtualiseringslager som möjliggörs av PolyBase.

Tips

En arkitektur för ett logiskt informationslager förenklar användarnas åtkomst till data och tillför ett nytt värde till det du redan vet i informationslagret.

Slutsatser

När du har migrerat ditt informationslager till Azure Synapse kan du dra nytta av andra tekniker i Microsofts analysekosystem. På så sätt moderniserar du inte bara ditt informationslager, utan ger insikter som skapas i andra Azure-analysdatalager i en integrerad analysarkitektur.

Du kan bredda ETL-bearbetningen för att mata in data av valfri typ i Data Lake Storage och sedan förbereda och integrera data i stor skala med hjälp av Data Factory för att skapa betrodda, allmänt förstådda datatillgångar. Dessa tillgångar kan användas av ditt informationslager och användas av dataforskare och andra program. Du kan skapa batchorienterade analyspipelines i realtid och skapa maskininlärningsmodeller som ska köras i batch, i realtid på strömmande data och på begäran som en tjänst.

Du kan använda PolyBase eller COPY INTO gå längre än ditt informationslager för att förenkla åtkomsten till insikter från flera underliggande analysplattformar i Azure. Det gör du genom att skapa holistiska integrerade vyer i ett logiskt informationslager som stöder åtkomst till direktuppspelning, stordata och traditionella informationslagerinsikter från BI-verktyg och program.

Genom att migrera ditt informationslager till Azure Synapse kan du dra nytta av det omfattande Microsoft-analysekosystem som körs på Azure för att driva nytt värde i din verksamhet.

Nästa steg

Mer information om hur du migrerar till en dedikerad SQL-pool finns i Migrera ett informationslager till en dedikerad SQL-pool i Azure Synapse Analytics.