Checklista för DataOps

Artikel
12/21/2023

DataOps är en livscykelmetod för dataanalys. Den använder flexibla metoder för att samordna verktyg, kod och infrastruktur för att snabbt leverera data av hög kvalitet med förbättrad säkerhet. När du implementerar och effektiviserar DataOps-processer kan din verksamhet enklare och kostnadseffektivare leverera analytiska insikter. På så sätt kan du använda avancerade datatekniker som kan upptäcka insikter och nya möjligheter. Använd den här checklistan som utgångspunkt för att utvärdera din DataOps-process.

Datastyrning och personer

Datastyrning

En central plats används för att registrera datakällor.
Data härkomst och metadata är tillgängliga.
Data kan enkelt identifieras av användare och känsliga data skyddas.
Data- och säkerhetsansvariga har siktlinjer för hur data används, vem som har åtkomst och var känsliga data kan finnas.

Definierade, tydliga roller

Ingenjörer, testare, dataforskare, drift, dataanalytiker, företagsanvändare och dataansvariga arbetar alla tillsammans och förstår sina roller i projektet.
Intressenter identifieras och du förstår vad som motiverar intressenter att börja fatta datadrivna beslut.

Användningsfall för dataflytt

Användningsfallen för direktuppspelning, interaktiv analys och batchanalys löses.
De olika typerna av data för varje ärende förtydligas och mått definieras för att motivera att fatta datadrivna beslut.

Dataverktyg

Dataverktyg som behövs för att göra data enklare att komma åt, dela, analysera och skydda identifieras eller utvecklas.

Säkerhet och efterlevnad

Alla resurser, data under överföring och vilande data har granskats och uppfyller företagets säkerhetsstandarder.

Utveckling

Designmönster för pipeline

Datapipelines är utformade för återanvändning och användning av parameterisering.
Pipelines löser vanliga problem med extrahering, transformering, inläsning (ETL).

Centraliserad inmatning

En centraliserad plattform är värd för pipelines för alla externa och interna datakällor. Detta möjliggör förenklad hantering, övervakning, säkerhet och standardisering av dataflytt.
Kostnader som är kopplade till hantering av data är också centraliserade. Central kontroll kan hjälpa till att minimera kostnader och maximera effektiviteten.

Centraliserade beräkningar

Ett centralt team definierar mått och bestämmer hur dessa mått ska beräknas. Detta möjliggör konsekvens i hela organisationen och begränsar förvirringen om var du ska göra uppdateringar av beräkningar. Den skapar också en källa för måttdefinitioner, styrning, testning och kvalitetskontroller.

Dataabstraktion

Rapporteringen använder ett dataabstraktionslager. Detta möjliggör användning av konsekvent affärsterminologi, en förenklad vy av data och minimal effekt på datakonsumenter när nya versioner av data görs tillgängliga.

Källkontroll

Datarelaterad infrastruktur, databasscheman och procedurer, ETL-processer och rapporter behandlas som kod och hanteras på en lagringsplats.
Alla ändringar distribueras och testas via en DTAP-stack (Development, Testing, Acceptance, and Production).

Testning och lansering

DTAP-miljöer

Icke-produktionsmiljöer som efterliknar produktionsmiljön är tillgängliga.
Byggen och distributioner körs och testas i icke-produktionsmiljön innan en produktions push-överföring.
Utvecklare kan leverera reproducerbara resultat i alla miljöer.

Test

Enhets-, slutpunkt-till-slutpunkt- och regressionstester körs med en angiven frekvens och ett angivet intervall.
Alla tester finns i källkontroll och körs som en del av en bygg- och distributionsprocess.
Indata från slutanvändare efter distributionen är välkomna och införlivas i testningen efter behov.

Skapa och distribuera process

En gated process distribuerar ändringar i produktionsmiljön.
Ändringar testas i utvecklings- och testmiljöerna. Ändringarna certifieras innan de går till produktion. Den här processen är så automatiserad som möjligt.

Övervakning

Aviseringar och reparation

Åtgärder varnas för eventuella fel.
Du kan snabbt svara på feedback och ha en process för att snabbt åtgärda problem när de uppstår.
Pipelines kan observeras.

Effektivitet

Dataflytten är effektiv.
Infrastrukturen kan skalas för att uppfylla volym- och hastighetsbehov.
Data kan återanvändas när det är möjligt.

Statistisk processkontroll (SPC)

SPC används för att övervaka och kontrollera datapipelines.
Du kan använda utdata från pipelines för att fastställa nästa steg i dataflödet.

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudförfattare:

Katie Novotny | Senior Specialist GBB

Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.

Dela via

Checklista för DataOps

Datastyrning och personer

Utveckling

Testning och lansering

Övervakning

Deltagare

Nästa steg

Feedback

Feedback

Ytterligare resurser

Dela via

Checklista för DataOps

Datastyrning och personer

Utveckling

Testning och lansering

Övervakning

Deltagare

Nästa steg

Relaterade resurser

Feedback

Feedback

Ytterligare resurser