Dela via


Checklista för DataOps

DataOps är en livscykelmetod för dataanalys. Den använder flexibla metoder för att samordna verktyg, kod och infrastruktur för att snabbt leverera data av hög kvalitet med förbättrad säkerhet. När du implementerar och effektiviserar DataOps-processer kan din verksamhet enklare och kostnadseffektivare leverera analytiska insikter. På så sätt kan du använda avancerade datatekniker som kan upptäcka insikter och nya möjligheter. Använd den här checklistan som utgångspunkt för att utvärdera din DataOps-process.

Datastyrning och personer

Datastyrning

  • En central plats används för att registrera datakällor.
  • Data härkomst och metadata är tillgängliga.
  • Data kan enkelt identifieras av användare och känsliga data skyddas.
  • Data- och säkerhetsansvariga har siktlinjer för hur data används, vem som har åtkomst och var känsliga data kan finnas.

Definierade, tydliga roller

  • Ingenjörer, testare, dataforskare, drift, dataanalytiker, företagsanvändare och dataansvariga arbetar alla tillsammans och förstår sina roller i projektet.
  • Intressenter identifieras och du förstår vad som motiverar intressenter att börja fatta datadrivna beslut.

Användningsfall för dataflytt

  • Användningsfallen för direktuppspelning, interaktiv analys och batchanalys löses.
  • De olika typerna av data för varje ärende förtydligas och mått definieras för att motivera att fatta datadrivna beslut.

Dataverktyg

  • Dataverktyg som behövs för att göra data enklare att komma åt, dela, analysera och skydda identifieras eller utvecklas.

Säkerhet och efterlevnad

  • Alla resurser, data under överföring och vilande data har granskats och uppfyller företagets säkerhetsstandarder.

Utveckling

Designmönster för pipeline

  • Datapipelines är utformade för återanvändning och användning av parameterisering.
  • Pipelines löser vanliga problem med extrahering, transformering, inläsning (ETL).

Centraliserad inmatning

  • En centraliserad plattform är värd för pipelines för alla externa och interna datakällor. Detta möjliggör förenklad hantering, övervakning, säkerhet och standardisering av dataflytt.
  • Kostnader som är kopplade till hantering av data är också centraliserade. Central kontroll kan hjälpa till att minimera kostnader och maximera effektiviteten.

Centraliserade beräkningar

  • Ett centralt team definierar mått och bestämmer hur dessa mått ska beräknas. Detta möjliggör konsekvens i hela organisationen och begränsar förvirringen om var du ska göra uppdateringar av beräkningar. Den skapar också en källa för måttdefinitioner, styrning, testning och kvalitetskontroller.

Dataabstraktion

  • Rapporteringen använder ett dataabstraktionslager. Detta möjliggör användning av konsekvent affärsterminologi, en förenklad vy av data och minimal effekt på datakonsumenter när nya versioner av data görs tillgängliga.

Källkontroll

  • Datarelaterad infrastruktur, databasscheman och procedurer, ETL-processer och rapporter behandlas som kod och hanteras på en lagringsplats.
  • Alla ändringar distribueras och testas via en DTAP-stack (Development, Testing, Acceptance, and Production).

Testning och lansering

DTAP-miljöer

  • Icke-produktionsmiljöer som efterliknar produktionsmiljön är tillgängliga.
  • Byggen och distributioner körs och testas i icke-produktionsmiljön innan en produktions push-överföring.
  • Utvecklare kan leverera reproducerbara resultat i alla miljöer.

Test

  • Enhets-, slutpunkt-till-slutpunkt- och regressionstester körs med en angiven frekvens och ett angivet intervall.
  • Alla tester finns i källkontroll och körs som en del av en bygg- och distributionsprocess.
  • Indata från slutanvändare efter distributionen är välkomna och införlivas i testningen efter behov.

Skapa och distribuera process

  • En gated process distribuerar ändringar i produktionsmiljön.
  • Ändringar testas i utvecklings- och testmiljöerna. Ändringarna certifieras innan de går till produktion. Den här processen är så automatiserad som möjligt.

Övervakning

Aviseringar och reparation

  • Åtgärder varnas för eventuella fel.
  • Du kan snabbt svara på feedback och ha en process för att snabbt åtgärda problem när de uppstår.
  • Pipelines kan observeras.

Effektivitet

  • Dataflytten är effektiv.
  • Infrastrukturen kan skalas för att uppfylla volym- och hastighetsbehov.
  • Data kan återanvändas när det är möjligt.

Statistisk processkontroll (SPC)

  • SPC används för att övervaka och kontrollera datapipelines.
  • Du kan använda utdata från pipelines för att fastställa nästa steg i dataflödet.

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudförfattare:

Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.

Nästa steg