Hente og klargjøre data
Data er grunnlaget for maskinlæring. Både dataantall og datakvalitet påvirker modellens nøyaktighet.
Hvis du vil lære opp en maskinlæringsmodell, må du:
- Identifiser datakilde og format.
- Velg hvordan du vil betjene data.
- Utforme en løsning for datainntak.
Hvis du vil hente og klargjøre dataene du bruker til å lære opp maskinlæringsmodellen, må du trekke ut data fra en kilde og gjøre den tilgjengelig for Azure-tjenesten du vil bruke til å lære opp modeller eller lage prognoser.
Identifisere datakilde og format
Først må du identifisere datakilden og gjeldende dataformat.
| Identifiser | Eksempler |
|---|---|
| Datakilde | Dataene kan for eksempel lagres i et CRM-system (Customer Relationship Management), i en transaksjonsdatabase som en SQL-database, eller genereres av en IoT-enhet (Internet of Things). |
| Dataformat | Du må forstå gjeldende format for dataene, som kan være tabell eller strukturerte data, halvstrukturerte data eller ustrukturerte data. |
Deretter må du bestemme hvilke data du trenger for å lære opp modellen, og i hvilket format du vil at dataene skal leveres til modellen.
Utforme en datainntaksløsning
Generelt sett er det en anbefalt fremgangsmåte å trekke ut data fra kilden før du analyserer dem. Enten du bruker dataene for datateknikk, dataanalyse eller datavitenskap, vil du trekke ut dataene fra kilden, transformere dem og laste dem inn i et serveringslag. En slik prosess kalles også Trekk ut, Transformer og Last inn (ETL) eller Trekk ut, Last inn og Transformer (ELT). Serveringslaget gjør dataene tilgjengelige for tjenesten du bruker for videre databehandling, for eksempel opplæring av maskinlæringsmodeller.
Hvis du vil flytte og transformere data, kan du bruke et datainntakssamlebånd. Et datainntakssamlebånd er en sekvens med oppgaver som flytter og transformerer dataene. Ved å opprette et datasamlebånd kan du velge å utløse oppgavene manuelt eller planlegge datasamlebåndet når du vil at oppgavene skal automatiseres. Slike datasamlebånd kan opprettes med Azure-tjenester som Azure Synapse Analytics, Azure Databricks og Azure Machine Learning.
En vanlig fremgangsmåte for en datainntaksløsning er å:
- Trekk ut rådata fra kilden (for eksempel et CRM-system eller en IoT-enhet).
- Kopier og transformer dataene med Azure Synapse Analytics.
- Lagre de klargjorte dataene i en Azure Blob Storage.
- Lær opp modellen med Azure Machine Learning.
Utforske et eksempel
Tenk deg at du vil lære opp en modell for værmeldinger. Du foretrekker én tabell der alle temperaturmål for hvert minutt kombineres. Du vil opprette aggregater av dataene og ha en tabell med gjennomsnittstemperaturen per time. Hvis du vil opprette tabellen, vil du transformere de halvstrukturerte dataene som er inntatt fra IoT-enheten som måler temperatur i intervaller, til tabelldata.
Hvis du for eksempel vil opprette et datasett du kan bruke til å lære opp prognosemodellen, kan du:
- Trekk ut datamål som JSON-objekter fra IoT-enhetene.
- Konverter JSON-objektene til en tabell.
- Transformer dataene for å få temperaturen per maskin per minutt.
La oss deretter utforske tjenestene vi kan bruke til å lære opp maskinlæringsmodeller.