Delen via


Team Datawetenschap Proces voor gegevenswetenschappers

Dit artikel bevat richtlijnen voor doelstellingen die u instelt wanneer u uitgebreide data science-oplossingen implementeert met Azure-technologieën. U wordt begeleid door:

  • Inzicht in een analyseworkload.
  • De TDSP (Team Datawetenschap Process) gebruiken.
  • Azure Machine Learning gebruiken.
  • Inzicht in de basisbeginselen van gegevensoverdracht en -opslag.
  • Geef documentatie over de gegevensbron op.
  • Hulpprogramma's gebruiken voor analyseverwerking.

Deze trainingsmaterialen zijn gerelateerd aan de TDSP (Team Datawetenschap Process) en Microsoft opensource-software en -toolkits, die nuttig zijn voor het inrichten, uitvoeren en leveren van data science-oplossingen.

Lespad

U kunt de items in de volgende tabel gebruiken om uw eigen zelfstudie te begeleiden. Lees de beschrijving om het pad te volgen, selecteer het onderwerp om studieverwijzingen te bekijken en controleer uw vaardigheden met behulp van de Kennistoets.

Doelstelling Onderwerp Beschrijving Kenniscontrole
Inzicht in de processen voor het ontwikkelen van analytische projecten Een inleiding tot het Team Datawetenschap-proces We beginnen met het behandelen van een overzicht van de TDSP. Dit proces begeleidt u bij elke stap van een analyseproject. Lees elk van deze secties voor meer informatie over het proces en hoe u dit kunt implementeren. Controleer en download de TDSP-projectstructuurartefacten naar uw lokale computer voor uw project.
Flexibele ontwikkeling De TDSP werkt goed met veel verschillende programmeermethoden. In dit leertraject gebruiken we Agile-softwareontwikkeling. Lees de artikelen 'What is Agile Development?' en 'Building Agile Culture' (Wat is Agile-ontwikkeling) voor de basisbeginselen van het werken met Agile. Er zijn ook andere verwijzingen op deze site waar u meer informatie kunt vinden. Leg continue integratie en continue levering (CI/CD) uit aan een collega.
DevOps voor gegevenswetenschap Ontwikkelaarsbewerkingen (DevOps) hebben betrekking op personen, processen en platforms die u kunt gebruiken om een project te doorlopen en uw oplossing te integreren in de standaard-IT van een organisatie. Deze integratie is essentieel voor acceptatie, veiligheid en beveiliging. In deze onlinecursus leert u meer over DevOps-procedures en krijgt u inzicht in enkele van de hulpprogrammaketenopties die u hebt. Bereid een presentatie van 30 minuten voor op een technisch publiek over hoe DevOps essentieel is voor analyseprojecten.
Inzicht krijgen in de technologieën voor gegevensopslag en -verwerking Microsoft Business Analytics en AI We richten ons op een aantal technologieën in dit leertraject dat u kunt gebruiken om een analyseoplossing te maken, maar Microsoft heeft nog veel meer. Om inzicht te krijgen in de opties die u hebt, is het belangrijk om de platforms en functies te bekijken die beschikbaar zijn in Microsoft Azure, de Azure Stack en on-premises opties. Bekijk deze resource voor meer informatie over de verschillende hulpprogramma's die u beschikbaar hebt om een analysevraag te beantwoorden. Download en bekijk het presentatiemateriaal uit deze workshop.
Uw trainings-, ontwikkelings- en productieomgevingen instellen en configureren Microsoft Azure We gaan nu een account maken in Microsoft Azure voor training en leren hoe u ontwikkel- en testomgevingen maakt. Met deze gratis trainingsbronnen kunt u aan de slag. Voltooi de beginners - en tussenliggende paden. Als u geen Azure-account hebt, maakt u er een. Meld u aan bij Azure Portal en maak één resourcegroep voor training.
De Azure-opdrachtregelinterface (CLI) Er zijn meerdere manieren om te werken met Azure, van grafische hulpprogramma's zoals Visual Studio Code en Visual Studio, tot webinterfaces zoals Azure Portal en vanaf de opdrachtregel, zoals Azure PowerShell-opdrachten en -functies. In dit artikel behandelen we de CLI, die u lokaal kunt gebruiken op uw werkstation, in Windows en andere besturingssystemen en in Azure Portal. Stel uw standaardabonnement in met de Azure CLI.
Azure Storage U hebt een locatie nodig om uw gegevens op te slaan. In dit artikel leert u meer over Azure-opslagopties, het maken van een opslagaccount en het kopiëren of verplaatsen van gegevens naar de cloud. Lees deze inleiding voor meer informatie. Maak een opslagaccount in uw trainingsresourcegroep, maak een container voor een blobobject en upload en download gegevens.
Microsoft Entra ID Microsoft Entra ID vormt de basis voor het beveiligen van uw toepassing. In dit artikel vindt u meer informatie over accounts, rechten en machtigingen. Active Directory en beveiliging zijn complexe onderwerpen, dus lees deze resource door om inzicht te krijgen in de basisprincipes. Voeg één gebruiker toe aan Microsoft Entra-id. OPMERKING: Mogelijk hebt u geen machtigingen voor deze actie als u niet de beheerder van het abonnement bent. Als dat het geval is, raadpleegt u deze zelfstudie voor meer informatie.
De Virtuele Machine van Azure Datawetenschap voor PyTorch U kunt de hulpprogramma's voor het lokaal werken met data science installeren op meerdere besturingssystemen. Maar de Datawetenschap Virtuele machine voor PyTorch bevat alle hulpprogramma's die u nodig hebt en tal van projectvoorbeelden om mee te werken. In dit artikel leert u meer over de Datawetenschap virtuele machine voor PyTorch en hoe u de voorbeelden kunt doorlopen. In deze resource wordt de Datawetenschap virtuele machine voor PyTorch uitgelegd, hoe u er een kunt maken en een aantal opties voor het ontwikkelen van code. Het bevat ook alle software die u nodig hebt om dit leertraject te voltooien, dus zorg ervoor dat u het kennistraject voor dit onderwerp voltooit. Maak een Datawetenschap virtuele machine voor PyTorch en werk door ten minste één lab.
De hulpprogramma's en technologieën voor het werken met data science-oplossingen installeren en begrijpen Werken met Git Als u ons DevOps-proces wilt volgen met de TDSP, moeten we een versiebeheersysteem hebben. Machine Learning maakt gebruik van Git, een populair opensource gedistribueerd opslagplaatssysteem. In dit artikel vindt u meer informatie over het installeren, configureren en werken met Git en een centrale opslagplaats, GitHub. Kloon dit GitHub-project voor de projectstructuur van uw leertraject.
Visual Studio Code Visual Studio Code is een platformoverschrijdende IDE (Integrated Development Environment) die u kunt gebruiken met meerdere talen en Azure-hulpprogramma's. U kunt deze ene omgeving gebruiken om uw hele oplossing te maken. Bekijk deze inleidende video's om aan de slag te gaan. Installeer Visual Studio Code en werk door de Visual Studio Code-functies in de interactieve editor-speeltuin.
Programmeren met Python In deze oplossing gebruiken we Python, een van de populairste talen in data science. In dit artikel worden de basisbeginselen besproken van het schrijven van analytische code met Python en resources voor meer informatie. Doorloop secties 1-9 van deze verwijzing en controleer vervolgens uw kennis. Voeg één entiteit toe aan een Azure-tabel met behulp van Python.
Werken met Jupyter Notebook Notebooks zijn een manier om tekst en code in hetzelfde document te introduceren. Machine Learning werkt met notebooks, dus het is handig om te begrijpen hoe u ze kunt gebruiken. Lees deze zelfstudie en probeer het in de sectie Kennistoets. Open de Jupyter-webpagina en selecteer Welkom bij Python.ipynb. Doorloop de voorbeelden op die pagina.
Machine learning Het maken van geavanceerde analyseoplossingen omvat het werken met gegevens met behulp van machine learning, die ook de basis vormt van het werken met AI en deep learning. In deze cursus leert u meer over machine learning. Zie deze certificering voor een uitgebreide cursus over data science. Zoek een resource op machine learning-algoritmen. (Hint: Zoeken naar 'azure machine learning algorithm cheat sheet')
scikit-learn Met de set hulpprogramma's voor scikit-learn kunt u gegevenswetenschapstaken uitvoeren in Python. We gebruiken dit framework in onze oplossing. In dit artikel worden de basisbeginselen beschreven en wordt uitgelegd waar u meer kunt leren. Gebruik de Iris-gegevensset om een SVM-model te behouden met pickle.
Werken met Docker Docker is een gedistribueerd platform dat wordt gebruikt voor het bouwen, verzenden en uitvoeren van toepassingen en wordt vaak gebruikt in machine learning. In dit artikel worden de basisbeginselen van deze technologie beschreven en wordt uitgelegd waar u meer informatie kunt vinden. Open Visual Studio Code en installeer de Docker-extensie. Maak een eenvoudige Node Docker-container.
Azure HDInsight HDInsight is een opensource-infrastructuur van Hadoop, beschikbaar als een service in Azure. Uw machine learning-algoritmen kunnen betrekking hebben op grote gegevenssets en u kunt HDInsight gebruiken om grootschalige gegevens op te slaan, over te dragen en te verwerken. In dit artikel wordt beschreven hoe u met HDInsight werkt. Maak een klein HDInsight-cluster. Gebruik HiveQL-instructies om kolommen te projecteren op een /example/data/sample.log-bestand. U kunt deze kennistoets ook voltooien op uw lokale systeem.
Een gegevensverwerkingsstroom maken op basis van zakelijke vereisten De vraag bepalen na de TDSP Nu de ontwikkelomgeving is geïnstalleerd en geconfigureerd, en het begrip van de technologieën en processen die aanwezig zijn, is het tijd om alles samen te stellen met behulp van de TDSP om een analyse uit te voeren. We moeten beginnen met het definiëren van de vraag, het selecteren van de gegevensbronnen en de rest van de stappen in de TDSP. Houd rekening met het DevOps-proces terwijl we dit proces doorlopen. In dit artikel leert u hoe u de vereisten van uw organisatie kunt overnemen en een gegevensstroomtoewijzing maakt via uw toepassing om uw oplossing te definiëren met behulp van de TDSP. Zoek een resource op 'De vijf vragen over gegevenswetenschap' en beschrijf één vraag die uw organisatie mogelijk op deze gebieden heeft. Op welke algoritmen moet u zich richten voor die vraag?
Machine Learning gebruiken om een voorspellende oplossing te maken Machine Learning Machine Learning maakt gebruik van AI voor gegevens-wrangling en functie-engineering, beheert experimenten en houdt modeluitvoeringen bij. Er wordt één omgeving gebruikt en de meeste functies kunnen lokaal of in Azure worden uitgevoerd. U kunt het PyTorch-framework, het TensorFlow-framework of andere frameworks gebruiken om uw experimenten te maken. In dit artikel richten we ons op een volledig voorbeeld van dit proces, waarbij alles wat u tot nu toe hebt geleerd, wordt gebruikt.
Power BI gebruiken om resultaten te visualiseren Power BI Power BI is een hulpprogramma voor gegevensvisualisatie. Het is beschikbaar op meerdere platforms, zoals webapparaten, mobiele apparaten en desktopcomputers. In dit artikel leert u hoe u kunt werken met de uitvoer van de oplossing die u hebt gemaakt door toegang te krijgen tot de resultaten van Azure Storage en visualisaties te maken met behulp van Power BI. Voltooi deze zelfstudie over Power BI. Verbind vervolgens Power BI met het blob-CSV-bestand dat is gemaakt in een experimentuitvoering.
Uw oplossing bewaken Application Insights Er zijn meerdere hulpprogramma's die u kunt gebruiken om uw eindoplossing te bewaken. Met Application Insights kunt u ingebouwde bewaking eenvoudig integreren in uw oplossing. Stel Application Insights in om een toepassing te bewaken.
Azure Monitor-logboeken Een andere methode om uw toepassing te bewaken, is door deze te integreren in uw DevOps-proces. Azure Monitor-logboeken bieden een uitgebreide set functies waarmee u uw analyseoplossingen kunt bewaken nadat u ze hebt geïmplementeerd. Voltooi deze zelfstudie over het gebruik van Azure Monitor-logboeken.
Dit leertraject voltooien Gefeliciteerd U hebt dit leertraject voltooid.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Volgende stappen

Ga door met uw AI-traject in de AI-leerhub.