培训
认证
Microsoft Certified: Azure AI Engineer Associate - Certifications
使用 Azure AI 服务、Azure AI 搜索和 Azure Open AI 设计和实现 Azure AI 解决方案。
你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
人工智能(AI) 是一种技术,允许机器模仿智能人类行为。 借助 AI,计算机可以:
架构师设计使用人工智能执行函数或做出决策的工作负载,其中传统逻辑或处理可能令人禁止,甚至几乎不可能实现。 作为设计解决方案的架构师,了解 AI 和机器学习布局以及 Azure 如何提供集成到工作负载设计的解决方案非常重要。
算法或机器学习算法是一些代码片段,可帮助人类浏览、分析和查找复杂数据集中的含义。 每个算法是一组有限的明确分步说明,计算机可以遵循这些说明来实现特定目标。 在机器学习模型中,目标是建立或发现人类可用于进行预测或分类信息的模式。 算法可以描述如何确定宠物是猫、狗、鱼、鸟还是蜥蜴。 另一种更复杂的算法可以描述如何识别书面或口头语言、分析其字词、将其翻译为其他语言,然后检查翻译的准确性。
设计工作负荷时,需要选择适合你的任务的算法系列,并评估各种可用的算法,以找到合适的匹配项。
机器学习 是一种 AI 技术,它使用算法创建预测模型。 该算法用于分析数据字段,并使用在其中找到的模式来“了解”数据,以生成模型。 然后,使用那些模型做出与新数据有关的明智预测或决策。
预测模型将根据已知数据进行验证,通过为特定业务方案选择的性能指标进行衡量,然后根据需要进行调整。 此学习和验证过程被称为“训练”。 通过定期重新训练,ML 模型会随着时间的推移而改进。
在工作负荷设计方面,当你遇到过去观察可以可靠地用于预测未来情况的情况时,请考虑使用机器学习。 这些观察可以是通用真理,例如计算机视觉,可以检测另一种形式的动物,或者这些观察可以特定于你的情况,例如计算机视觉,根据过去的保修声明数据检测程序集行上的潜在程序集错误。
深度学习 是一种 ML,可以通过自己的数据处理进行学习。 与机器学习一样,它还使用算法来分析数据,但它使用包含许多输入、输出和处理层的人工神经网络。 每个层都可以以不同的方式处理数据,一个层的输出将成为下一层的输入。 这使得深度学习可以创建比传统机器学习更复杂的模型。
作为工作负荷设计器,此选项需要大量投资来生成高度自定义或探索模型。 一般来说,在将深度学习添加到工作负荷之前,你将考虑本文中介绍的其他解决方案。
生成 AI 是一种人工智能形式,其中模型经过训练,以基于多种形式的内容(如自然语言、计算机视觉、音频或图像输入)生成新的原始内容。 使用生成式 AI,可以使用普通日常语言描述所需的输出,模型可以通过创建适当的文本、图像、代码等来响应。 生成 AI 应用程序的一些示例包括:
Microsoft Copilot 主要是一个用户界面,可帮助用户编写代码、文档和其他基于文本的内容。 它基于常用的 OpenAI 模型,并集成到各种Microsoft应用程序和用户体验中。
Azure OpenAI 是一种开发平台即服务,可用于访问 OpenAI 的强大语言模型,例如 o1-preview、o1-mini、GPT-4o、GPT-4o mini、GPT-4 Turbo with Vision、GPT-4、GPT-3.5-Turbo 和 Embeddings 模型系列。 这些模型可以适应特定的任务,例如:
语言模型 是生成 AI 的子集,侧重于自然语言处理(NLP)任务,例如文本生成和情绪分析。 这些模型根据给定上下文中出现的单词或单词序列的概率来表示自然语言。
传统语言模型在监督设置中使用,用于研究目的,在这些环境中,模型针对特定任务根据标记良好的文本数据集进行训练。 预先训练的语言模型提供了一种易于访问的方法,可用于开始使用 AI,近年来越来越广泛使用。 这些模型是使用深度学习神经网络从 Internet 大规模文本库训练的,可以针对特定任务的较小数据集进行微调。
语言模型的大小取决于其参数或权重的数量,这些参数或权重确定模型如何处理输入数据和生成输出。 在训练过程中,通过在模型层内调整权重来知悉参数,以最大程度地减小模型预测与实际数据之间的差异。 模型具有的参数越多,其就越复杂,表现力越强,但训练和使用方面的计算成本也越高。
一般来说,小型语言模型具有的参数数量少于 100 亿个,大型语言模型具有的参数数量超过 100 亿个。 例如,Microsoft Phi-3 模型系列有三个不同尺寸的版本:迷你(38亿个参数)、小(70亿个参数)和中型(140亿个参数)。
语言模型的可用性导致通过数字警长和连接、特定于域的代理与应用程序和系统交互的新方法的出现。 Copilots 是生成式 AI 助手,通常作为聊天接口集成到应用程序中。 它们为这些应用程序中的常见任务提供场景化支持。
Microsoft Copilot 集成到各种Microsoft应用程序和用户体验中。 它基于一个开放体系结构,使第三方开发人员能够创建自己的插件,以使用 Microsoft Copilot 扩展或自定义用户体验。 此外,第三方开发人员可以使用同一个开放体系结构创建自己的助手。
在 Microsoft 云中采用、扩展和构建 Copilot 体验。
检索扩充生成(RAG) 是一种体系结构模式,可增强大型语言模型(LLM)(如 ChatGPT)的功能,仅根据公共数据进行训练。 通过此模式,可以添加检索系统,该系统在上下文中提供与用户请求相关的地面数据。 添加信息检索系统可让你在生成响应时控制语言模型使用的地面数据。 RAG 体系结构可帮助你将生成 AI 的范围限定为源自矢量化文档、图像和其他数据格式的内容。 RAG 不限于矢量搜索存储,但模式适用于任何数据存储技术。
自动化机器学习(也称为自动化 ML 或 AutoML)是自动执行机器学习模型开发的耗时迭代任务的过程。 数据科学家、分析师和开发人员可以使用它来生成高度可缩放、高效且高产能的 ML 模型,同时保证模型的质量。
借助 Azure AI 服务 开发人员和组织,可以使用现成、预构建且可自定义的 API 和模型创建智能、市场就绪和负责任的应用程序。 用法包括对话、搜索、监视、翻译、语音、视觉和决策的自然语言处理。
MLflow 是一个开源框架,旨在管理整个机器学习生命周期。
大型语言模型(LLM)(如 OpenAI 的 GPT 模型)是强大的工具,可以跨各种域和任务生成自然语言。 考虑使用这些模型时,请考虑数据隐私、道德使用、准确性和偏见等因素。
Phi 开放模型 对于生成式 AI 解决方案而言是小型的、计算密集型较少的模型。 与大型语言模型相比,小型语言模型(SLM)可能更有效、可解释和解释。
设计工作负荷时,可以将语言模型同时用作托管解决方案、按流量计费的 API 之后,或对于许多小型语言模型,可以托管进程中的模型或至少与使用者相同的计算。 在解决方案中使用语言模型时,请考虑选择语言模型及其可用的托管选项,以确保为用例使用优化的解决方案。
Azure 机器学习是用于生成和部署模型的机器学习服务。 Azure 机器学习提供 Web 界面和 SDK,以便可以大规模训练和部署机器学习模型和管道。 请将这些功能与开放源代码 Python 框架(如 PyTorch、TensorFlow 和 scikit-learn)配合使用。
什么是 Azure 机器学习? 总体定位,其中包含指向多个学习资源、SDK、文档等内容的链接
基线 OpenAI 端到端聊天参考体系结构是一种参考体系结构 ,演示如何使用 OpenAI 的 GPT 模型构建端到端聊天体系结构。
Azure 登陆区域中 的 Azure OpenAI 聊天基线体系结构演示如何在 Azure OpenAI 基线体系结构上构建,以解决在 Azure 登陆区域中部署时的变化和期望。
使用 Azure 机器学习 中的 AutoML 功能大规模生成 ML 模型以自动执行任务。
Azure 机器学习工作区与 MLflow 兼容,这意味着你可以按使用 MLflow 服务器的相同方式使用 Azure 机器学习工作区。 这种兼容性带来了以下优势:
有关详细信息,请参阅 MLflow 和 Azure 机器学习
提示流 是一套开发工具,旨在简化生成 AI 应用程序的端到端开发周期,从构思、原型制作、测试、评估到生产部署和监视。 它通过表达模块化业务流程和流引擎中的操作来支持提示工程。
Azure AI Studio 可帮助你试验、开发和部署负责任的综合平台的生成 AI 应用和 API。 借助 Azure AI Studio,可以访问 Azure AI 服务、基础模型、操场和资源,以帮助你构建、训练、微调和部署 AI 模型。 此外,还可以使用提示流评估模型响应并协调提示应用程序组件,以提高性能。
Azure Copilot Studio 用于在 Microsoft 365 中扩展 Microsoft Copilot,并为内部和外部方案生成自定义 copilot。 借助 Copilot Studio,用户可以使用全面的创作画布设计、测试和发布 copilot。 用户可以轻松创建支持生成 AI 的对话,更好地控制现有 copilot 的响应,并通过特定的自动化工作流加快工作效率。
Microsoft Fabric 是一个端到端分析和数据平台,专为需要统一解决方案的企业设计。 可以向工作负荷团队授予对这些系统中数据的访问权限。 它包含数据移动、处理、引入、转换、实时事件路由以及报表生成。 它提供了一套全面的服务,包括数据工程、数据工厂、数据科学、实时分析、数据仓库和数据库。
Microsoft Fabric 将单独的组件集成到一个内聚堆栈中。 可以使用 OneLake 集中数据存储,而不是依赖不同的数据库或数据仓库。 AI 功能嵌入 Fabric 中,无需手动集成。
Copilot 和其他生成式 AI 功能使你能够转换和分析数据、生成见解,并在 Microsoft Fabric 和 Power BI 中创建可视化效果和报表。 可以生成自己的 copilot,也可以选择以下预生成的 copilot 之一:
使用 Microsoft Fabric AI 技能,可以配置生成 AI 系统以生成查询来回答有关数据的问题。 配置 AI 技能后,可以与使用简明英语提问问题的同事共享。 根据他们的问题,AI 会根据回答这些问题的数据生成查询。
Apache Spark 是并行处理框架,支持使用内存中处理来提升大数据分析应用程序的性能。 Spark 提供了用于内存中群集计算的基元。 Spark 作业可以将数据加载并缓存到内存中,并重复查询数据,这比基于磁盘的应用程序(如 Hadoop)更快。
Microsoft Fabric 运行时是基于 Apache Spark 的 Azure 集成平台,可实现数据工程和数据科学体验的执行和管理。 它结合了来自内部源和开源源的关键组件,为客户提供全面的解决方案。
Fabric 运行时的主要组件:
Apache Spark - 一个功能强大的开源分布式计算库,可实现大规模数据处理和分析任务。 Apache Spark 为数据工程和数据科学体验提供了通用且高性能的平台。
Delta Lake - 一个开源存储层,可将 ACID 事务和其他数据可靠性功能引入 Apache Spark。 Delta Lake 集成在 Microsoft Fabric 运行时中,增强了数据处理功能,并确保跨多个并发操作的数据一致性。
适用于 Java/Scala、Python 和 R 的默认级别包,支持不同的编程语言和环境。 这些包会自动安装和配置,使开发人员能够应用其首选编程语言来处理数据处理任务。
Microsoft Fabric Runtime 基于可靠的开源操作系统构建,可确保与各种硬件配置和系统要求兼容。
Azure Databricks 是一个基于 Apache Spark 的分析平台,具有一键设置、简化的工作流以及一个供数据科学家、工程师和商业分析师相互协作的交互工作区。
用于机器学习的 Databricks Runtime (Databricks Runtime ML) 可用于启动具有分布式训练所需全部库的 Databricks 群集。 它为机器学习和数据科学提供了一个环境。 而且,其中包含多个常用库,包括 TensorFlow、PyTorch、Keras 和 XGBoost。 它还支持使用 Horovod 进行分布式训练。
Azure HDInsight 中的 Apache Spark 是 Microsoft 的 Apache Spark 在云中的实现。 HDInsight 中的 Spark 群集可与 Azure 存储和 Azure Data Lake Storage 兼容,因此你可以使用 HDInsight Spark 群集处理 Azure 中存储的数据。
SynapseML(旧称 MMLSpark)是适用于 Apache Spark 的 Microsoft 机器学习库。 这是一个开源库,在 Spark 生态系统中添加了许多深度学习和数据科学工具、网络功能和生产级性能。 详细了解SynapseML 特色与功能。
Azure HDInsight 概述。 有关功能、群集体系结构和用例的基本信息,以及指向快速入门和教程的指针。
Fabric 中的 OneLake 是为整个组织量身定制的统一逻辑数据湖。 它充当所有分析数据的中心枢纽,并包含在每个 Microsoft Fabric 租户中。 Fabric 中的 OneLake 是在 Data Lake Storage Gen2 的基础构建的。
Fabric 中的 OneLake:
有关详细信息,请参阅《OneLake - 面向数据的 OneDrive》。
Azure Data Lake Storage 是一个集中式存储库,可以存储结构化和非结构化的所有数据。 使用数据湖,你的组织可以快速、更轻松地在一个位置存储、访问和分析各种数据。 使用数据湖,无需调整数据以适应现有结构。 相反,可以将数据存储为原始格式或原生格式,通常作为文件或二进制大型对象 (blob)。
Data Lake Storage Gen2 提供文件系统语义、文件级安全性和缩放。 由于这些功能是在 Blob 存储的基础上构建的,因此还可以获得具有高可用性/灾难恢复功能的低成本分层存储。
Data Lake Storage Gen2 使 Azure 存储成为在 Azure 上构建企业 Data Lake 的基础。 Data Lake Storage Gen2 从一开始就设计为存储数千万亿字节的信息,同时保持数百千兆位的吞吐量,允许你轻松管理大量数据。
使用数据工厂,可以引入、准备和转换来自多个数据源的数据(例如数据库、数据仓库、Lakehouse、实时数据等)。 设计工作负载时,此工具有助于满足 DataOps 要求。
数据工厂支持代码和无/低代码解决方案:
数据管道 允许你在云范围内创建工作流功能。 借助数据管道,可以使用拖放接口生成工作流,这些工作流可以刷新数据流、移动 PB 字节大小的数据以及定义控制流管道。
数据流 提供了一个低代码接口,用于从数百个数据源引入数据,使用 300 多个数据转换转换转换数据。
另请参阅:
借助 Databricks Data Intelligence Platform,可以使用特征工程编写代码来创建机器学习工作流:
还可以使用 马赛克 AI 矢量搜索,该搜索已针对存储和检索嵌入内容进行优化。 嵌入对于需要相似性搜索的应用程序至关重要,例如 RAG(检索增强生成)、建议系统和图像识别。
Azure 数据工厂和 Azure Synapse Analytics 管道通过复制、数据流、查找、获取元数据和删除活动支持许多数据存储和格式。 若要查看可用的数据存储连接器、支持的功能和相应的配置以及通用 ODBC 连接选项,请参阅Azure 数据工厂和 Azure Synapse Analytics 连接器概述。
Azure 机器学习是一项云服务,用于加速和管理机器学习 (ML) 项目生命周期。 ML 专业人员、数据科学家和工程师可以在他们的日常工作流程中使用它,以训练和部署模型以及管理机器学习运营 (MLOps)。
Azure 机器学习提供以下功能:
算法选择 某些算法对数据结构或所需结果做出特定的假设。 如果找到符合需求的算法,它可以提供更有用的结果、更准确的预测或更快的定型时间。
超参数优化或优化 是查找导致最佳性能的超参数配置的过程。 该过程的计算成本高昂且手动。 超参数是可调整的参数,可用于控制模型训练过程。 例如,使用神经网络时,你决定隐藏层的数目以及每个层中的节点数。 模型性能很大程度上取决于超参数。
Azure 机器学习使你能够自动执行超参数优化,并且并行运行试验以有效地优化超参数。
模型训练。 使用Azure 机器学习,可以迭代地使用算法创建或“教书”模型。 训练后,可以使用这些模型分析可从中做出预测的数据。 在训练阶段,会对一组已知的优质数据进行标记,以便可以识别单个字段。 将标记的数据提供给为做出特定预测配置的算法。 完成操作后,该算法会输出一个模型,以一组参数的形式描述发现的模式。 在验证过程中,会对新数据进行标记并将其用于测试模型。 算法会根据需要进行调整,并可能会经历更多训练。 最后,测试阶段使用没有任何标记或预选目标的实际数据。 假设模型的结果准确,则它被视为可供使用,并且可以部署。
自动化机器学习(AutoML) 是自动执行机器学习模型开发的耗时迭代任务的过程。 此过程可以显著减少获取生产就绪 ML 模型所需的时间。 自动化 ML 可帮助执行模型选择、超参数优化、模型训练和其他任务,不需要用户具有广博的编程知识或域知识。
如果希望Azure 机器学习使用指定的目标指标训练和优化模型,则可以使用自动化 ML。 无论数据科学专业知识如何,都可以使用自动化 ML 来识别任何问题的端到端机器学习管道。
各行业的 ML 专业人员和开发人员可以使用自动化 ML 来实现以下目的:
在没有广泛的编程或机器学习知识的情况下实现 ML 解决方案
节省时间和资源
应用数据科学最佳做法
提供灵活的问题解决方法
评分(也称为“预测”)是在给定一些新输入数据后根据训练机器学习模型生成值的过程。 创建的值(或分数)可以表示对未来值的预测,但也可能表示可能的类别或结果。
特征工程和特征化。 训练数据由行和列构成。 每一行都是一条观测或记录,而每行的列则是用于描述每条记录的特征。 通常,会选择对数据中模式的特点描述效果最佳的特征来创建预测模型。
虽然许多原始数据字段都可以直接用于训练模型,但通常还是需要创建其他(工程化)特征来提供信息,以更好地区分数据中的模式。 此过程被称为特征工程,它会利用数据领域知识来创建特征,这些特征反过来又会帮助机器学习算法更好地学习。
在 Azure 机器学习中,应用了数据缩放和规范化技术来简化特征工程。 这些技术和此特征工程在自动化机器学习 (ML) 试验中统称为特征化。
Azure OpenAI 服务允许使用称为 微调的过程为个人数据集定制 OpenAI 模型。 通过此自定义步骤,你可以更充分地利用服务,获得以下好处:
有关详细信息,请参阅:
Azure AI 服务 提供的功能可用于生成自定义 AI 模型和应用程序。 本部分概述了其中一些关键功能。
自定义语音 是 Azure AI 语音服务的一项功能。 借助自定义语音,可以评估应用程序与产品的语音识别并提高其准确度。 自定义语音模型可用于实时语音转文本、语音翻译和批量听录。
现成的语音识别可利用通用语言模型作为一个基本模型(使用 Microsoft 自有数据进行训练),并反映常用的口语。 此基础模型使用了代表各常见地域的方言和发音进行了预先训练。 发出语音识别请求时,默认使用每个支持的语言的最新基础模型。 基础模型在大多数语音识别场景中都效果良好。
通过提供文本数据来训练模型,自定义模型可用于扩充基本模型,以提高对特定于应用程序的特定领域词汇的识别。 它还可用于通过为音频数据提供参考听录内容,来改进基于应用程序的特定音频条件的识别。
当数据遵循某个模式时,你还可以使用结构化文本来训练模型,以指定自定义发音,并使用自定义反向文本规范化、自定义重写和自定义脏话过滤来自定义显示文本格式。
自定义翻译器是 Azure AI Translator 服务的一项功能。 借助自定义翻译器、企业、应用开发人员和语言服务提供商,可以构建自定义神经机器翻译(NMT)系统。 自定义的翻译系统可无缝集成到现有的应用程序、工作流和网站中。
该平台使用户能够生成并发布自定义英语翻译系统。 自定义翻译工具支持三十多种语言,这些语言可以直接映射到适用于 NMT 的语言。 有关完整列表,请参阅 翻译语言支持。
自定义翻译器提供以下功能:
Feature | 说明 |
---|---|
应用神经机器翻译技术 | 应用自定义翻译工具提供的神经机器翻译 (NMT) 来改进翻译。 |
生成了解业务术语的系统 | 使用并行文档自定义并生成翻译系统,该系统了解在你自己的业务和行业中使用的术语。 |
使用字典来生成模型 | 如果没有训练数据集,可以只使用字典数据训练一个模型。 |
与他人协作 | 将工作与他人共享,与团队协作。 |
访问自定义翻译模型 | 可以通过 Microsoft 文本翻译 API V3 使用现有的应用程序/程序来随时访问自定义翻译模型。 |
Azure AI 文档智能 使用高级机器学习技术来识别文档、检测和提取表单和文档的信息,并在结构化 JSON 输出中返回提取的数据。 借助文档智能,可以使用文档分析模型、预生成/预训练或训练的独立自定义模型。
文档智能自定义模型 现在包括自定义分类模型,用于在调用提取模型之前需要标识文档类型的方案。 分类模型可以与自定义提取模型配对,以分析和提取特定于业务的表单和文档中的字段。 可以组合独立的自定义提取模型来创建组合模型。
尽管预生成的 AI 模型非常有用且越来越灵活,但从 AI 中获取所需内容的最佳方式是构建根据特定需求定制的模型。 有两个主要工具用于创建自定义 AI 模型:生成 AI 和传统机器学习:
Azure 机器学习工作室是一项云服务,用于加速和管理机器学习(ML)项目生命周期。 ML 专业人员、数据科学家和工程师可以在日常工作流中使用它来训练和部署模型和管理机器学习操作(MLOps):
Azure AI Studio 旨在帮助你利用 Azure 广泛的 AI 产品/服务的强大功能有效地构建和部署自定义生成 AI 应用程序:
有关Azure 机器学习与 Azure AI Studio 之间的详细比较,请参阅Azure 机器学习与 Azure AI Studio。
Azure AI Studio 中的提示流是一种开发工具,旨在简化由大型语言模型 (LLM) 提供支持的 AI 应用程序的整个开发周期。 提示流提供一个综合性的解决方案,用于简化 AI 应用程序的原型设计、试验、迭代和部署过程。
AI 的核心概念是使用算法来分析数据和生成模型,以采用有效方式进行描述(或评分)。 算法是由开发者和数据科学家(有时由其他算法)使用编程代码编写的。 目前,最常用于 AI 开发的两种编程语言是 Python 和 R。
Python 是一种通用的高级编程语言。 其语法简单易学,强调可读性。 没有编译步骤。 Python 具有大型标准库,但它也支持模块和包添加功能。 这有助于模块化,也有助于根据需要扩展功能。 Python 的 AI 和 ML 库生态系统较大,并且不断增长,其中包括 Azure 中随时可用的许多库。
scikit-learn
。 用于 Python 的开源 ML 库
PyTorch。 具有丰富生态系统的开源 Python 库,可用于深度学习、计算机视觉、自然语言处理等
TensorFlow。 开源符号数学库还用于 ML 应用程序和神经网络
R 是一种语言和环境,适用于统计计算和图形。 从在线映射广泛的社交趋势和市场营销趋势到开发财务和气候模型,均可使用此语言。
Microsoft 已完全采用 R 编程语言,并为 R 开发者提供了许多不同的选项,以便他们在 Azure 中运行自己的代码。
Azure 机器学习 Python SDK 笔记本。 即有关示例笔记本的 GitHub 存储库,用于演示 Azure 机器学习 Python SDK。
各个行业都在以令人鼓舞的创新方式应用 AI。 以下是一些客户案例研究和成功案例:
详细了解 Microsoft AI,并随时了解相关新闻:
若要了解Microsoft提供的人工智能开发产品,请转到 Microsoft AI。
有关如何开发 AI 解决方案的培训,请转到 AI 学习中心。
GitHub 上的 Microsoft AI:示例、参考体系结构和最佳做法安排了基于 Microsoft 开源 AI 的存储库,并提供教程和学习材料。
查找 AI 解决方案参考体系结构的体系结构关系图和技术说明。
培训
认证
Microsoft Certified: Azure AI Engineer Associate - Certifications
使用 Azure AI 服务、Azure AI 搜索和 Azure Open AI 设计和实现 Azure AI 解决方案。