剧集
使用 ONNX 运行时从云到客户端的更快、更轻的模型推理
ONNX 运行时 是机器学习模型的高性能推理和培训引擎。 此节目重点介绍 ONNX 运行时进行模型推理。 各种 Microsoft 产品(包括 必应、办公室 365 和 Azure 认知 服务)广泛采用 ONNX 运行时, 平均加速速度为 2.9 倍。 现在,我们很高兴引入 ONNX 运行时量化和 ONNX 运行时移动版,以进一步加速模型推理,并且模型大小甚至更小。 ONNX 运行时不仅针对基于云的推理,而且针对设备推理不断演变。
跳转到:
- [01:02] ONNX 和 ONNX 运行时概述
- [02:26] 使用 ONNX 运行时进行模型操作
- [04:04] ONNX 运行时采用
- [05:07] 用于模型大小缩减和推理加速的 ONNX 运行时 INT8 量化
- [09:46] ONNX 运行时 INT8 量子化演示
- [16:00] 用于减少运行时大小的 ONNX 运行时移动版
了解更多信息:
- ONNX 运行时
- 使用拥抱人脸和 ONNX 运行时更快、更小的量化 NLP
- 适用于移动平台的 ONNX 运行时
- on Azure 机器学习 ONNX 运行时推理
- 创建 免费帐户 (Azure)
- 深度学习与机器学习 。
- 机器学习入门
不要错过新剧集, 订阅 AI 节目
ONNX 运行时 是机器学习模型的高性能推理和培训引擎。 此节目重点介绍 ONNX 运行时进行模型推理。 各种 Microsoft 产品(包括 必应、办公室 365 和 Azure 认知 服务)广泛采用 ONNX 运行时, 平均加速速度为 2.9 倍。 现在,我们很高兴引入 ONNX 运行时量化和 ONNX 运行时移动版,以进一步加速模型推理,并且模型大小甚至更小。 ONNX 运行时不仅针对基于云的推理,而且针对设备推理不断演变。
跳转到:
- [01:02] ONNX 和 ONNX 运行时概述
- [02:26] 使用 ONNX 运行时进行模型操作
- [04:04] ONNX 运行时采用
- [05:07] 用于模型大小缩减和推理加速的 ONNX 运行时 INT8 量化
- [09:46] ONNX 运行时 INT8 量子化演示
- [16:00] 用于减少运行时大小的 ONNX 运行时移动版
了解更多信息:
- ONNX 运行时
- 使用拥抱人脸和 ONNX 运行时更快、更小的量化 NLP
- 适用于移动平台的 ONNX 运行时
- on Azure 机器学习 ONNX 运行时推理
- 创建 免费帐户 (Azure)
- 深度学习与机器学习 。
- 机器学习入门
不要错过新剧集, 订阅 AI 节目
视频 URL
HTML iframe
想提供反馈? 在此处提交问题。