剧集

使用 ONNX 运行时从云到客户端的更快、更轻的模型推理

ONNX 运行时是机器学习模型的高性能推理和培训引擎。此节目重点介绍 ONNX 运行时进行模型推理。各种 Microsoft 产品（包括必应、办公室 365 和 Azure 认知服务）广泛采用 ONNX 运行时，平均加速速度为 2.9 倍。现在，我们很高兴引入 ONNX 运行时量化和 ONNX 运行时移动版，以进一步加速模型推理，并且模型大小甚至更小。 ONNX 运行时不仅针对基于云的推理，而且针对设备推理不断演变。

跳转到：

[01：02] ONNX 和 ONNX 运行时概述
[02：26] 使用 ONNX 运行时进行模型操作
[04：04] ONNX 运行时采用
[05：07] 用于模型大小缩减和推理加速的 ONNX 运行时 INT8 量化
[09：46] ONNX 运行时 INT8 量子化演示
[16：00] 用于减少运行时大小的 ONNX 运行时移动版

了解更多信息：

不要错过新剧集，订阅 AI 节目

跳转到：

[01：02] ONNX 和 ONNX 运行时概述
[02：26] 使用 ONNX 运行时进行模型操作
[04：04] ONNX 运行时采用
[05：07] 用于模型大小缩减和推理加速的 ONNX 运行时 INT8 量化
[09：46] ONNX 运行时 INT8 量子化演示
[16：00] 用于减少运行时大小的 ONNX 运行时移动版

了解更多信息：

不要错过新剧集，订阅 AI 节目