剧集

使用 ONNX 运行时从云到客户端的更快、更轻的模型推理

ONNX 运行时 是机器学习模型的高性能推理和培训引擎。 此节目重点介绍 ONNX 运行时进行模型推理。 各种 Microsoft 产品(包括 必应、办公室 365 和 Azure 认知 服务)广泛采用 ONNX 运行时, 平均加速速度为 2.9 倍。 现在,我们很高兴引入 ONNX 运行时量化和 ONNX 运行时移动版,以进一步加速模型推理,并且模型大小甚至更小。 ONNX 运行时不仅针对基于云的推理,而且针对设备推理不断演变。

跳转到: 

  • [01:02] ONNX 和 ONNX 运行时概述
  • [02:26] 使用 ONNX 运行时进行模型操作
  • [04:04] ONNX 运行时采用
  • [05:07] 用于模型大小缩减和推理加速的 ONNX 运行时 INT8 量化
  • [09:46] ONNX 运行时 INT8 量子化演示
  • [16:00] 用于减少运行时大小的 ONNX 运行时移动版

了解更多信息: 

不要错过新剧集, 订阅 AI 节目