英語で読む

次の方法で共有


Windows アプリで AI ベースの APIs の使用を開始する

Windows Copilot Runtime には、独自の Machine Learning (ML) モデルを検索、実行、最適化することなく AI 機能を活用できる、さまざまな AI ベースの APIs が用意されています。 Windows Copilot RuntimeAPIsを駆動するモデルは、すぐに使用でき、デバイス上で常に受動的に実行されることで、Copilot+ PC で AI 機能を使用できるようにします。

Windows Copilot RuntimeAPIs を使用します

Windows Copilot RuntimeAPIs には、Windows デバイス上で直接、ローカルで実行されているモデルを利用した AI ベースの APIs が含まれます。 Windows Copilot RuntimeAPIsは、2025 年 1 月に予定されている Windows アプリ SDK 1.7 Experimental 2 リリースの可用性を対象としています。 Windows アプリ SDKの詳細を確認してください。

  • Phi Silica: Phi Silica API は、Windows アプリ SDK の一部として使用できます。 ChatGPT を駆動する OpenAI の GPT 大規模言語モデル (LLM) と同様に、Phi は、Microsoft Research によって開発された、ローカル デバイスで言語処理タスクを実行するための小規模言語モデル (SLM) です。 Phi Silica は、ニューラル処理ユニット (NPU) を搭載した Windows デバイス向けに特別に設計されており、高パフォーマンスのハードウェア アクセラレータによって、テキスト生成機能と会話機能をデバイス上で直接実行できるようにします。

  • Text Recognition OCR によるテキスト認識: Text Recognition API (光学式文字認識または OCR とも呼ばれます) は、Windows アプリSDK. の一部として使用できます。 この API を使用すると、画像内のテキストを認識し、スキャンされた紙のドキュメント、PDF ファイル、デジタル カメラでキャプチャされた画像など、さまざまな種類のドキュメントを、ローカル デバイス上の編集可能で検索可能なデータに変換できます。

  • Studio Effects Windows デバイス: 互換性のあるニューラル処理ユニット (NPU) を搭載した Windows デバイスは、Studio Effects を組み込みのデバイス カメラとマイクの設定に統合します。 背景のぼかし、アイ コンタクト修整、自動フレーミング、ポートレート ライト修整、クリエイティブ フィルター、バックグラウンド ノイズを除去するための音声フォーカスなど、AI を利用する特殊効果を適用します。

  • Recall: Recall を使用すると、ユーザーは、ドキュメント、画像、Web サイトなど、過去のアクティビティからすばやく対象を見つけることができます。 開発者は、ユーザー アクティビティ API を使用して基盤となるベクトル データベースにコンテキスト情報を追加することで、アプリを通じてユーザーの Recall エクスペリエンスを強化できます。 この統合により、ユーザーはアプリを中断したところから再開できるようになり、アプリのエンゲージメントと、Windows とアプリ間のシームレスな移動が向上します。

今後、ライブ キャプション翻訳、セマンティック検索、取得拡張生成 (RAG)、テキスト要約、画像のスーパー解像度など、さらに機能が追加される予定です。

Windows アプリでクラウドベースの AI ベースの APIs を使用する

また、クラウドでモデルを実行する APIs を使用して、Windows アプリに追加できる AI 機能を強化することもできます。 Microsoft または OpenAI によって提供されるクラウドベースの AI ベースの APIs の例を次に示します。

  • OpenAI チャット入力候補を WinUI 3/Windows アプリ SDK デスクトップ アプリに追加する: クラウドベースの OpenAI ChatGPT の入力候補機能を WinUI 3/Windows アプリ SDK デスクトップ アプリに統合する方法に関するチュートリアルです。

  • DALL-E を WinUI 3/Windows アプリ SDK デスクトップ アプリに追加する: クラウドベースの OpenAI DALL-E イメージ生成機能を WinUI 3/Windows アプリ SDK デスクトップ アプリに統合する方法に関するチュートリアルです。

  • .NET MAUI と ChatGPT を使用して推奨アプリを作成する: クラウドベースの OpenAI ChatGPT の入力候補機能を .NET MAUI アプリに統合するサンプルの推奨アプリを作成する方法に関するチュートリアルです。

  • DALL-E を .NET MAUI Windows デスクトップ アプリに追加する: クラウドベースの OpenAI DALL-E イメージ生成機能を .NET MAUI アプリに統合する方法に関するチュートリアルです。

  • Azure OpenAI Service: Azure のセキュリティとエンタープライズ機能が追加された、GPT-4、GPT-4 Turbo with Vision、GPT-3.5-Turbo、DALLE-3、Embeddings モデル シリーズなどの OpenAI モデルに Windows アプリでアクセスする場合は、この Azure OpenAI ドキュメントでガイダンスを確認できます。

  • Azure AI Services: Azure では、REST APIs およびクライアント ライブラリ SDK を通じて一般的な開発言語で利用できる AI サービスのスイート全体が提供されます。 詳細については、各サービスのドキュメントを参照してください。 これらのクラウドベースのサービスは、開発者や組織が、すぐに使用でき、事前構築済みのカスタマイズ可能な APIs とモデルを使用して、インテリジェントで最先端の市場対応の責任あるアプリケーションを迅速に作成するのに役立ちます。 アプリケーションの例には、会話、検索、監視、翻訳、音声、ビジョン、意思決定のための自然言語処理が含まれます。

Windows アプリでローカルとクラウドベースの AI ベースの APIs を使用する場合の考慮事項

Windows アプリで、ML モデルをローカルで実行する API を使用するか、クラウドで実行する API を使用するかを決定する際には、いくつかの利点と欠点を考慮する必要があります。

  • リソースの可用性

    • ローカル デバイス: モデルの実行は、CPU、GPU、NPU、メモリ、ストレージ容量など、使用されているデバイスで使用可能なリソースによって異なります。 デバイスに高いコンピューティング能力や十分なストレージがない場合、これによって制限が生じる可能性があります。 Phi のような小規模言語モデル (SLM) は、デバイスでローカルに使用するのに適しています。
    • クラウド: Azure などのクラウド プラットフォームは、スケーラブルなリソースを提供します。 必要なだけのコンピューティング能力やストレージを使用でき、使用した分だけ支払います。 OpenAI 言語モデルのような大規模言語モデル (LLM) は、より多くのリソースを必要としますが、より強力です。
  • データのプライバシーとセキュリティ

    • ローカル デバイス: モデルをローカルで実行すると、データがデバイス上に残るため、安全性と機密性を向上させることができます。 データ セキュリティの責任はユーザーにあります。
    • クラウド: クラウド プロバイダーは堅牢なセキュリティ対策を提供しますが、データをクラウドに転送する必要があるため、場合によってはデータ プライバシーに関する懸念が生じる可能性があります。
  • アクセシビリティとコラボレーション

    • ローカル デバイス: モデルとデータは、手動で共有しない限り、デバイス上でのみアクセスできます。 これにより、モデル データに対するコラボレーションがより困難になる可能性があります。
    • クラウド: モデルとデータには、インターネット接続を使用してどこからでもアクセスできます。 これは、コラボレーション シナリオには適している場合があります。
  • 原価

    • ローカル デバイス: デバイスへの初期投資以外に追加コストは発生しません。
    • クラウド: クラウド プラットフォームは従量課金制モデルで運用されますが、使用するリソースと使用期間に基づいてコストが蓄積される可能性があります。
  • メンテナンスと更新

    • ローカル デバイス: システムのメンテナンスと更新のインストールはユーザーが行います。
    • クラウド: メンテナンス、システム更新、および新機能の更新は、クラウド サービス プロバイダーによって処理されるため、ユーザーのメンテナンス オーバーヘッドが軽減されます。

小規模言語モデル (SLM) のローカル実行とクラウドでの大規模言語モデル (LLM) の実行の違いの詳細については、「小規模言語モデルをローカルで実行、およびクラウドで大規模言語モデルを実行」を参照してください。