このチュートリアルでは、エージェントでイメージを使用し、エージェントが画像コンテンツを分析して応答できるようにする方法について説明します。
エージェントへの画像の受け渡し
テキストとイメージの両方のコンテンツを含む ChatMessage を作成することで、エージェントにイメージを送信できます。 エージェントはその後、画像を分析し、それに応じて応答できます。
まず、画像を分析できる AIAgent を作成します。
AIAgent agent = new AzureOpenAIClient(
new Uri("https://<myresource>.openai.azure.com"),
new DefaultAzureCredential())
.GetChatClient("gpt-4o")
.AsAIAgent(
name: "VisionAgent",
instructions: "You are a helpful agent that can analyze images");
Warnung
DefaultAzureCredential は開発には便利ですが、運用環境では慎重に考慮する必要があります。 運用環境では、待機時間の問題、意図しない資格情報のプローブ、フォールバック メカニズムによる潜在的なセキュリティ リスクを回避するために、特定の資格情報 ( ManagedIdentityCredential など) を使用することを検討してください。
次に、テキスト プロンプトと画像 URL の両方を含む ChatMessage を作成します。 テキストには TextContent を使用し、画像には UriContent を使用します。
ChatMessage message = new(ChatRole.User, [
new TextContent("What do you see in this image?"),
new UriContent("https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg", "image/jpeg")
]);
メッセージを含むエージェントを実行します。 ストリーミングを使用して、生成された応答を受信できます。
Console.WriteLine(await agent.RunAsync(message));
これにより、エージェントによるイメージの分析がコンソールに出力されます。
エージェントへの画像の受け渡し
テキストとイメージの両方のコンテンツを含む Message を作成することで、エージェントにイメージを送信できます。 エージェントはその後、画像を分析し、それに応じて応答できます。
まず、画像を分析できるエージェントを作成します。
import asyncio
from agent_framework.azure import AzureOpenAIChatClient
from azure.identity import AzureCliCredential
agent = AzureOpenAIChatClient(credential=AzureCliCredential()).as_agent(
name="VisionAgent",
instructions="You are a helpful agent that can analyze images"
)
次に、テキスト プロンプトと画像 URL の両方を含む Message を作成します。 テキストには Content.from_text() を使用し、画像には Content.from_uri() を使用します。
from agent_framework import Message, Content
message = Message(
role="user",
contents=[
Content.from_text(text="What do you see in this image?"),
Content.from_uri(
uri="https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
media_type="image/jpeg"
)
]
)
次の Content.from_data()を使用して、ローカル ファイル システムからイメージを読み込むこともできます。
from agent_framework import Message, Content
# Load image from local file
with open("path/to/your/image.jpg", "rb") as f:
image_bytes = f.read()
message = Message(
role="user",
contents=[
Content.from_text(text="What do you see in this image?"),
Content.from_data(
data=image_bytes,
media_type="image/jpeg"
)
]
)
メッセージを含むエージェントを実行します。 ストリーミングを使用して、生成された応答を受信できます。
async def main():
result = await agent.run(message)
print(result.text)
asyncio.run(main())
これにより、エージェントによるイメージの分析がコンソールに出力されます。