Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Agenten werden mächtiger, wenn man sie mit spezialisierten Werkzeugen ausstattet, die ihre Kernfähigkeiten erweitern. Copilot Studio bietet drei Hauptkategorien von Agententools an:
- KI-Eingaben zur Erstellung intelligenter Antworten
- Model Context Protocol (MCP) für standardisierte Integrationen
- Computergebrauchswerkzeug zur Automatisierung von Desktop-Prozessen
Dieser Artikel untersucht, wie jeder Werkzeugtyp funktioniert, wann man ihn einsetzen sollte und wie er Ihnen helfen kann, leistungsfähigere und effizientere Agenten zu erstellen. Sie erfahren außerdem über die Unterschiede zwischen gehosteten und Bring-Your-Own-Maschinen für Computernutzungsszenarien sowie Hinweise zur Wahl zwischen traditionellen Robotic Process Automation (RPA) und Computer Using Agents (CUA) Ansätzen.
Generiere eine Antwort mithilfe von KI-Prompts
KI-Prompts verwenden eine Reihe von Anweisungen, um eine Antwort aus einem KI-Modell zu generieren. Du kannst Variablen einbauen, um mehr Text oder Dokumente in diese Anweisungen einzufügen. Die Ausgabe wird typischerweise entweder im Klartext oder im JSON-Format bereitgestellt. Sie können jedes KI-Modell auswählen, das in Copilot Studio eingebaut oder über Microsoft Foundry bereitgestellt wurde, um die Antwort zu generieren.
Du kannst Prompts als Agenten-Tool oder innerhalb eines Themas aufrufen. Alle Prompts werden in einer Prompt-Bibliothek gespeichert und unterstützen das Management des Anwendungslebenszyklus, rollenbasierte Zugriffskontrolle und das Teilen.
Erfahren Sie mehr darüber, wie Sie Prompts verwenden, um Ihren Makler bestimmte Aufgaben ausführen zu lassen.
Bestimmen Sie, wann KI-Prompts verwendet werden und wann Sie den Orchestrator verwenden
Jeder in Copilot Studio eingebaute Agent verwendet den Orchestrator, um zu bestimmen, wie er reagiert, indem er Tools, Themen und Wissen basierend auf Systemanweisungen, Benutzereingaben und kontextuellen Informationen auswählt. Der Orchestrator ist der Motor hinter der generativen Orchestrierung, der Aktionen plant und Antworten mit den Werkzeugen und Beschreibungen des Agenten zusammensetzt.
Auch wenn orchestratorgesteuerte Antworten KI-Prompts ähneln mögen, erfüllen die beiden Fähigkeiten unterschiedliche Zwecke. KI-Prompts sind eigenständige promptbasierte Aktionen, die den Entwicklern eine tiefere Kontrolle über die Modellkonfiguration geben.
KI-Prompts unterstützen eine breitere Palette von Modellen, einschließlich derjenigen, die über Microsoft Foundry verfügbar sind. Sie unterstützen außerdem Funktionen wie Dataverse-Erdung, Dateieingaben und Code-Interpreter.
Der Orchestrator verwendet einen festen Systemprompt und Werkzeugbeschreibungen, um die richtigen Bausteine für eine bestimmte Anfrage auszuwählen. Maker können das Systemprompt des Orchestrators nicht bearbeiten, aber sie können durch Agenten-Anweisungen beeinflussen, wie es sich verhält.
KI-Prompts geben die volle Kontrolle über Formatierung, Einschränkungen und Logik und sind damit die richtige Wahl für Szenarien, die fein abgestimmte oder hochstrukturierte Ausgaben erfordern. Wenn Sie zum Beispiel stilistische Kontrolle über das einfache Formatieren hinaus benötigen ("schreiben Sie ein reimendes Gedicht in ABAB-Struktur mit genau diesen Wörtern"), ist ein Prompt die bessere Wahl.
Der Orchestrator eignet sich gut für einfache Aufgaben wie das Extrahieren eines einzelnen Namens aus Text. Für komplexe Extraktionen verwenden Sie KI-Prompts. Zum Beispiel das Ziehen mehrerer Einheiten aus einem langen Bericht und das Verknüpfen mit domänenspezifischen Beziehungen (wie das Extrahieren mehrerer Namen aus einem Versicherungsbericht und die Identifizierung des Eigentümers des Autoreparaturdienstes, der nur einer Partei im Vorfall zugeordnet ist).
Die Entscheidung zwischen Orchestrator- und KI-Prompts hängt vom erforderlichen Maß an Anpassung ab. Wenn du eine präzise Kontrolle über das Verhalten oder die Ausgabe des Modells brauchst, wähle KI-Prompts. Für Szenarien, in denen allgemeine Begründung, Werkzeugauswahl und leichte Formatierung ausreichen, ist der Orchestrator die geeignete Wahl.
Integration von Agententools mithilfe von MCP
Das Model Context Protocol (MCP) ist eine universelle Schnittstelle, die KI-Modelle nutzen, um auf konsistente und skalierbare Weise mit externen Werkzeugen, Datenquellen und Benutzerumgebungen zu interagieren.
Im Vergleich dazu erfordern Power Platform-Anschlüsse, dass Sie jede Aktion und ihre Eingaben beschreiben und diese Beschreibungen aktualisieren, sobald neue Definitionen verfügbar werden. Die individuelle Kodierung einer Integration für jedes Tool ist komplexer und weniger skalierbar.
Nutzen Sie die MCP-Server, die mit Copilot Studio für Microsoft-Dienste wie Outlook, Dataverse und GitHub bereitgestellt werden, oder Drittanbieterdienste wie Salesforce und JIRA. Baue benutzerdefinierte MCP-Server für Dienste, bei denen keine vorhanden sind.
Vorteile von MCP umfassen:
- Standardisierter Kontext für KI-Modelle
- Nahtlose Integration mit Copilot Studio
- Verbesserte Entwicklereffizienz und Nutzererfahrung
- Governance, Überwachung und Erweiterbarkeit
Beachten Sie die folgenden Einschränkungen, bevor Sie MCP-Server implementieren:
- Man kann Werkzeugbeschreibungen nicht mit mehr Kontext darüber bereichern, wann man aufgerufen werden sollte.
- Topics können MCP-Server nicht direkt aufrufen.
Verstehen Sie, wann man MCP einsetzen sollte
Mit mehreren Integrationsansätzen können Sie in Copilot Studio die gleichen Ergebnisse erzielen. Es ist wichtig zu verstehen, wann man Model Context Protocol (MCP)-Server im Vergleich zu einfacheren Optionen wie Power Platform-Connectoren oder direkten REST-API-Aufrufen verwenden sollte.
Nutze MCP, wenn du eine standardisierte, zentral verwaltete Möglichkeit brauchst, um Tools und Ressourcen mehreren Agenten ohne Client-Konfiguration bereitzustellen. MCP-Server veröffentlichen Werkzeuge und Ressourcen, die Agenten automatisch entdecken, versiegen und konsistent nutzen können, da der MCP-Server die Werkzeugbeschreibungen und deren Eingaben definiert. Im Gegensatz dazu erfordert das direkte Hinzufügen einer API, dass man den Zweck manuell beschreibt und die Eingaben pro Agent definiert.
MCP ist besonders wertvoll, wenn sich Upstream-APIs häufig ändern. Anstatt jeden Agenten, der die API nutzt, zu aktualisieren, ändert man die Definition einmal auf dem MCP-Server, und alle Agenten nutzen die aktualisierte Version automatisch, ohne neu zu veröffentlichen. Wenn kein MCP-Server existiert oder du schnell Prototypen machst, ist das direkte Aufrufen von APIs schneller und vermeidet den Aufbauaufwand, der nötig ist, um den gesamten MCP-Lebenszyklus einzuführen.
Um MCP verwenden zu können, muss die generative Orchestrierung aktiviert sein. Erfahren Sie mehr in Wie funktioniert MCP?
Automatisieren Sie Desktop-Prozesse mit dem Computer-Tool
Durch die Nutzung des Computerwerkzeugs kann ein Agent einen Computer bedienen, ohne Automatisierungsskripte oder APIs benötigen zu müssen. Anstatt Skripte oder APIs zu verwenden, konfigurieren Sie den Agenten mit einer Eingabeaufforderung. Der Makler bestimmt, wie er seine Ziele am besten erreicht. Während des Prozesses macht der Agent bei jedem Schritt einen Screenshot, analysiert ihn, um die nächste Aktion zu bestimmen, führt diese aus und wiederholt diesen Zyklus, bis die Aufgabe abgeschlossen ist. Vom Agenten gemachte Screenshots und Begründungsschritte sind als Teil der Durchlaufhistorie verfügbar.
Häufige Szenarien, in denen ein Agent vom Computerwerkzeug profitieren kann, sind:
- Dateneingabe: Für jede Zeile in der eingehenden CSV-Datei erstellen Sie den Verkaufsauftrag in SAP und schreiben Sie die generierte Bestell-ID zurück in die Datei.
- Datenextraktion: Gehen Sie zu jedem Lieferantenportal, durchsuchen Sie die gelistete SKU, extrahieren Sie Preis, Bestand und Lieferzeit und fügen Sie die Ergebnisse mit einem Zeitstempel in die Datenbank ein.
- Über Apps hinweg: Exportiere die Transaktionen des Tages aus dem Desktop-Finanzclient, navigiere in QuickBooks und buche jeden Eintrag auf das richtige Konto.
Verstehe gehostete Maschinen vs. bring deinen eigenen Rechner mit.
Agenten können das Computer-Nutzungstool auf einem von Microsoft gehosteten Rechner oder einem Bring-your-Own-(BYO)-Rechner aufrufen. Gehostete Maschinen stehen für die sofortige Nutzung ohne IT-Konfiguration oder Abrechnung zur Verfügung. Sie gehören zu einem gemeinsamen Pool von vorbereitgestellten Windows 365 Cloud-PCs, die nicht mit Entra verbunden mit dem Kundentenant verbunden sind. BYO-Maschinen müssen im Voraus im eigenen virtuellen Netzwerk des Kunden bereitgestellt werden. Sie müssen BYO-Maschinen in Power Automate registrieren und verwalten.
Nutze BYO-Maschinen für Produktionsszenarien. Sie unterstützen Microsoft Entra ID, sind bei Intune registriert und unterstützen sowohl Web- als auch Desktop-Automatisierungsanwendungen. Nutze gehostete Maschinen nur für Prototyping, da deren begrenzte Fähigkeiten begrenzt sind. Pro Nutzer steht jeweils nur ein Cloud-PC zur Verfügung, und die Nutzung kann je nach Nachfrage gedrosselt werden.
Weitere Informationen finden Sie in der Konfiguration der Computernutzung.
Robotic Process Automation (RPA) vs. Computer Using Agents (CUA)
Robotic Process Automation (RPA) ist die Automatisierung eines Computers mit einem Skript. Man kann es auf viele der gleichen Szenarien wie CUA anwenden. Es ist jedoch wichtig, die Unterschiede zwischen RPA und CUA zu verstehen.
| Aspekt | RPA | CUA |
|---|---|---|
| Automatisierungstyp | Regelbasiert | LLM-gesteuert |
| Wechselwirkungsmethode | UI-Baum | Vision |
| Erstellen | Schrift, komplex | Natürliche Sprachanweisungen |
| Entscheidungsfindung | Vordefinierte Regeln | Autonome, visuell basierte Entscheidungen |
| Flexibilität | Begrenzte Flexibilität | Hohe Flexibilität |
| Fehlerbehandlung | Statische Fehlerbehandlung | Selbstkorrektur basierend auf visuellem Feedback |
RPA verwenden, wenn:
- Es sind nur allgemein verfügbare (GA) Funktionen erlaubt.
- Die Benutzeroberfläche ist stabil. Die Screens, Felder und Selektoren ändern sich selten.
- Die Regeln sind klar. Man kann Entscheidungen in Regeln festhalten.
- Geschwindigkeit ist wichtig. Hohe Lautstärke. Jede Sekunde zählt.
- Ein RPA-Team besitzt es. Das Team verfügt bereits über Kenntnisse in der Entwicklung und dem Management von RPAs.
Verwenden Sie CUA, wenn:
- Benutzeroberflächen verschieben oder variieren stark. Du arbeitest mit mehreren Apps und hast häufige Redesigns.
- Du brauchst es schnell. Der Rückstau des RPA-Teams ist voll.
- Die Benutzeroberfläche ist wichtig. Die Aufgabe hängt davon ab, was auf dem Bildschirm sichtbar ist, wie Diagramme, Farben und dynamische Layouts.
- Entscheidungen sind unscharf. Der Agent muss argumentieren, den nächsten Schritt wählen oder sich selbst korrigieren.