Interagieren mit Dokumenten in Microsoft 365-Apps mit einem deklarativen Agent

Wenn deklarative Agents in der Copilot-Benutzeroberfläche in Microsoft 365-Apps verwendet werden, können sie mit dem geöffneten Dokument interagieren. Standardmäßig können Agents das gesamte geöffnete Dokument lesen. Benutzer können nur einen ausgewählten Abschnitt des geöffneten Dokuments für den Agent bereitstellen, und Agents können Bilder in das geöffnete Dokument einfügen.

Hinweis

Der Zugriff auf die Dokumentauswahl wird nur in Word unterstützt. Der Zugriff auf das gesamte geöffnete Dokument und das Einfügen von Bildern wird in Word und PowerPoint unterstützt.

Zugriff auf das gesamte geöffnete Dokument

Wenn der Benutzer in seiner Eingabeaufforderung auf das geöffnete Dokument verweist, wird der Inhalt des Dokuments automatisch zur Eingabeaufforderung hinzugefügt, sodass der Agent ohne weitere Benutzeraktion darauf zugreifen kann. Beispielsweise könnte der Benutzer den Agent mit "Dieses Dokument zusammenfassen" oder "Aktionselemente in dieser Datei suchen" auffordern.

Dokumentformat

Das Format der informationen, die dem Agent bereitgestellt werden, variiert je nach Dateityp.

Bei Word Dokumenten besteht der für den Agent bereitgestellte Kontext vollständig aus Nur-Text-Inhalten, einschließlich Überschriften, Textkörperabsätzen und Listenelementen. Der logische Fluss des Dokuments wird durch sequenzielle Segmentierung beibehalten, sodass der Agent die Dokumentstruktur basierend auf Textmustern ableiten kann. Nicht-Textelemente wie Tabellen, Diagramme, Bilder, Seitenformatierung und Formatierung werden nicht erfasst. Erwähnungen solcher visuellen Objekte zusammen mit angrenzenden Metadaten sind als Teil des Kontexts verfügbar, aber der Agent hat keinen Zugriff auf ihre tatsächlichen Inhalte.

Für PowerPoint-Präsentationen enthält der für den Agent bereitgestellte Kontext alle sichtbaren Folientitel, Textkörper und vereinfachte Beschreibungen von Tabellen und Bildern, sofern verfügbar. Der Folienfluss und die logische Erzählung werden durch sequenzielle Indizierung beibehalten. Nicht-Textelemente wie Bilder, komplexe Diagramme, Hintergrunddesigns, Übergänge, Hyperlinks und ausführliche Sprechernotizen werden nicht erfasst. Daher kann der Agent zwar textbezogene Inhalte und allgemeine Beschreibungen visueller Elemente berücksichtigen, hat aber keinen Zugriff auf Rich Media, detaillierte visuelle Layouts und strukturierte grafische Daten.

Verwenden des geöffneten Dokuments in Ihrem Agent

Deklarative Agents haben standardmäßig Zugriff auf das geöffnete Dokument. Es sind keine Änderungen an Ihrem Agent erforderlich, um die Unterstützung für dieses Feature zu aktivieren.

Verwenden des geöffneten Dokuments in API-Plug-Ins

Wenn Ihr Agent API-Plug-Ins als benutzerdefinierte Aktionen enthält, entscheidet der Agent basierend auf Ihrer API-Beschreibung und den Anweisungen an den Agent, wie viel des geöffneten Dokuments an die API gesendet werden soll. Weitere Informationen finden Sie unter Überlegungen zum API-Plug-In für Dokumentinhalte.

Zugriffsdokumentauswahl

Mit der Dokumentauswahlfunktion können Benutzer den aktuell ausgewählten Abschnitt des geöffneten Dokuments für den deklarativen Agent bereitstellen. Der Benutzer kann den Agent nach der Auswahl fragen oder den Agent bitten, basierend darauf Maßnahmen zu ergreifen.

Beispielsweise arbeitet ein Benutzer an einem Auftragsbeschreibungsdokument und möchte dem Dokument ein DURCH KI generiertes Bild hinzufügen, um visuellen Reiz zu verleihen. Der Benutzer wählt zunächst einen Abschnitt des Dokuments als Kontext für das Bild aus. Wenn Sie einen Abschnitt des Dokuments auswählen, wird die Schaltfläche Auswahl hinzufügen im Bereich Copilot-Chat aktiviert.

Screenshot von Copilot in Word mit der Option

Der Benutzer wählt Auswahl hinzufügen aus und fordert dann den Agent auf, basierend auf der Auswahl ein Bild zu generieren .

Screenshot von Copilot in Word zeigt die Benutzeraufforderung einschließlich der Dokumentauswahl

Der Agent generiert Bilder und reagiert auf den Benutzer.

Screenshot von Copilot in Word mit den generierten Bildern

Verwenden der Dokumentauswahl in Ihrem Agent

Deklarative Agents haben standardmäßig Zugriff auf die Dokumentauswahl. Es sind keine Änderungen an Ihrem Agent erforderlich, um die Unterstützung für dieses Feature zu aktivieren.

Verwenden der Dokumentauswahl in API-Plug-Ins

Wenn Ihr Agent API-Plug-Ins als benutzerdefinierte Aktionen enthält, kann der Agent die Dokumentauswahl für die API bereitstellen. Der Agent übersetzt die Dokumentauswahl basierend auf Ihrer API-Spezifikation.

Überlegungen zum API-Plug-In für Dokumentinhalte

Für die gesamte Dokument- oder Benutzerauswahl entscheidet der Agent, wie die Daten am besten an ein API-Plug-In übergeben werden sollen. Sie sollten sicherstellen, dass die Dokument- oder Benutzerauswahl für Ihre API entsprechend übersetzt wird.

  1. Testen Sie zunächst Ihren Agent, ohne Ihrem Agent spezielle Anweisungen hinzuzufügen. In den meisten Fällen sollte der Agent den Dokumentinhalt oder die Benutzerauswahl für Ihre API ohne zusätzliche Konfiguration entsprechend übersetzen.
  2. Wenn Ihr Agent nicht ordnungsgemäß für Ihre API übersetzt wird, fügen Sie anweisungen im Zustandsobjekt des Plug-In-Manifests reasoning hinzu, um den Agent anzuweisen, welches Formular ausgewählt werden soll.
  3. Testen Sie verschiedene Auswahlmöglichkeiten, um zu überprüfen, ob Ihr Agent unterschiedliche Inhaltstypen und -längen entsprechend verarbeitet.

Im Folgenden finden Sie einige Beispiele für Anweisungen, um zu beeinflussen, wie der Agent den Dokumentinhalt oder die Benutzerauswahl übersetzt. Die tatsächlich erforderlichen Anweisungen zum Erzielen des gewünschten Ergebnisses hängen von Ihrem Agent und Ihrer API ab.

Ausführliches Pass-Through-Beispiel
You **MUST** pass the exact user's current selection without any modifications as part of the `text` param.
Beispiel für Zusammenfassung/Transformation
You **MUST** pass the short, summarized version of the user's current selection as `prompt`
instead of the entire selected document context.
Beispiel für strukturierte Extraktion
You **MUST** pass the structured version of the user's current selection as part of the `data` param.
You should get the required context from the user's current selection based on the user's query and
**MUST** structure the context in JSON format.

Einfügen von Bildern

Mit der Funktion zum Einfügen von Bildern können Benutzer Bilder aus dem Agent in das geöffnete Dokument einfügen. Das Bild kann an der aktuellen Cursorposition, oben im Dokument oder am unteren Rand des Dokuments eingefügt werden.

Beispielsweise kann ein Agent, der Bilder aus einem externen Imagerepository abruft, dem Benutzer eine Schaltfläche zum Einfügen des Bilds anzeigen.

Screenshot von Copilot in Word mit einem Agent mit der Funktion

Einfügen von Bildern aus Ihrem Agent

Zum Aktivieren der Bildeinfügung in einem deklarativen Agent ist ein API-Plug-In erforderlich, das Antwortvorlagen für adaptive Karten verwendet. Die Vorlage adaptive Karte enthält eine Action.InsertImage Aktion, die der Benutzer zum Einfügen des Bilds auswählt.

{
  "type": "ActionSet",
  "actions": [
    {
      "type": "Action.InsertImage",
      "title": "Insert",
      "altText": "An image of people on the beach",
      "url": "https://contoso.com/images/beach.jpeg",
      // fallback MUST be set to "drop"
      "fallback": "drop",
      // Other valid values: "Top", "Bottom"
      "insertPosition": "Selection"
    }
  ]
}

Hinweis

Unterstützte Imagetypen sind .bmp, .gif, .jpeg, .jpg und .png.