Vad är dokument- och konversationssammanfattning?

Viktigt!

Vår förhandsgranskningsregion, Sweden Central, visar upp våra senaste och ständigt växande LLM-finjusteringstekniker baserade på GPT-modeller. Du är välkommen att prova dem med en språkresurs i Sverige, centrala.

Konversationssammanfattning är endast tillgängligt med hjälp av:

  • REST-API
  • Python
  • C#

Sammanfattning är en av de funktioner som erbjuds av Azure AI Language, en samling maskininlärnings- och AI-algoritmer i molnet för utveckling av intelligenta program som omfattar skriftligt språk. Använd den här artikeln om du vill veta mer om den här funktionen och hur du använder den i dina program.

Även om tjänsterna är märkta med dokument- och konversationssammanfattningar accepterar dokumentsammanfattning endast oformaterade textblock och konversationssammanfattning accepterar olika talartefakter för att modellen ska kunna lära sig mer. Om du vill bearbeta en konversation men bara bryr dig om text kan du använda dokumentsammanfattning för det scenariot.

Den här dokumentationen innehåller följande artikeltyper:

  • Snabbstarter är komma igång-instruktioner som hjälper dig att göra begäranden till tjänsten.
  • Instruktionsguider innehåller instruktioner för hur du använder tjänsten på mer specifika eller anpassade sätt.

Dokumentsammanfattning använder bearbetningstekniker för naturligt språk för att generera en sammanfattning för dokument. Det finns tre API-metoder som stöds för automatisk sammanfattning: extraktiv, abstrakt och frågefokuserad.

Extraheringssammanfattning extraherar meningar som tillsammans representerar den viktigaste eller mest relevanta informationen i det ursprungliga innehållet. Abstrakt sammanfattning genererar en sammanfattning med koncisa, sammanhängande meningar eller ord som inte är ordagrant extrahera meningar från det ursprungliga dokumentet. Dessa funktioner är utformade för att förkorta innehåll som kan anses vara för långt för att läsa.

Stöd för inbyggt dokument

Ett internt dokument refererar till det filformat som används för att skapa det ursprungliga dokumentet, till exempel Microsoft Word (docx) eller en bärbar dokumentfil (pdf). Stöd för inbyggt dokument eliminerar behovet av förbearbetning av text innan du använder Resursfunktioner för Azure AI Language. För närvarande är inbyggt dokumentstöd tillgängligt för både abstraktasummariserings- och extraheringsfunktioner.

Dokumentsammanfattning stöder för närvarande följande interna dokumentformat:

Filtyp Filnamnstillägg Beskrivning
Text .txt Ett oformaterat textdokument.
Adobe PDF .pdf Ett portabelt dokumentfilformaterat dokument.
Microsoft Word .docx En Microsoft Word-dokumentfil.

Mer information finns iAnvända inbyggda dokument för språkbearbetning

Nyckelfunktioner

Det finns aspekter av dokumentsammanfattning som det här API:et tillhandahåller:

  • Extraheringssammanfattning: Skapar en sammanfattning genom att extrahera viktiga meningar i dokumentet.

    • Flera extraherade meningar: Dessa meningar förmedlar tillsammans dokumentets huvudidé. De är ursprungliga meningar som extraheras från indatadokumentets innehåll.
    • Rankningspoäng: Rankningspoängen anger hur relevant en mening är för ett dokuments huvudämne. Dokumentsammanfattning rangordnar extraherade meningar och du kan avgöra om de returneras i den ordning de visas eller enligt deras rangordning.
    • Flera returnerade meningar: Bestäm det maximala antalet meningar som ska returneras. Om du till exempel begär en sammanfattningssammanfattning med tre meningar returneras de tre meningarna med högst poäng.
    • Positionsinformation: Startpositionen och längden på extraherade meningar.
  • Abstrakt sammanfattning: Genererar en sammanfattning som inte använder samma ord som i dokumentet, men som fångar huvudidén.

    • Sammanfattningstexter: Abstrakt sammanfattning returnerar en sammanfattning för varje kontextuellt indataintervall i dokumentet. Ett långt dokument kan segmenteras så att flera grupper med sammanfattningstexter kan returneras med sitt kontextuella indataintervall.
    • Kontextuellt indataintervall: Intervallet i indatadokumentet som användes för att generera sammanfattningstexten.
  • Frågefokuserad sammanfattning: Genererar en sammanfattning baserat på en fråga

Tänk till exempel på följande stycke text:

"På Microsoft är vi på jakt efter att utveckla AI utöver befintliga tekniker genom att ta ett mer holistiskt, människocentrerat förhållningssätt till lärande och förståelse. Som Chief Technology Officer för Azure AI-tjänster har jag arbetat med ett team med fantastiska forskare och ingenjörer för att förverkliga detta uppdrag. I min roll har jag ett unikt perspektiv när jag visar relationen mellan tre attribut för mänsklig kognition: enspråkig text (X), ljud- eller visuella sensoriska signaler, (Y) och flerspråkig (Z). I skärningspunkten mellan alla tre finns det magi – det vi kallar XYZ-kod som illustreras i bild 1 – en gemensam representation för att skapa kraftfullare AI som kan tala, höra, se och förstå människor bättre. Vi tror att XYZ-kod gör det möjligt för oss att uppfylla vår långsiktiga vision: överföringsinlärning mellan domäner, som omfattar modaliteter och språk. Målet är att ha förtränat modeller som gemensamt kan lära sig representationer för att stödja ett brett spektrum av underordnade AI-uppgifter, mycket på det sätt som människor gör idag. Under de senaste fem åren har vi uppnå mänsklig prestanda på riktmärken inom konversationstaligenkänning, maskinöversättning, samtalsfrågasvar, maskinläsningsförståelse och bild bildtext ing. Dessa fem genombrott gav oss starka signaler mot vår mer ambitiösa strävan att skapa ett språng i AI-funktioner och uppnå multisensorisk och flerspråkig inlärning som ligger närmare i linje med hur människor lär sig och förstår. Jag tror att den gemensamma XYZ-koden är en grundläggande komponent i denna strävan, om den baseras på externa kunskapskällor i underordnad AI-uppgifter."

API-begäran för dokumentsammanfattning bearbetas när begäran tas emot genom att ett jobb skapas för API-serverdelen. Om jobbet lyckades returneras utdata från API:et. Utdata är tillgängliga för hämtning i 24 timmar. Efter den här tiden rensas utdata. På grund av stöd för flerspråkiga och emojis kan svaret innehålla textförskjutningar. Mer information finns i bearbeta förskjutningar.

Om vi använder exemplet ovan kan API:et returnera dessa sammanfattade meningar:

Extraheringssammanfattning:

  • "På Microsoft är vi på jakt efter att främja AI utöver befintliga tekniker genom att ta ett mer holistiskt, mänskligt centrerad tillvägagångssätt för lärande och förståelse."
  • "Vi tror att XYZ-kod gör det möjligt för oss att uppfylla vår långsiktiga vision: överföringsinlärning mellan domäner, som omfattar modaliteter och språk."
  • "Målet är att ha förtränat modeller som gemensamt kan lära sig representationer för att stödja ett brett spektrum av underordnade AI-uppgifter, mycket på det sätt som människor gör idag."

Abstrakt sammanfattning:

  • "Microsoft har ett mer holistiskt, mänskligt centrerad sätt att lära sig och förstå. Vi tror att XYZ-kod gör det möjligt för oss att uppfylla vår långsiktiga vision: överföringsinlärning mellan domäner, som omfattar modaliteter och språk. Under de senaste fem åren har vi uppnått mänsklig prestanda på riktmärken inom samtalsigenkänning."

Kom igång med sammanfattning

Om du vill använda sammanfattning skickar du för analys och hanterar API-utdata i ditt program. Analysen utförs som den är, utan någon ytterligare anpassning till den modell som används på dina data. Det finns två sätt att använda sammanfattning:

Utvecklingsalternativ beskrivning
Language Studio Language Studio är en webbaserad plattform där du kan prova entitetslänkning med textexempel utan ett Azure-konto och dina egna data när du registrerar dig. Mer information finns på Language Studio-webbplatsen eller language studio-snabbstarten.
REST API eller klientbibliotek (Azure SDK) Integrera dokumentsammanfattning i dina program med hjälp av REST-API:et eller klientbiblioteket som är tillgängligt på olika språk. Mer information finns i snabbstarten för sammanfattning.

Indatakrav och tjänstbegränsningar

Referensdokumentation och kodexempel

När du använder dokumentsammanfattning i dina program kan du läsa följande referensdokumentation och exempel för Azure AI Language:

Utvecklingsalternativ/språk Referensdokumentation Exempel
C# C#-dokumentation C#-exempel
Java Java-dokumentation Java-exempel
JavaScript JavaScript-dokumentation JavaScript-exempel
Python Python-dokumentation Python-exempel

Ansvarig AI

Ett AI-system innehåller inte bara tekniken, utan även de personer som använder den, de personer som påverkas av den och distributionsmiljön. Läs transparensanteckningen för sammanfattning för att lära dig mer om ansvarsfull AI-användning och distribution i dina system. Mer information finns i följande artiklar: