Delen via


TextAnalyticsClient Klas

De Taalservice-API is een suite met NLP-vaardigheden (Natural Language Processing) die is gebouwd met de beste Machine Learning-algoritmen van Microsoft. De API kan worden gebruikt voor het analyseren van ongestructureerde tekst voor taken zoals sentimentanalyse, sleuteltermextractie, entiteitsherkenning en taaldetectie, en meer.

Meer documentatie vindt u in https://docs.microsoft.com/azure/cognitive-services/language-service/overview

Overname
azure.ai.textanalytics._base_client.TextAnalyticsClientBase
TextAnalyticsClient

Constructor

TextAnalyticsClient(endpoint: str, credential: AzureKeyCredential | TokenCredential, *, default_language: str | None = None, default_country_hint: str | None = None, api_version: str | TextAnalyticsApiVersion | None = None, **kwargs: Any)

Parameters

endpoint
str
Vereist

Ondersteunde eindpunten voor Cognitive Services- of taalresources (protocol- en hostnaam, bijvoorbeeld: 'https://.cognitiveservices.azure.com').

credential
AzureKeyCredential of TokenCredential
Vereist

Referenties die nodig zijn voor de client om verbinding te maken met Azure. Dit kan een exemplaar van AzureKeyCredential zijn als u een Cognitive Services-/Taal-API-sleutel of een tokenreferentie van identitygebruikt.

default_country_hint
str

Hiermee stelt u de standaard country_hint die moet worden gebruikt voor alle bewerkingen. De standaardinstelling is 'US'. Als u geen landhint wilt gebruiken, geeft u de tekenreeks 'none' door.

default_language
str

Hiermee stelt u de standaardtaal in die moet worden gebruikt voor alle bewerkingen. De standaardwaarde is 'en'.

api_version
str of TextAnalyticsApiVersion

De API-versie van de service die moet worden gebruikt voor aanvragen. De standaardinstelling is de nieuwste serviceversie. Instellen op een oudere versie kan leiden tot verminderde compatibiliteit van functies.

Voorbeelden

De TextAnalyticsClient met eindpunt en API-sleutel maken.


   import os
   from azure.core.credentials import AzureKeyCredential
   from azure.ai.textanalytics import TextAnalyticsClient
   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   key = os.environ["AZURE_LANGUAGE_KEY"]

   text_analytics_client = TextAnalyticsClient(endpoint, AzureKeyCredential(key))

De TextAnalyticsClient maken met eindpunt- en tokenreferenties van Azure Active Directory.


   import os
   from azure.ai.textanalytics import TextAnalyticsClient
   from azure.identity import DefaultAzureCredential

   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   credential = DefaultAzureCredential()

   text_analytics_client = TextAnalyticsClient(endpoint, credential=credential)

Methoden

analyze_sentiment

Het gevoel voor een batch documenten analyseren. Schakel meninganalyse in met show_opinion_mining.

Retourneert een sentimentvoorspelling, evenals gevoelsscores voor elke gevoelsklasse (positief, negatief en neutraal) voor het document en elke zin daarin.

Zie https://aka.ms/azsdk/textanalytics/data-limits voor servicegegevenslimieten.

Nieuw in versie v3.1: de trefwoordargumenten show_opinion_mining, disable_service_logs en string_index_type .

begin_abstract_summary

Start een langdurige abstracte samenvattingsbewerking.

Zie de servicedocumentatie voor een conceptuele bespreking van abstracte samenvatting: https://learn.microsoft.com/azure/cognitive-services/language-service/summarization/overview

Nieuw in versie 2023-04-01: De begin_abstract_summary-clientmethode .

begin_analyze_actions

Start een langdurige bewerking om verschillende tekstanalyseacties uit te voeren voor een batch documenten.

We raden u aan deze functie te gebruiken als u grotere documenten wilt analyseren en/of meerdere tekstanalyseacties wilt combineren in één aanroep. Anders raden we u aan de actiespecifieke eindpunten te gebruiken, bijvoorbeeld analyze_sentiment.

Notitie

Zie de servicedocumentatie voor regionale ondersteuning van functies voor aangepaste acties:

https://aka.ms/azsdk/textanalytics/customfunctionalities

Nieuw in versie v3.1: de clientmethode begin_analyze_actions .

Nieuw in versie 2022-05-01: de invoeropties RecognizeCustomEntitiesAction, SingleLabelClassifyAction, MultiLabelClassifyAction en AnalyzeHealthcareEntitiesAction en de bijbehorende resultaatobjecten RecognizeCustomEntitiesResult, ClassifyDocumentResult en AnalyzeHealthcareEntitiesResult

Nieuw in versie 2023-04-01: de invoeropties ExtractiveSummaryAction en AbstractiveSummaryAction en de bijbehorende resultaatobjecten ExtractiveSummaryResult en AbstractiveSummaryResult .

begin_analyze_healthcare_entities

Zorgentiteiten analyseren en relaties tussen deze entiteiten identificeren in een batch documenten.

Entiteiten zijn gekoppeld aan verwijzingen die kunnen worden gevonden in bestaande knowledge bases, zoals UMLS, CHV, MSH, enzovoort.

We extraheren ook de relaties tussen entiteiten, bijvoorbeeld in "Het onderwerp nam 100 mg ibuprofen", we zouden de relatie tussen de dosering "100 mg" en de "ibuprofen" medicatie extraheren.

Nieuw in versie v3.1: de clientmethode begin_analyze_healthcare_entities .

Nieuw in versie 2022-05-01: Het sleutelwoordargument display_name .

begin_extract_summary

Start een langdurige extractieve samenvattingsbewerking.

Zie de servicedocumentatie voor een conceptuele bespreking van extractieve samenvatting: https://learn.microsoft.com/azure/cognitive-services/language-service/summarization/overview

Nieuw in versie 2023-04-01: De clientmethode begin_extract_summary .

begin_multi_label_classify

Start een langdurige aangepaste classificatiebewerking voor meerdere labels.

Zie voor meer informatie over regionale ondersteuning van aangepaste functies en het trainen van een model om uw documenten te classificeren https://aka.ms/azsdk/textanalytics/customfunctionalities

Nieuw in versie 2022-05-01: De begin_multi_label_classify-clientmethode .

begin_recognize_custom_entities

Start een langlopende bewerking voor het herkennen van een aangepaste benoemde entiteit.

Zie voor informatie over regionale ondersteuning van aangepaste functies en het trainen van een model om aangepaste entiteiten te herkennen https://aka.ms/azsdk/textanalytics/customentityrecognition

Nieuw in versie 2022-05-01: De begin_recognize_custom_entities-clientmethode .

begin_single_label_classify

Een langdurige classificatiebewerking voor aangepaste labels met één label starten.

Zie voor informatie over regionale ondersteuning van aangepaste functies en het trainen van een model om uw documenten te classificeren https://aka.ms/azsdk/textanalytics/customfunctionalities

Nieuw in versie 2022-05-01: De begin_single_label_classify-clientmethode .

close

Sluit sockets die door de client zijn geopend. Het aanroepen van deze methode is niet nodig wanneer u de client als contextbeheerder gebruikt.

detect_language

Taal voor een batch documenten detecteren.

Retourneert de gedetecteerde taal en een numerieke score tussen nul en één. Scores dicht bij één geven 100% zekerheid aan dat de geïdentificeerde taal waar is. Zie https://aka.ms/talangs voor de lijst met ingeschakelde talen.

Zie https://aka.ms/azsdk/textanalytics/data-limits voor servicegegevenslimieten.

Nieuw in versie v3.1: het trefwoordargument disable_service_logs .

extract_key_phrases

Sleuteltermen extraheren uit een batch documenten.

Retourneert een lijst met tekenreeksen die de sleuteltermen in de invoertekst aandukken. Voor de invoertekst 'Het eten was heerlijk en er was geweldig personeel', retourneert de API bijvoorbeeld de belangrijkste gesprekspunten: 'eten' en 'geweldig personeel'

Zie https://aka.ms/azsdk/textanalytics/data-limits voor servicegegevenslimieten.

Nieuw in versie v3.1: het trefwoordargument disable_service_logs .

recognize_entities

Entiteiten herkennen voor een batch documenten.

Identificeert en categoriseert entiteiten in uw tekst als personen, plaatsen, organisaties, datum/tijd, hoeveelheden, percentages, valuta's en meer. Voor de lijst met ondersteunde entiteitstypen controleert u: https://aka.ms/taner

Zie https://aka.ms/azsdk/textanalytics/data-limits voor servicegegevenslimieten.

Nieuw in versie v3.1: de disable_service_logs en string_index_type sleutelwoordargumenten.

recognize_linked_entities

Gekoppelde entiteiten van een bekende Knowledge Base herkennen voor een batch documenten.

Identificeert en disambieert de identiteit van elke entiteit die in tekst wordt gevonden (bijvoorbeeld om te bepalen of het woord Mars verwijst naar de planeet of naar de Romeinse oorlogsgod). Herkende entiteiten zijn gekoppeld aan URL's naar een bekende Knowledge Base, zoals Wikipedia.

Zie https://aka.ms/azsdk/textanalytics/data-limits voor servicegegevenslimieten.

Nieuw in versie v3.1: de disable_service_logs en string_index_type sleutelwoordargumenten.

recognize_pii_entities

Entiteiten herkennen die persoonlijke gegevens bevatten voor een batch documenten.

Retourneert een lijst met entiteiten met persoonlijke gegevens ('SSN', 'Bankrekening', enzovoort) in het document. Voor de lijst met ondersteunde entiteitstypen, controleert u https://aka.ms/azsdk/language/pii

Zie https://aka.ms/azsdk/textanalytics/data-limits voor servicegegevenslimieten.

Nieuw in versie v3.1: de recognize_pii_entities-clientmethode .

analyze_sentiment

Het gevoel voor een batch documenten analyseren. Schakel meninganalyse in met show_opinion_mining.

Retourneert een sentimentvoorspelling, evenals gevoelsscores voor elke gevoelsklasse (positief, negatief en neutraal) voor het document en elke zin daarin.

Zie https://aka.ms/azsdk/textanalytics/data-limits voor servicegegevenslimieten.

Nieuw in versie v3.1: de trefwoordargumenten show_opinion_mining, disable_service_logs en string_index_type .

analyze_sentiment(documents: List[str] | List[TextDocumentInput] | List[Dict[str, str]], *, disable_service_logs: bool | None = None, language: str | None = None, model_version: str | None = None, show_opinion_mining: bool | None = None, show_stats: bool | None = None, string_index_type: str | None = None, **kwargs: Any) -> List[AnalyzeSentimentResult | DocumentError]

Parameters

documents
list[str] of list[TextDocumentInput] of list[dict[str, str]]
Vereist

De set documenten die moet worden verwerkt als onderdeel van deze batch. Als u de id en taal per item wilt opgeven, moet u als invoer een lijst[TextDocumentInput] of een lijst met dictweergaven van TextDocumentInputgebruiken, zoals {"id": "1", "language": "en", "text": "hello world"}.

show_opinion_mining
bool

Of u de meningen van een zin wilt minen en een gedetailleerdere analyse moet uitvoeren rond de aspecten van een product of service (ook wel aspectgebaseerde sentimentanalyse genoemd). Als dit is ingesteld op true, hebben de geretourneerde SentenceSentiment objecten de eigenschap mined_opinions die het resultaat van deze analyse bevat. Alleen beschikbaar voor API-versie v3.1 en hoger.

language
str

De ISO 639-1-weergave van de taal van 2 letters voor de hele batch. Gebruik bijvoorbeeld 'en' voor Engels; "es" voor Spaans enz. Als dit niet is ingesteld, wordt standaard 'en' voor Engels gebruikt. De taal per document heeft voorrang op de hele batchtaal. Zie https://aka.ms/talangs voor ondersteunde talen in Taal-API.

model_version
str

De modelversie die moet worden gebruikt voor de analyse, bijvoorbeeld 'nieuwste'. Als er geen modelversie is opgegeven, wordt de API standaard ingesteld op de nieuwste, niet-preview-versie. Kijk hier voor meer informatie: https://aka.ms/text-analytics-model-versioning

show_stats
bool

Als deze optie is ingesteld op true, bevat het antwoord statistieken op documentniveau in het veld Statistieken van het antwoord op documentniveau.

string_index_type
str

Hiermee geeft u de methode die wordt gebruikt voor het interpreteren van tekenreeks offsets. UnicodeCodePoint, de Python-codering, is de standaardinstelling. Als u de python-standaardinstelling wilt overschrijven, kunt u ook Utf16CodeUnit of TextElement_v8 doorgeven. Zie voor meer informatie https://aka.ms/text-analytics-offsets

disable_service_logs
bool

Als deze optie is ingesteld op true, kunt u zich afmelden voor het aanmelden van uw tekstinvoer aan de servicezijde voor het oplossen van problemen. Standaard registreert de taalservice uw invoertekst gedurende 48 uur, alleen om problemen op te lossen bij het bieden van de verwerkingsfuncties voor natuurlijke taal van de service. Als u deze parameter instelt op true, wordt invoerlogboekregistratie uitgeschakeld en kunnen problemen die optreden, worden beperkt. Zie Compliance- en privacyopmerkingen voor Cognitive Services op https://aka.ms/cs-compliance voor meer informatie en Microsoft Responsible AI-principes op https://www.microsoft.com/ai/responsible-ai.

Retouren

De gecombineerde lijst van AnalyzeSentimentResult en DocumentError in de volgorde waarin de oorspronkelijke documenten zijn doorgegeven.

Retourtype

Uitzonderingen

Voorbeelden

Sentiment analyseren in een batch documenten.


   import os
   from azure.core.credentials import AzureKeyCredential
   from azure.ai.textanalytics import TextAnalyticsClient

   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   key = os.environ["AZURE_LANGUAGE_KEY"]

   text_analytics_client = TextAnalyticsClient(endpoint=endpoint, credential=AzureKeyCredential(key))

   documents = [
       """I had the best day of my life. I decided to go sky-diving and it made me appreciate my whole life so much more.
       I developed a deep-connection with my instructor as well, and I feel as if I've made a life-long friend in her.""",
       """This was a waste of my time. All of the views on this drop are extremely boring, all I saw was grass. 0/10 would
       not recommend to any divers, even first timers.""",
       """This was pretty good! The sights were ok, and I had fun with my instructors! Can't complain too much about my experience""",
       """I only have one word for my experience: WOW!!! I can't believe I have had such a wonderful skydiving company right
       in my backyard this whole time! I will definitely be a repeat customer, and I want to take my grandmother skydiving too,
       I know she'll love it!"""
   ]


   result = text_analytics_client.analyze_sentiment(documents, show_opinion_mining=True)
   docs = [doc for doc in result if not doc.is_error]

   print("Let's visualize the sentiment of each of these documents")
   for idx, doc in enumerate(docs):
       print(f"Document text: {documents[idx]}")
       print(f"Overall sentiment: {doc.sentiment}")

begin_abstract_summary

Start een langdurige abstracte samenvattingsbewerking.

Zie de servicedocumentatie voor een conceptuele bespreking van abstracte samenvatting: https://learn.microsoft.com/azure/cognitive-services/language-service/summarization/overview

Nieuw in versie 2023-04-01: De begin_abstract_summary-clientmethode .

begin_abstract_summary(documents: List[str] | List[TextDocumentInput] | List[Dict[str, str]], *, continuation_token: str | None = None, disable_service_logs: bool | None = None, display_name: str | None = None, language: str | None = None, polling_interval: int | None = None, show_stats: bool | None = None, model_version: str | None = None, string_index_type: str | None = None, sentence_count: int | None = None, **kwargs: Any) -> TextAnalysisLROPoller[ItemPaged[AbstractiveSummaryResult | DocumentError]]

Parameters

documents
list[str] of list[TextDocumentInput] of list[dict[str, str]]
Vereist

De set documenten die moet worden verwerkt als onderdeel van deze batch. Als u de id en taal per item wilt opgeven, moet u als invoer een lijst[TextDocumentInput] of een lijst met dictweergaven van TextDocumentInputgebruiken, zoals {"id": "1", "language": "en", "text": "hello world"}.

language
str

De ISO 639-1-weergave van de taal van 2 letters voor de hele batch. Gebruik bijvoorbeeld 'en' voor Engels; "es" voor Spaans enz. Als dit niet is ingesteld, wordt standaard 'en' voor Engels gebruikt. De taal per document heeft voorrang op de hele batchtaal. Zie https://aka.ms/talangs voor ondersteunde talen in Taal-API.

show_stats
bool

Als deze optie is ingesteld op true, bevat het antwoord statistieken op documentniveau.

sentence_count
Optional[int]

Het bepaalt het geschatte aantal zinnen in de uitvoersamenvattingen.

model_version
Optional[str]

De modelversie die moet worden gebruikt voor de analyse, bijvoorbeeld 'nieuwste'. Als er geen modelversie is opgegeven, wordt de API standaard ingesteld op de nieuwste, niet-preview-versie. Kijk hier voor meer informatie: https://aka.ms/text-analytics-model-versioning

string_index_type
Optional[str]

Hiermee geeft u de methode die wordt gebruikt voor het interpreteren van tekenreeks offsets.

disable_service_logs
bool

Als deze optie is ingesteld op true, kunt u zich afmelden voor het aanmelden van uw tekstinvoer aan de servicezijde voor het oplossen van problemen. Standaard registreert de taalservice uw invoertekst gedurende 48 uur, alleen om problemen op te lossen bij het bieden van de verwerkingsfuncties voor natuurlijke taal van de service. Als u deze parameter instelt op true, wordt invoerlogboekregistratie uitgeschakeld en kunnen problemen die optreden, worden beperkt. Zie Compliance- en privacyopmerkingen voor Cognitive Services op https://aka.ms/cs-compliance voor meer informatie en Microsoft Responsible AI-principes op https://www.microsoft.com/ai/responsible-ai.

polling_interval
int

Wachttijd tussen twee polls voor LRO-bewerkingen als er geen Retry-After header aanwezig is. De standaardwaarde is 5 seconden.

continuation_token
str

Roep continuation_token() aan op het poller-object om de LRO-status (Long-Running Operation) op te slaan in een ondoorzichtig token. Geef de waarde door als het continuation_token trefwoordargument om de LRO opnieuw te starten vanuit een opgeslagen status.

display_name
str

Een optionele weergavenaam die moet worden ingesteld voor de aangevraagde analyse.

Retouren

Een exemplaar van een TextAnalysisLROPoller. Roep result() aan op dit object om een heterogene wisselbaar van AbstractiveSummaryResult en DocumentErrorte retourneren.

Retourtype

Uitzonderingen

Voorbeelden

Abstractieve samenvatting uitvoeren op een batch documenten.


   import os
   from azure.core.credentials import AzureKeyCredential
   from azure.ai.textanalytics import TextAnalyticsClient

   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   key = os.environ["AZURE_LANGUAGE_KEY"]

   text_analytics_client = TextAnalyticsClient(
       endpoint=endpoint,
       credential=AzureKeyCredential(key),
   )

   document = [
       "At Microsoft, we have been on a quest to advance AI beyond existing techniques, by taking a more holistic, "
       "human-centric approach to learning and understanding. As Chief Technology Officer of Azure AI Cognitive "
       "Services, I have been working with a team of amazing scientists and engineers to turn this quest into a "
       "reality. In my role, I enjoy a unique perspective in viewing the relationship among three attributes of "
       "human cognition: monolingual text (X), audio or visual sensory signals, (Y) and multilingual (Z). At the "
       "intersection of all three, there's magic-what we call XYZ-code as illustrated in Figure 1-a joint "
       "representation to create more powerful AI that can speak, hear, see, and understand humans better. "
       "We believe XYZ-code will enable us to fulfill our long-term vision: cross-domain transfer learning, "
       "spanning modalities and languages. The goal is to have pretrained models that can jointly learn "
       "representations to support a broad range of downstream AI tasks, much in the way humans do today. "
       "Over the past five years, we have achieved human performance on benchmarks in conversational speech "
       "recognition, machine translation, conversational question answering, machine reading comprehension, "
       "and image captioning. These five breakthroughs provided us with strong signals toward our more ambitious "
       "aspiration to produce a leap in AI capabilities, achieving multisensory and multilingual learning that "
       "is closer in line with how humans learn and understand. I believe the joint XYZ-code is a foundational "
       "component of this aspiration, if grounded with external knowledge sources in the downstream AI tasks."
   ]

   poller = text_analytics_client.begin_abstract_summary(document)
   abstract_summary_results = poller.result()
   for result in abstract_summary_results:
       if result.kind == "AbstractiveSummarization":
           print("Summaries abstracted:")
           [print(f"{summary.text}\n") for summary in result.summaries]
       elif result.is_error is True:
           print("...Is an error with code '{}' and message '{}'".format(
               result.error.code, result.error.message
           ))

begin_analyze_actions

Start een langdurige bewerking om verschillende tekstanalyseacties uit te voeren voor een batch documenten.

We raden u aan deze functie te gebruiken als u grotere documenten wilt analyseren en/of meerdere tekstanalyseacties wilt combineren in één aanroep. Anders raden we u aan de actiespecifieke eindpunten te gebruiken, bijvoorbeeld analyze_sentiment.

Notitie

Zie de servicedocumentatie voor regionale ondersteuning van functies voor aangepaste acties:

https://aka.ms/azsdk/textanalytics/customfunctionalities

Nieuw in versie v3.1: de clientmethode begin_analyze_actions .

Nieuw in versie 2022-05-01: de invoeropties RecognizeCustomEntitiesAction, SingleLabelClassifyAction, MultiLabelClassifyAction en AnalyzeHealthcareEntitiesAction en de bijbehorende resultaatobjecten RecognizeCustomEntitiesResult, ClassifyDocumentResult en AnalyzeHealthcareEntitiesResult

Nieuw in versie 2023-04-01: de invoeropties ExtractiveSummaryAction en AbstractiveSummaryAction en de bijbehorende resultaatobjecten ExtractiveSummaryResult en AbstractiveSummaryResult .

begin_analyze_actions(documents: List[str] | List[TextDocumentInput] | List[Dict[str, str]], actions: List[RecognizeEntitiesAction | RecognizeLinkedEntitiesAction | RecognizePiiEntitiesAction | ExtractKeyPhrasesAction | AnalyzeSentimentAction | RecognizeCustomEntitiesAction | SingleLabelClassifyAction | MultiLabelClassifyAction | AnalyzeHealthcareEntitiesAction | ExtractiveSummaryAction | AbstractiveSummaryAction], *, continuation_token: str | None = None, display_name: str | None = None, language: str | None = None, polling_interval: int | None = None, show_stats: bool | None = None, **kwargs: Any) -> TextAnalysisLROPoller[ItemPaged[List[RecognizeEntitiesResult | RecognizeLinkedEntitiesResult | RecognizePiiEntitiesResult | ExtractKeyPhrasesResult | AnalyzeSentimentResult | RecognizeCustomEntitiesResult | ClassifyDocumentResult | AnalyzeHealthcareEntitiesResult | ExtractiveSummaryResult | AbstractiveSummaryResult | DocumentError]]]

Parameters

documents
list[str] of list[TextDocumentInput] of list[dict[str, str]]
Vereist

De set documenten die moet worden verwerkt als onderdeel van deze batch. Als u de id en taal per item wilt opgeven, moet u als invoer een lijst[TextDocumentInput] of een lijst met dictweergaven van TextDocumentInputgebruiken, zoals {"id": "1", "language": "en", "text": "hello world"}.

actions
list[RecognizeEntitiesAction of RecognizePiiEntitiesAction of ExtractKeyPhrasesAction of RecognizeLinkedEntitiesAction of AnalyzeSentimentAction of RecognizeCustomEntitiesAction of SingleLabelClassifyAction of MultiLabelClassifyAction of AnalyzeHealthcareEntitiesAction of ExtractiveSummaryAction of AbstractiveSummaryAction]
Vereist

Een heterogene lijst met acties die moeten worden uitgevoerd op de invoerdocumenten. Elk actieobject bevat de parameters die worden gebruikt voor het specifieke actietype. De actieresultaten staan in dezelfde volgorde als de invoeracties.

display_name
str

Een optionele weergavenaam die moet worden ingesteld voor de aangevraagde analyse.

language
str

De ISO 639-1-weergave van de taal van 2 letters voor de hele batch. Gebruik bijvoorbeeld 'en' voor Engels; "es" voor Spaans enz. Als dit niet is ingesteld, wordt standaard 'en' voor Engels gebruikt. De taal per document heeft voorrang op de hele batchtaal. Zie https://aka.ms/talangs voor ondersteunde talen in Taal-API.

show_stats
bool

Als deze optie is ingesteld op true, bevat het antwoord statistieken op documentniveau.

polling_interval
int

Wachttijd tussen twee polls voor LRO-bewerkingen als er geen Retry-After header aanwezig is. De standaardwaarde is 5 seconden.

continuation_token
str

Roep continuation_token() aan op het poller-object om de LRO-status (Long-Running Operation) op te slaan in een ondoorzichtig token. Geef de waarde door als het continuation_token trefwoordargument om de LRO opnieuw te starten vanuit een opgeslagen status.

Retouren

Een exemplaar van een TextAnalysisLROPoller. Roep result() aan op het poller-object om een wisselbare heterogene lijst met lijsten te retourneren. Deze lijst met lijsten wordt eerst geordend op de documenten die u invoert en vervolgens geordend op de acties die u invoert. Als u bijvoorbeeld documenten invoert ["Hallo", "wereld"] en acties RecognizeEntitiesAction en AnalyzeSentimentAction, wanneer u de lijst met lijsten herhaalt, herhaalt u eerst de actieresultaten voor het 'Hallo'-document, krijgt u de RecognizeEntitiesResult van 'Hallo' en vervolgens de AnalyzeSentimentResult van 'Hallo'. Dan krijg je de RecognizeEntitiesResult en AnalyzeSentimentResult van "wereld".

Retourtype

Uitzonderingen

Voorbeelden

Start een langdurige bewerking om verschillende tekstanalyseacties uit te voeren voor een batch documenten.


   import os
   from azure.core.credentials import AzureKeyCredential
   from azure.ai.textanalytics import (
       TextAnalyticsClient,
       RecognizeEntitiesAction,
       RecognizeLinkedEntitiesAction,
       RecognizePiiEntitiesAction,
       ExtractKeyPhrasesAction,
       AnalyzeSentimentAction,
   )

   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   key = os.environ["AZURE_LANGUAGE_KEY"]

   text_analytics_client = TextAnalyticsClient(
       endpoint=endpoint,
       credential=AzureKeyCredential(key),
   )

   documents = [
       'We went to Contoso Steakhouse located at midtown NYC last week for a dinner party, and we adore the spot! '
       'They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) '
       'and he is super nice, coming out of the kitchen and greeted us all.'
       ,

       'We enjoyed very much dining in the place! '
       'The Sirloin steak I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their '
       'online menu at www.contososteakhouse.com, call 312-555-0176 or send email to order@contososteakhouse.com! '
       'The only complaint I have is the food didn\'t come fast enough. Overall I highly recommend it!'
   ]

   poller = text_analytics_client.begin_analyze_actions(
       documents,
       display_name="Sample Text Analysis",
       actions=[
           RecognizeEntitiesAction(),
           RecognizePiiEntitiesAction(),
           ExtractKeyPhrasesAction(),
           RecognizeLinkedEntitiesAction(),
           AnalyzeSentimentAction(),
       ],
   )

   document_results = poller.result()
   for doc, action_results in zip(documents, document_results):
       print(f"\nDocument text: {doc}")
       for result in action_results:
           if result.kind == "EntityRecognition":
               print("...Results of Recognize Entities Action:")
               for entity in result.entities:
                   print(f"......Entity: {entity.text}")
                   print(f".........Category: {entity.category}")
                   print(f".........Confidence Score: {entity.confidence_score}")
                   print(f".........Offset: {entity.offset}")

           elif result.kind == "PiiEntityRecognition":
               print("...Results of Recognize PII Entities action:")
               for pii_entity in result.entities:
                   print(f"......Entity: {pii_entity.text}")
                   print(f".........Category: {pii_entity.category}")
                   print(f".........Confidence Score: {pii_entity.confidence_score}")

           elif result.kind == "KeyPhraseExtraction":
               print("...Results of Extract Key Phrases action:")
               print(f"......Key Phrases: {result.key_phrases}")

           elif result.kind == "EntityLinking":
               print("...Results of Recognize Linked Entities action:")
               for linked_entity in result.entities:
                   print(f"......Entity name: {linked_entity.name}")
                   print(f".........Data source: {linked_entity.data_source}")
                   print(f".........Data source language: {linked_entity.language}")
                   print(
                       f".........Data source entity ID: {linked_entity.data_source_entity_id}"
                   )
                   print(f".........Data source URL: {linked_entity.url}")
                   print(".........Document matches:")
                   for match in linked_entity.matches:
                       print(f"............Match text: {match.text}")
                       print(f"............Confidence Score: {match.confidence_score}")
                       print(f"............Offset: {match.offset}")
                       print(f"............Length: {match.length}")

           elif result.kind == "SentimentAnalysis":
               print("...Results of Analyze Sentiment action:")
               print(f"......Overall sentiment: {result.sentiment}")
               print(
                   f"......Scores: positive={result.confidence_scores.positive}; \
                   neutral={result.confidence_scores.neutral}; \
                   negative={result.confidence_scores.negative} \n"
               )

           elif result.is_error is True:
               print(
                   f"...Is an error with code '{result.error.code}' and message '{result.error.message}'"
               )

       print("------------------------------------------")


begin_analyze_healthcare_entities

Zorgentiteiten analyseren en relaties tussen deze entiteiten identificeren in een batch documenten.

Entiteiten zijn gekoppeld aan verwijzingen die kunnen worden gevonden in bestaande knowledge bases, zoals UMLS, CHV, MSH, enzovoort.

We extraheren ook de relaties tussen entiteiten, bijvoorbeeld in "Het onderwerp nam 100 mg ibuprofen", we zouden de relatie tussen de dosering "100 mg" en de "ibuprofen" medicatie extraheren.

Nieuw in versie v3.1: de clientmethode begin_analyze_healthcare_entities .

Nieuw in versie 2022-05-01: Het sleutelwoordargument display_name .

begin_analyze_healthcare_entities(documents: List[str] | List[TextDocumentInput] | List[Dict[str, str]], *, continuation_token: str | None = None, disable_service_logs: bool | None = None, display_name: str | None = None, language: str | None = None, model_version: str | None = None, polling_interval: int | None = None, show_stats: bool | None = None, string_index_type: str | None = None, **kwargs: Any) -> AnalyzeHealthcareEntitiesLROPoller[ItemPaged[AnalyzeHealthcareEntitiesResult | DocumentError]]

Parameters

documents
list[str] of list[TextDocumentInput] of list[dict[str, str]]
Vereist

De set documenten die moeten worden verwerkt als onderdeel van deze batch. Als u de id en taal per item wilt opgeven, moet u als invoer een lijst[TextDocumentInput] of een lijst met dictweergaven van TextDocumentInputgebruiken, zoals {"id": "1", "language": "en", "text": "hello world"}.

model_version
str

De modelversie die moet worden gebruikt voor de analyse, bijvoorbeeld 'nieuwste'. Als er geen modelversie is opgegeven, wordt de API standaard ingesteld op de meest recente, niet-preview-versie. Kijk hier voor meer informatie: https://aka.ms/text-analytics-model-versioning

show_stats
bool

Als dit is ingesteld op true, bevat het antwoord statistieken op documentniveau.

language
str

De 2-letter ISO 639-1-weergave van de taal voor de hele batch. Gebruik bijvoorbeeld 'en' voor Engels; "es" voor Spaans enz. Als dit niet is ingesteld, wordt standaard 'en' voor Engels gebruikt. De taal per document heeft voorrang op de hele batchtaal. Zie https://aka.ms/talangs voor ondersteunde talen in Taal-API.

display_name
str

Een optionele weergavenaam die moet worden ingesteld voor de aangevraagde analyse.

string_index_type
str

Hiermee geeft u de methode op die wordt gebruikt voor het interpreteren van tekenreeks offsets. UnicodeCodePoint, de Python-codering, is de standaardinstelling. Als u de standaardinstelling van Python wilt overschrijven, kunt u ook Utf16CodeUnit of TextElement_v8 doorgeven. Zie voor meer informatie https://aka.ms/text-analytics-offsets

polling_interval
int

Wachttijd tussen twee polls voor LRO-bewerkingen als er geen Retry-After header aanwezig is. De standaardwaarde is 5 seconden.

continuation_token
str

Roep continuation_token() aan op het poller-object om de LRO-status (Long-Running Operation) op te slaan in een ondoorzichtig token. Geef de waarde door als het continuation_token sleutelwoordargument om de LRO opnieuw te starten vanuit een opgeslagen status.

disable_service_logs
bool

De standaardinstelling is true, wat betekent dat de Taalservice uw invoertekst aan de servicezijde niet in een logboek opspoort voor probleemoplossing. Als deze optie is ingesteld op Onwaar, registreert de Taalservice uw invoertekst gedurende 48 uur, uitsluitend om het mogelijk te maken problemen op te lossen bij het bieden van de verwerkingsfuncties in natuurlijke taal van de service. Zie De compliance- en privacyopmerkingen van Cognitive Services op https://aka.ms/cs-compliance voor meer informatie en verantwoordelijke AI-principes van Microsoft op https://www.microsoft.com/ai/responsible-ai.

Retouren

Een exemplaar van een AnalyzeHealthcareEntitiesLROPoller. Roep result() aan op dit object om een heterogene wisselbaar van AnalyzeHealthcareEntitiesResult en DocumentErrorte retourneren.

Retourtype

Uitzonderingen

Voorbeelden

Zorgentiteiten herkennen in een batch documenten.


   import os
   import typing
   from azure.core.credentials import AzureKeyCredential
   from azure.ai.textanalytics import TextAnalyticsClient, HealthcareEntityRelation

   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   key = os.environ["AZURE_LANGUAGE_KEY"]

   text_analytics_client = TextAnalyticsClient(
       endpoint=endpoint,
       credential=AzureKeyCredential(key),
   )

   documents = [
       """
       Patient needs to take 100 mg of ibuprofen, and 3 mg of potassium. Also needs to take
       10 mg of Zocor.
       """,
       """
       Patient needs to take 50 mg of ibuprofen, and 2 mg of Coumadin.
       """
   ]

   poller = text_analytics_client.begin_analyze_healthcare_entities(documents)
   result = poller.result()

   docs = [doc for doc in result if not doc.is_error]

   print("Let's first visualize the outputted healthcare result:")
   for doc in docs:
       for entity in doc.entities:
           print(f"Entity: {entity.text}")
           print(f"...Normalized Text: {entity.normalized_text}")
           print(f"...Category: {entity.category}")
           print(f"...Subcategory: {entity.subcategory}")
           print(f"...Offset: {entity.offset}")
           print(f"...Confidence score: {entity.confidence_score}")
           if entity.data_sources is not None:
               print("...Data Sources:")
               for data_source in entity.data_sources:
                   print(f"......Entity ID: {data_source.entity_id}")
                   print(f"......Name: {data_source.name}")
           if entity.assertion is not None:
               print("...Assertion:")
               print(f"......Conditionality: {entity.assertion.conditionality}")
               print(f"......Certainty: {entity.assertion.certainty}")
               print(f"......Association: {entity.assertion.association}")
       for relation in doc.entity_relations:
           print(f"Relation of type: {relation.relation_type} has the following roles")
           for role in relation.roles:
               print(f"...Role '{role.name}' with entity '{role.entity.text}'")
       print("------------------------------------------")

   print("Now, let's get all of medication dosage relations from the documents")
   dosage_of_medication_relations = [
       entity_relation
       for doc in docs
       for entity_relation in doc.entity_relations if entity_relation.relation_type == HealthcareEntityRelation.DOSAGE_OF_MEDICATION
   ]

begin_extract_summary

Start een langdurige extractieve samenvattingsbewerking.

Zie de servicedocumentatie voor een conceptuele bespreking van extractieve samenvatting: https://learn.microsoft.com/azure/cognitive-services/language-service/summarization/overview

Nieuw in versie 2023-04-01: De clientmethode begin_extract_summary .

begin_extract_summary(documents: List[str] | List[TextDocumentInput] | List[Dict[str, str]], *, continuation_token: str | None = None, disable_service_logs: bool | None = None, display_name: str | None = None, language: str | None = None, polling_interval: int | None = None, show_stats: bool | None = None, model_version: str | None = None, string_index_type: str | None = None, max_sentence_count: int | None = None, order_by: Literal['Rank', 'Offset'] | None = None, **kwargs: Any) -> TextAnalysisLROPoller[ItemPaged[ExtractiveSummaryResult | DocumentError]]

Parameters

documents
list[str] of list[TextDocumentInput] of list[dict[str, str]]
Vereist

De set documenten die moeten worden verwerkt als onderdeel van deze batch. Als u de id en taal per item wilt opgeven, moet u als invoer een lijst[TextDocumentInput] of een lijst met dictweergaven van TextDocumentInputgebruiken, zoals {"id": "1", "language": "en", "text": "hello world"}.

language
str

De 2-letter ISO 639-1-weergave van de taal voor de hele batch. Gebruik bijvoorbeeld 'en' voor Engels; "es" voor Spaans enz. Als dit niet is ingesteld, wordt standaard 'en' voor Engels gebruikt. De taal per document heeft voorrang op de hele batchtaal. Zie https://aka.ms/talangs voor ondersteunde talen in Taal-API.

show_stats
bool

Als dit is ingesteld op true, bevat het antwoord statistieken op documentniveau.

max_sentence_count
Optional[int]

Maximum aantal terug te keren zinnen. Standaardwaarde is 3.

order_by
Optional[str]

Mogelijke waarden zijn: 'Offset', 'Rank'. Standaardwaarde: 'Offset'.

model_version
Optional[str]

De modelversie die moet worden gebruikt voor de analyse, bijvoorbeeld 'nieuwste'. Als er geen modelversie is opgegeven, wordt de API standaard ingesteld op de meest recente, niet-preview-versie. Kijk hier voor meer informatie: https://aka.ms/text-analytics-model-versioning

string_index_type
Optional[str]

Hiermee geeft u de methode op die wordt gebruikt voor het interpreteren van tekenreeks offsets.

disable_service_logs
bool

Als deze optie is ingesteld op true, kunt u ervoor kiezen om uw tekstinvoer niet aan de servicezijde te laten registreren voor het oplossen van problemen. Standaard registreert de Taalservice uw invoertekst gedurende 48 uur, uitsluitend om problemen op te lossen bij het bieden van de verwerkingsfuncties voor natuurlijke taal van de service. Als u deze parameter instelt op true, schakelt u invoerlogboekregistratie uit en beperkt u mogelijk de mogelijkheid om problemen op te lossen die zich voordoen. Zie De compliance- en privacyopmerkingen van Cognitive Services op https://aka.ms/cs-compliance voor meer informatie en verantwoordelijke AI-principes van Microsoft op https://www.microsoft.com/ai/responsible-ai.

polling_interval
int

Wachttijd tussen twee polls voor LRO-bewerkingen als er geen Retry-After header aanwezig is. De standaardwaarde is 5 seconden.

continuation_token
str

Roep continuation_token() aan op het poller-object om de LRO-status (Long-Running Operation) op te slaan in een ondoorzichtig token. Geef de waarde door als het continuation_token sleutelwoordargument om de LRO opnieuw te starten vanuit een opgeslagen status.

display_name
str

Een optionele weergavenaam die moet worden ingesteld voor de aangevraagde analyse.

Retouren

Een exemplaar van een TextAnalysisLROPoller. Roep result() aan op dit object om een heterogene wisselbaar van ExtractiveSummaryResult en DocumentErrorte retourneren.

Retourtype

Uitzonderingen

Voorbeelden

Voer een extraherende samenvatting uit op een batch documenten.


   import os
   from azure.core.credentials import AzureKeyCredential
   from azure.ai.textanalytics import TextAnalyticsClient

   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   key = os.environ["AZURE_LANGUAGE_KEY"]

   text_analytics_client = TextAnalyticsClient(
       endpoint=endpoint,
       credential=AzureKeyCredential(key),
   )

   document = [
       "At Microsoft, we have been on a quest to advance AI beyond existing techniques, by taking a more holistic, "
       "human-centric approach to learning and understanding. As Chief Technology Officer of Azure AI Cognitive "
       "Services, I have been working with a team of amazing scientists and engineers to turn this quest into a "
       "reality. In my role, I enjoy a unique perspective in viewing the relationship among three attributes of "
       "human cognition: monolingual text (X), audio or visual sensory signals, (Y) and multilingual (Z). At the "
       "intersection of all three, there's magic-what we call XYZ-code as illustrated in Figure 1-a joint "
       "representation to create more powerful AI that can speak, hear, see, and understand humans better. "
       "We believe XYZ-code will enable us to fulfill our long-term vision: cross-domain transfer learning, "
       "spanning modalities and languages. The goal is to have pretrained models that can jointly learn "
       "representations to support a broad range of downstream AI tasks, much in the way humans do today. "
       "Over the past five years, we have achieved human performance on benchmarks in conversational speech "
       "recognition, machine translation, conversational question answering, machine reading comprehension, "
       "and image captioning. These five breakthroughs provided us with strong signals toward our more ambitious "
       "aspiration to produce a leap in AI capabilities, achieving multisensory and multilingual learning that "
       "is closer in line with how humans learn and understand. I believe the joint XYZ-code is a foundational "
       "component of this aspiration, if grounded with external knowledge sources in the downstream AI tasks."
   ]

   poller = text_analytics_client.begin_extract_summary(document)
   extract_summary_results = poller.result()
   for result in extract_summary_results:
       if result.kind == "ExtractiveSummarization":
           print("Summary extracted: \n{}".format(
               " ".join([sentence.text for sentence in result.sentences]))
           )
       elif result.is_error is True:
           print("...Is an error with code '{}' and message '{}'".format(
               result.error.code, result.error.message
           ))

begin_multi_label_classify

Start een langdurige aangepaste classificatiebewerking voor meerdere labels.

Zie voor meer informatie over regionale ondersteuning van aangepaste functies en het trainen van een model om uw documenten te classificeren https://aka.ms/azsdk/textanalytics/customfunctionalities

Nieuw in versie 2022-05-01: De begin_multi_label_classify-clientmethode .

begin_multi_label_classify(documents: List[str] | List[TextDocumentInput] | List[Dict[str, str]], project_name: str, deployment_name: str, *, continuation_token: str | None = None, disable_service_logs: bool | None = None, display_name: str | None = None, language: str | None = None, polling_interval: int | None = None, show_stats: bool | None = None, **kwargs: Any) -> TextAnalysisLROPoller[ItemPaged[ClassifyDocumentResult | DocumentError]]

Parameters

documents
list[str] of list[TextDocumentInput] of list[dict[str, str]]
Vereist

De set documenten die moeten worden verwerkt als onderdeel van deze batch. Als u de id en taal per item wilt opgeven, moet u als invoer een lijst[TextDocumentInput] of een lijst met dictweergaven van TextDocumentInputgebruiken, zoals {"id": "1", "language": "en", "text": "hello world"}.

project_name
str
Vereist

Vereist. Dit veld geeft de projectnaam voor het model aan.

deployment_name
str
Vereist

Dit veld geeft de implementatienaam voor het model aan.

language
str

De 2-letter ISO 639-1-weergave van de taal voor de hele batch. Gebruik bijvoorbeeld 'en' voor Engels; "es" voor Spaans enz. Als dit niet is ingesteld, wordt standaard 'en' voor Engels gebruikt. De taal per document heeft voorrang op de hele batchtaal. Zie https://aka.ms/talangs voor ondersteunde talen in Taal-API.

show_stats
bool

Als dit is ingesteld op true, bevat het antwoord statistieken op documentniveau.

disable_service_logs
bool

Als deze optie is ingesteld op true, kunt u ervoor kiezen om uw tekstinvoer niet aan de servicezijde te laten registreren voor het oplossen van problemen. Standaard registreert de Taalservice uw invoertekst gedurende 48 uur, uitsluitend om problemen op te lossen bij het bieden van de verwerkingsfuncties voor natuurlijke taal van de service. Als u deze parameter instelt op true, schakelt u invoerlogboekregistratie uit en beperkt u mogelijk de mogelijkheid om problemen op te lossen die zich voordoen. Zie De compliance- en privacyopmerkingen van Cognitive Services op https://aka.ms/cs-compliance voor meer informatie en verantwoordelijke AI-principes van Microsoft op https://www.microsoft.com/ai/responsible-ai.

polling_interval
int

Wachttijd tussen twee polls voor LRO-bewerkingen als er geen Retry-After header aanwezig is. De standaardwaarde is 5 seconden.

continuation_token
str

Roep continuation_token() aan op het poller-object om de LRO-status (Long-Running Operation) op te slaan in een ondoorzichtig token. Geef de waarde door als het continuation_token sleutelwoordargument om de LRO opnieuw te starten vanuit een opgeslagen status.

display_name
str

Een optionele weergavenaam die moet worden ingesteld voor de aangevraagde analyse.

Retouren

Een exemplaar van een TextAnalysisLROPoller. Roep result() aan op dit object om een heterogene wisselbaar van ClassifyDocumentResult en DocumentErrorte retourneren.

Retourtype

Uitzonderingen

Voorbeelden

Classificatie van meerdere labels uitvoeren op een batch documenten.


   import os
   from azure.core.credentials import AzureKeyCredential
   from azure.ai.textanalytics import TextAnalyticsClient

   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   key = os.environ["AZURE_LANGUAGE_KEY"]
   project_name = os.environ["MULTI_LABEL_CLASSIFY_PROJECT_NAME"]
   deployment_name = os.environ["MULTI_LABEL_CLASSIFY_DEPLOYMENT_NAME"]
   path_to_sample_document = os.path.abspath(
       os.path.join(
           os.path.abspath(__file__),
           "..",
           "./text_samples/custom_classify_sample.txt",
       )
   )

   text_analytics_client = TextAnalyticsClient(
       endpoint=endpoint,
       credential=AzureKeyCredential(key),
   )

   with open(path_to_sample_document) as fd:
       document = [fd.read()]

   poller = text_analytics_client.begin_multi_label_classify(
       document,
       project_name=project_name,
       deployment_name=deployment_name
   )

   document_results = poller.result()
   for doc, classification_result in zip(document, document_results):
       if classification_result.kind == "CustomDocumentClassification":
           classifications = classification_result.classifications
           print(f"\nThe movie plot '{doc}' was classified as the following genres:\n")
           for classification in classifications:
               print("'{}' with confidence score {}.".format(
                   classification.category, classification.confidence_score
               ))
       elif classification_result.is_error is True:
           print("Movie plot '{}' has an error with code '{}' and message '{}'".format(
               doc, classification_result.error.code, classification_result.error.message
           ))

begin_recognize_custom_entities

Start een langlopende bewerking voor het herkennen van een aangepaste benoemde entiteit.

Zie voor informatie over regionale ondersteuning van aangepaste functies en het trainen van een model om aangepaste entiteiten te herkennen https://aka.ms/azsdk/textanalytics/customentityrecognition

Nieuw in versie 2022-05-01: De begin_recognize_custom_entities-clientmethode .

begin_recognize_custom_entities(documents: List[str] | List[TextDocumentInput] | List[Dict[str, str]], project_name: str, deployment_name: str, *, continuation_token: str | None = None, disable_service_logs: bool | None = None, display_name: str | None = None, language: str | None = None, polling_interval: int | None = None, show_stats: bool | None = None, string_index_type: str | None = None, **kwargs: Any) -> TextAnalysisLROPoller[ItemPaged[RecognizeCustomEntitiesResult | DocumentError]]

Parameters

documents
list[str] of list[TextDocumentInput] of list[dict[str, str]]
Vereist

De set documenten die moeten worden verwerkt als onderdeel van deze batch. Als u de id en taal per item wilt opgeven, moet u als invoer een lijst[TextDocumentInput] of een lijst met dictweergaven van TextDocumentInputgebruiken, zoals {"id": "1", "language": "en", "text": "hello world"}.

project_name
str
Vereist

Vereist. Dit veld geeft de projectnaam voor het model aan.

deployment_name
str
Vereist

Dit veld geeft de implementatienaam voor het model aan.

language
str

De 2-letter ISO 639-1-weergave van de taal voor de hele batch. Gebruik bijvoorbeeld 'en' voor Engels; "es" voor Spaans enz. Als dit niet is ingesteld, wordt standaard 'en' voor Engels gebruikt. De taal per document heeft voorrang op de hele batchtaal. Zie https://aka.ms/talangs voor ondersteunde talen in Taal-API.

show_stats
bool

Als dit is ingesteld op true, bevat het antwoord statistieken op documentniveau.

disable_service_logs
bool

Als deze optie is ingesteld op true, kunt u zich afmelden voor het aanmelden van uw tekstinvoer aan de servicezijde voor het oplossen van problemen. Standaard registreert de taalservice uw invoertekst gedurende 48 uur, alleen om problemen op te lossen bij het bieden van de verwerkingsfuncties voor natuurlijke taal van de service. Als u deze parameter instelt op true, wordt invoerlogboekregistratie uitgeschakeld en kunnen problemen die optreden, worden beperkt. Zie Compliance- en privacyopmerkingen voor Cognitive Services op https://aka.ms/cs-compliance voor meer informatie en Microsoft Responsible AI-principes op https://www.microsoft.com/ai/responsible-ai.

string_index_type
str

Hiermee geeft u de methode die wordt gebruikt voor het interpreteren van tekenreeks offsets. UnicodeCodePoint, de Python-codering, is de standaardinstelling. Als u de python-standaardinstelling wilt overschrijven, kunt u ook Utf16CodeUnit of TextElement_v8 doorgeven. Zie voor meer informatie https://aka.ms/text-analytics-offsets

polling_interval
int

Wachttijd tussen twee polls voor LRO-bewerkingen als er geen Retry-After header aanwezig is. De standaardwaarde is 5 seconden.

continuation_token
str

Roep continuation_token() aan op het poller-object om de LRO-status (Long-Running Operation) op te slaan in een ondoorzichtig token. Geef de waarde door als het continuation_token trefwoordargument om de LRO opnieuw te starten vanuit een opgeslagen status.

display_name
str

Een optionele weergavenaam die moet worden ingesteld voor de aangevraagde analyse.

Retouren

Een exemplaar van een TextAnalysisLROPoller. Roep result() aan op dit object om een heterogene wisselbaar van RecognizeCustomEntitiesResult en DocumentErrorte retourneren.

Retourtype

Uitzonderingen

Voorbeelden

Aangepaste entiteiten herkennen in een batch documenten.


   import os
   from azure.core.credentials import AzureKeyCredential
   from azure.ai.textanalytics import TextAnalyticsClient

   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   key = os.environ["AZURE_LANGUAGE_KEY"]
   project_name = os.environ["CUSTOM_ENTITIES_PROJECT_NAME"]
   deployment_name = os.environ["CUSTOM_ENTITIES_DEPLOYMENT_NAME"]
   path_to_sample_document = os.path.abspath(
       os.path.join(
           os.path.abspath(__file__),
           "..",
           "./text_samples/custom_entities_sample.txt",
       )
   )

   text_analytics_client = TextAnalyticsClient(
       endpoint=endpoint,
       credential=AzureKeyCredential(key),
   )

   with open(path_to_sample_document) as fd:
       document = [fd.read()]

   poller = text_analytics_client.begin_recognize_custom_entities(
       document,
       project_name=project_name,
       deployment_name=deployment_name
   )

   document_results = poller.result()
   for custom_entities_result in document_results:
       if custom_entities_result.kind == "CustomEntityRecognition":
           for entity in custom_entities_result.entities:
               print(
                   "Entity '{}' has category '{}' with confidence score of '{}'".format(
                       entity.text, entity.category, entity.confidence_score
                   )
               )
       elif custom_entities_result.is_error is True:
           print("...Is an error with code '{}' and message '{}'".format(
               custom_entities_result.error.code, custom_entities_result.error.message
               )
           )

begin_single_label_classify

Een langdurige classificatiebewerking voor aangepaste labels met één label starten.

Zie voor informatie over regionale ondersteuning van aangepaste functies en het trainen van een model om uw documenten te classificeren https://aka.ms/azsdk/textanalytics/customfunctionalities

Nieuw in versie 2022-05-01: De begin_single_label_classify-clientmethode .

begin_single_label_classify(documents: List[str] | List[TextDocumentInput] | List[Dict[str, str]], project_name: str, deployment_name: str, *, continuation_token: str | None = None, disable_service_logs: bool | None = None, display_name: str | None = None, language: str | None = None, polling_interval: int | None = None, show_stats: bool | None = None, **kwargs: Any) -> TextAnalysisLROPoller[ItemPaged[ClassifyDocumentResult | DocumentError]]

Parameters

documents
list[str] of list[TextDocumentInput] of list[dict[str, str]]
Vereist

De set documenten die moet worden verwerkt als onderdeel van deze batch. Als u de id en taal per item wilt opgeven, moet u als invoer een lijst[TextDocumentInput] of een lijst met dictweergaven van TextDocumentInputgebruiken, zoals {"id": "1", "language": "en", "text": "hello world"}.

project_name
str
Vereist

Vereist. Dit veld geeft de projectnaam voor het model aan.

deployment_name
str
Vereist

Dit veld geeft de implementatienaam voor het model aan.

language
str

De ISO 639-1-weergave van de taal van 2 letters voor de hele batch. Gebruik bijvoorbeeld 'en' voor Engels; "es" voor Spaans enz. Als dit niet is ingesteld, wordt standaard 'en' voor Engels gebruikt. De taal per document heeft voorrang op de hele batchtaal. Zie https://aka.ms/talangs voor ondersteunde talen in Taal-API.

show_stats
bool

Als deze optie is ingesteld op true, bevat het antwoord statistieken op documentniveau.

disable_service_logs
bool

Als deze optie is ingesteld op true, kunt u zich afmelden voor het aanmelden van uw tekstinvoer aan de servicezijde voor het oplossen van problemen. Standaard registreert de taalservice uw invoertekst gedurende 48 uur, alleen om problemen op te lossen bij het bieden van de verwerkingsfuncties voor natuurlijke taal van de service. Als u deze parameter instelt op true, wordt invoerlogboekregistratie uitgeschakeld en kunnen problemen die optreden, worden beperkt. Zie Compliance- en privacyopmerkingen voor Cognitive Services op https://aka.ms/cs-compliance voor meer informatie en Microsoft Responsible AI-principes op https://www.microsoft.com/ai/responsible-ai.

polling_interval
int

Wachttijd tussen twee polls voor LRO-bewerkingen als er geen Retry-After header aanwezig is. De standaardwaarde is 5 seconden.

continuation_token
str

Roep continuation_token() aan op het poller-object om de LRO-status (Long-Running Operation) op te slaan in een ondoorzichtig token. Geef de waarde door als het continuation_token trefwoordargument om de LRO opnieuw te starten vanuit een opgeslagen status.

display_name
str

Een optionele weergavenaam die moet worden ingesteld voor de aangevraagde analyse.

Retouren

Een exemplaar van een TextAnalysisLROPoller. Roep result() aan op dit object om een heterogene wisselbaar van ClassifyDocumentResult en DocumentErrorte retourneren.

Retourtype

Uitzonderingen

Voorbeelden

Een enkele labelclassificatie uitvoeren op een batch documenten.


   import os
   from azure.core.credentials import AzureKeyCredential
   from azure.ai.textanalytics import TextAnalyticsClient

   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   key = os.environ["AZURE_LANGUAGE_KEY"]
   project_name = os.environ["SINGLE_LABEL_CLASSIFY_PROJECT_NAME"]
   deployment_name = os.environ["SINGLE_LABEL_CLASSIFY_DEPLOYMENT_NAME"]
   path_to_sample_document = os.path.abspath(
       os.path.join(
           os.path.abspath(__file__),
           "..",
           "./text_samples/custom_classify_sample.txt",
       )
   )

   text_analytics_client = TextAnalyticsClient(
       endpoint=endpoint,
       credential=AzureKeyCredential(key),
   )

   with open(path_to_sample_document) as fd:
       document = [fd.read()]

   poller = text_analytics_client.begin_single_label_classify(
       document,
       project_name=project_name,
       deployment_name=deployment_name
   )

   document_results = poller.result()
   for doc, classification_result in zip(document, document_results):
       if classification_result.kind == "CustomDocumentClassification":
           classification = classification_result.classifications[0]
           print("The document text '{}' was classified as '{}' with confidence score {}.".format(
               doc, classification.category, classification.confidence_score)
           )
       elif classification_result.is_error is True:
           print("Document text '{}' has an error with code '{}' and message '{}'".format(
               doc, classification_result.error.code, classification_result.error.message
           ))

close

Sluit sockets die door de client zijn geopend. Het aanroepen van deze methode is niet nodig wanneer u de client als contextbeheerder gebruikt.

close() -> None

Uitzonderingen

detect_language

Taal voor een batch documenten detecteren.

Retourneert de gedetecteerde taal en een numerieke score tussen nul en één. Scores dicht bij één geven 100% zekerheid aan dat de geïdentificeerde taal waar is. Zie https://aka.ms/talangs voor de lijst met ingeschakelde talen.

Zie https://aka.ms/azsdk/textanalytics/data-limits voor servicegegevenslimieten.

Nieuw in versie v3.1: het trefwoordargument disable_service_logs .

detect_language(documents: List[str] | List[DetectLanguageInput] | List[Dict[str, str]], *, country_hint: str | None = None, disable_service_logs: bool | None = None, model_version: str | None = None, show_stats: bool | None = None, **kwargs: Any) -> List[DetectLanguageResult | DocumentError]

Parameters

documents
list[str] of list[DetectLanguageInput] of list[dict[str, str]]
Vereist

De set documenten die moet worden verwerkt als onderdeel van deze batch. Als u de id en country_hint per item wilt opgeven, moet u als invoer een lijst[DetectLanguageInput] of een lijst met dictweergaven van DetectLanguageInputgebruiken, zoals {"id": "1", "country_hint": "ons", "text": "hallo wereld"}.

country_hint
str

Hint voor het land van herkomst voor de hele batch. Accepteert landcodes van twee letters die zijn opgegeven door ISO 3166-1 alfa-2. Landhints per document hebben voorrang op hele batchhints. De standaardinstelling is 'US'. Als u geen landhint wilt gebruiken, geeft u de tekenreeks 'none' door.

model_version
str

De modelversie die moet worden gebruikt voor de analyse, bijvoorbeeld 'nieuwste'. Als er geen modelversie is opgegeven, wordt de API standaard ingesteld op de nieuwste, niet-preview-versie. Kijk hier voor meer informatie: https://aka.ms/text-analytics-model-versioning

show_stats
bool

Als deze optie is ingesteld op true, bevat het antwoord statistieken op documentniveau in het veld Statistieken van het antwoord op documentniveau.

disable_service_logs
bool

Als deze optie is ingesteld op true, kunt u zich afmelden voor het aanmelden van uw tekstinvoer aan de servicezijde voor het oplossen van problemen. Standaard registreert de taalservice uw invoertekst gedurende 48 uur, alleen om problemen op te lossen bij het bieden van de verwerkingsfuncties voor natuurlijke taal van de service. Als u deze parameter instelt op true, wordt invoerlogboekregistratie uitgeschakeld en kunnen problemen die optreden, worden beperkt. Zie Compliance- en privacyopmerkingen voor Cognitive Services op https://aka.ms/cs-compliance voor meer informatie en Microsoft Responsible AI-principes op https://www.microsoft.com/ai/responsible-ai.

Retouren

De gecombineerde lijst van DetectLanguageResult en DocumentError in de volgorde waarin de oorspronkelijke documenten zijn doorgegeven.

Retourtype

Uitzonderingen

Voorbeelden

Taal detecteren in een batch documenten.


   import os
   from azure.core.credentials import AzureKeyCredential
   from azure.ai.textanalytics import TextAnalyticsClient

   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   key = os.environ["AZURE_LANGUAGE_KEY"]

   text_analytics_client = TextAnalyticsClient(endpoint=endpoint, credential=AzureKeyCredential(key))
   documents = [
       """
       The concierge Paulette was extremely helpful. Sadly when we arrived the elevator was broken, but with Paulette's help we barely noticed this inconvenience.
       She arranged for our baggage to be brought up to our room with no extra charge and gave us a free meal to refurbish all of the calories we lost from
       walking up the stairs :). Can't say enough good things about my experience!
       """,
       """
       最近由于工作压力太大,我们决定去富酒店度假。那儿的温泉实在太舒服了,我跟我丈夫都完全恢复了工作前的青春精神!加油!
       """
   ]

   result = text_analytics_client.detect_language(documents)
   reviewed_docs = [doc for doc in result if not doc.is_error]

   print("Let's see what language each review is in!")

   for idx, doc in enumerate(reviewed_docs):
       print("Review #{} is in '{}', which has ISO639-1 name '{}'\n".format(
           idx, doc.primary_language.name, doc.primary_language.iso6391_name
       ))

extract_key_phrases

Sleuteltermen extraheren uit een batch documenten.

Retourneert een lijst met tekenreeksen die de sleuteltermen in de invoertekst aandukken. Voor de invoertekst 'Het eten was heerlijk en er was geweldig personeel', retourneert de API bijvoorbeeld de belangrijkste gesprekspunten: 'eten' en 'geweldig personeel'

Zie https://aka.ms/azsdk/textanalytics/data-limits voor servicegegevenslimieten.

Nieuw in versie v3.1: het trefwoordargument disable_service_logs .

extract_key_phrases(documents: List[str] | List[TextDocumentInput] | List[Dict[str, str]], *, disable_service_logs: bool | None = None, language: str | None = None, model_version: str | None = None, show_stats: bool | None = None, **kwargs: Any) -> List[ExtractKeyPhrasesResult | DocumentError]

Parameters

documents
list[str] of list[TextDocumentInput] of list[dict[str, str]]
Vereist

De set documenten die moet worden verwerkt als onderdeel van deze batch. Als u de id en taal per item wilt opgeven, moet u als invoer een lijst[TextDocumentInput] of een lijst met dictweergaven van TextDocumentInputgebruiken, zoals {"id": "1", "language": "en", "text": "hello world"}.

language
str

De ISO 639-1-weergave van de taal van 2 letters voor de hele batch. Gebruik bijvoorbeeld 'en' voor Engels; "es" voor Spaans enz. Als dit niet is ingesteld, wordt standaard 'en' voor Engels gebruikt. De taal per document heeft voorrang op de hele batchtaal. Zie https://aka.ms/talangs voor ondersteunde talen in Taal-API.

model_version
str

De modelversie die moet worden gebruikt voor de analyse, bijvoorbeeld 'nieuwste'. Als er geen modelversie is opgegeven, wordt de API standaard ingesteld op de nieuwste, niet-preview-versie. Kijk hier voor meer informatie: https://aka.ms/text-analytics-model-versioning

show_stats
bool

Als deze optie is ingesteld op true, bevat het antwoord statistieken op documentniveau in het veld Statistieken van het antwoord op documentniveau.

disable_service_logs
bool

Als deze optie is ingesteld op true, kunt u zich afmelden voor het aanmelden van uw tekstinvoer aan de servicezijde voor het oplossen van problemen. Standaard registreert de taalservice uw invoertekst gedurende 48 uur, alleen om problemen op te lossen bij het bieden van de verwerkingsfuncties voor natuurlijke taal van de service. Als u deze parameter instelt op true, wordt invoerlogboekregistratie uitgeschakeld en kunnen problemen die optreden, worden beperkt. Zie Compliance- en privacyopmerkingen voor Cognitive Services op https://aka.ms/cs-compliance voor meer informatie en Microsoft Responsible AI-principes op https://www.microsoft.com/ai/responsible-ai.

Retouren

De gecombineerde lijst van ExtractKeyPhrasesResult en DocumentError in de volgorde waarin de oorspronkelijke documenten zijn doorgegeven.

Retourtype

Uitzonderingen

Voorbeelden

Pak de sleuteltermen uit in een batch documenten.


   import os
   from azure.core.credentials import AzureKeyCredential
   from azure.ai.textanalytics import TextAnalyticsClient

   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   key = os.environ["AZURE_LANGUAGE_KEY"]

   text_analytics_client = TextAnalyticsClient(endpoint=endpoint, credential=AzureKeyCredential(key))
   articles = [
       """
       Washington, D.C. Autumn in DC is a uniquely beautiful season. The leaves fall from the trees
       in a city chock-full of forests, leaving yellow leaves on the ground and a clearer view of the
       blue sky above...
       """,
       """
       Redmond, WA. In the past few days, Microsoft has decided to further postpone the start date of
       its United States workers, due to the pandemic that rages with no end in sight...
       """,
       """
       Redmond, WA. Employees at Microsoft can be excited about the new coffee shop that will open on campus
       once workers no longer have to work remotely...
       """
   ]

   result = text_analytics_client.extract_key_phrases(articles)
   for idx, doc in enumerate(result):
       if not doc.is_error:
           print("Key phrases in article #{}: {}".format(
               idx + 1,
               ", ".join(doc.key_phrases)
           ))

recognize_entities

Entiteiten herkennen voor een batch documenten.

Identificeert en categoriseert entiteiten in uw tekst als personen, plaatsen, organisaties, datum/tijd, hoeveelheden, percentages, valuta's en meer. Voor de lijst met ondersteunde entiteitstypen controleert u: https://aka.ms/taner

Zie https://aka.ms/azsdk/textanalytics/data-limits voor servicegegevenslimieten.

Nieuw in versie v3.1: de disable_service_logs en string_index_type sleutelwoordargumenten.

recognize_entities(documents: List[str] | List[TextDocumentInput] | List[Dict[str, str]], *, disable_service_logs: bool | None = None, language: str | None = None, model_version: str | None = None, show_stats: bool | None = None, string_index_type: str | None = None, **kwargs: Any) -> List[RecognizeEntitiesResult | DocumentError]

Parameters

documents
list[str] of list[TextDocumentInput] of list[dict[str, str]]
Vereist

De set documenten die moet worden verwerkt als onderdeel van deze batch. Als u de id en taal per item wilt opgeven, moet u als invoer een lijst[TextDocumentInput] of een lijst met dictweergaven van TextDocumentInputgebruiken, zoals {"id": "1", "language": "en", "text": "hello world"}.

language
str

De ISO 639-1-weergave van de taal van 2 letters voor de hele batch. Gebruik bijvoorbeeld 'en' voor Engels; "es" voor Spaans enz. Als dit niet is ingesteld, wordt standaard 'en' voor Engels gebruikt. De taal per document heeft voorrang op de hele batchtaal. Zie https://aka.ms/talangs voor ondersteunde talen in Taal-API.

model_version
str

De modelversie die moet worden gebruikt voor de analyse, bijvoorbeeld 'nieuwste'. Als er geen modelversie is opgegeven, wordt de API standaard ingesteld op de nieuwste, niet-preview-versie. Kijk hier voor meer informatie: https://aka.ms/text-analytics-model-versioning

show_stats
bool

Als deze optie is ingesteld op true, bevat het antwoord statistieken op documentniveau in het veld Statistieken van het antwoord op documentniveau.

string_index_type
str

Hiermee geeft u de methode op die wordt gebruikt voor het interpreteren van tekenreeks offsets. UnicodeCodePoint, de Python-codering, is de standaardinstelling. Als u de standaardinstelling van Python wilt overschrijven, kunt u ook Utf16CodeUnit of TextElement_v8 doorgeven. Zie voor meer informatie https://aka.ms/text-analytics-offsets

disable_service_logs
bool

Als deze optie is ingesteld op true, kunt u ervoor kiezen om uw tekstinvoer niet aan de servicezijde te laten registreren voor het oplossen van problemen. Standaard registreert de Taalservice uw invoertekst gedurende 48 uur, uitsluitend om problemen op te lossen bij het bieden van de verwerkingsfuncties voor natuurlijke taal van de service. Als u deze parameter instelt op true, schakelt u invoerlogboekregistratie uit en beperkt u mogelijk de mogelijkheid om problemen op te lossen die zich voordoen. Zie De compliance- en privacyopmerkingen van Cognitive Services op https://aka.ms/cs-compliance voor meer informatie en verantwoordelijke AI-principes van Microsoft op https://www.microsoft.com/ai/responsible-ai.

Retouren

De gecombineerde lijst van RecognizeEntitiesResult en DocumentError in de volgorde waarin de oorspronkelijke documenten zijn doorgegeven.

Retourtype

Uitzonderingen

Voorbeelden

Entiteiten in een batch documenten herkennen.


   import os
   import typing
   from azure.core.credentials import AzureKeyCredential
   from azure.ai.textanalytics import TextAnalyticsClient

   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   key = os.environ["AZURE_LANGUAGE_KEY"]

   text_analytics_client = TextAnalyticsClient(endpoint=endpoint, credential=AzureKeyCredential(key))
   reviews = [
       """I work for Foo Company, and we hired Contoso for our annual founding ceremony. The food
       was amazing and we all can't say enough good words about the quality and the level of service.""",
       """We at the Foo Company re-hired Contoso after all of our past successes with the company.
       Though the food was still great, I feel there has been a quality drop since their last time
       catering for us. Is anyone else running into the same problem?""",
       """Bar Company is over the moon about the service we received from Contoso, the best sliders ever!!!!"""
   ]

   result = text_analytics_client.recognize_entities(reviews)
   result = [review for review in result if not review.is_error]
   organization_to_reviews: typing.Dict[str, typing.List[str]] = {}

   for idx, review in enumerate(result):
       for entity in review.entities:
           print(f"Entity '{entity.text}' has category '{entity.category}'")
           if entity.category == 'Organization':
               organization_to_reviews.setdefault(entity.text, [])
               organization_to_reviews[entity.text].append(reviews[idx])

   for organization, reviews in organization_to_reviews.items():
       print(
           "\n\nOrganization '{}' has left us the following review(s): {}".format(
               organization, "\n\n".join(reviews)
           )
       )

recognize_linked_entities

Gekoppelde entiteiten van een bekende Knowledge Base herkennen voor een batch documenten.

Identificeert en disambieert de identiteit van elke entiteit die in tekst wordt gevonden (bijvoorbeeld om te bepalen of het woord Mars verwijst naar de planeet of naar de Romeinse oorlogsgod). Herkende entiteiten zijn gekoppeld aan URL's naar een bekende Knowledge Base, zoals Wikipedia.

Zie https://aka.ms/azsdk/textanalytics/data-limits voor servicegegevenslimieten.

Nieuw in versie v3.1: de disable_service_logs en string_index_type sleutelwoordargumenten.

recognize_linked_entities(documents: List[str] | List[TextDocumentInput] | List[Dict[str, str]], *, disable_service_logs: bool | None = None, language: str | None = None, model_version: str | None = None, show_stats: bool | None = None, string_index_type: str | None = None, **kwargs: Any) -> List[RecognizeLinkedEntitiesResult | DocumentError]

Parameters

documents
list[str] of list[TextDocumentInput] of list[dict[str, str]]
Vereist

De set documenten die moeten worden verwerkt als onderdeel van deze batch. Als u de id en taal per item wilt opgeven, moet u als invoer een lijst[TextDocumentInput] of een lijst met dictweergaven van TextDocumentInputgebruiken, zoals {"id": "1", "language": "en", "text": "hello world"}.

language
str

De 2-letter ISO 639-1-weergave van de taal voor de hele batch. Gebruik bijvoorbeeld 'en' voor Engels; "es" voor Spaans enz. Als dit niet is ingesteld, wordt standaard 'en' voor Engels gebruikt. De taal per document heeft voorrang op de hele batchtaal. Zie https://aka.ms/talangs voor ondersteunde talen in Taal-API.

model_version
str

De modelversie die moet worden gebruikt voor de analyse, bijvoorbeeld 'nieuwste'. Als er geen modelversie is opgegeven, wordt de API standaard ingesteld op de meest recente, niet-preview-versie. Kijk hier voor meer informatie: https://aka.ms/text-analytics-model-versioning

show_stats
bool

Als dit is ingesteld op true, bevat antwoord statistieken op documentniveau in het veld Statistieken van het antwoord op documentniveau.

string_index_type
str

Hiermee geeft u de methode op die wordt gebruikt voor het interpreteren van tekenreeks offsets. UnicodeCodePoint, de Python-codering, is de standaardinstelling. Als u de standaardinstelling van Python wilt overschrijven, kunt u ook Utf16CodeUnit of TextElement_v8 doorgeven. Zie voor meer informatie https://aka.ms/text-analytics-offsets

disable_service_logs
bool

Als deze optie is ingesteld op true, kunt u ervoor kiezen om uw tekstinvoer niet aan de servicezijde te laten registreren voor het oplossen van problemen. Standaard registreert de Taalservice uw invoertekst gedurende 48 uur, uitsluitend om problemen op te lossen bij het bieden van de verwerkingsfuncties voor natuurlijke taal van de service. Als u deze parameter instelt op true, schakelt u invoerlogboekregistratie uit en beperkt u mogelijk de mogelijkheid om problemen op te lossen die zich voordoen. Zie De compliance- en privacyopmerkingen van Cognitive Services op https://aka.ms/cs-compliance voor meer informatie en verantwoordelijke AI-principes van Microsoft op https://www.microsoft.com/ai/responsible-ai.

Retouren

De gecombineerde lijst van RecognizeLinkedEntitiesResult en DocumentError in de volgorde waarin de oorspronkelijke documenten zijn doorgegeven.

Retourtype

Uitzonderingen

Voorbeelden

Gekoppelde entiteiten herkennen in een batch documenten.


   import os
   from azure.core.credentials import AzureKeyCredential
   from azure.ai.textanalytics import TextAnalyticsClient

   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   key = os.environ["AZURE_LANGUAGE_KEY"]

   text_analytics_client = TextAnalyticsClient(endpoint=endpoint, credential=AzureKeyCredential(key))
   documents = [
       """
       Microsoft was founded by Bill Gates with some friends he met at Harvard. One of his friends,
       Steve Ballmer, eventually became CEO after Bill Gates as well. Steve Ballmer eventually stepped
       down as CEO of Microsoft, and was succeeded by Satya Nadella.
       Microsoft originally moved its headquarters to Bellevue, Washington in January 1979, but is now
       headquartered in Redmond.
       """
   ]

   result = text_analytics_client.recognize_linked_entities(documents)
   docs = [doc for doc in result if not doc.is_error]

   print(
       "Let's map each entity to it's Wikipedia article. I also want to see how many times each "
       "entity is mentioned in a document\n\n"
   )
   entity_to_url = {}
   for doc in docs:
       for entity in doc.entities:
           print("Entity '{}' has been mentioned '{}' time(s)".format(
               entity.name, len(entity.matches)
           ))
           if entity.data_source == "Wikipedia":
               entity_to_url[entity.name] = entity.url

recognize_pii_entities

Entiteiten herkennen die persoonlijke gegevens bevatten voor een batch documenten.

Retourneert een lijst met entiteiten met persoonlijke gegevens ('SSN', 'Bankrekening', enzovoort) in het document. Voor de lijst met ondersteunde entiteitstypen, controleert u https://aka.ms/azsdk/language/pii

Zie https://aka.ms/azsdk/textanalytics/data-limits voor servicegegevenslimieten.

Nieuw in versie v3.1: de recognize_pii_entities-clientmethode .

recognize_pii_entities(documents: List[str] | List[TextDocumentInput] | List[Dict[str, str]], *, categories_filter: List[str | PiiEntityCategory] | None = None, disable_service_logs: bool | None = None, domain_filter: str | PiiEntityDomain | None = None, language: str | None = None, model_version: str | None = None, show_stats: bool | None = None, string_index_type: str | None = None, **kwargs: Any) -> List[RecognizePiiEntitiesResult | DocumentError]

Parameters

documents
list[str] of list[TextDocumentInput] of list[dict[str, str]]
Vereist

De set documenten die moeten worden verwerkt als onderdeel van deze batch. Als u de id en taal per item wilt opgeven, moet u als invoer een lijst[TextDocumentInput] of een lijst met dictweergaven van TextDocumentInputgebruiken, zoals {"id": "1", "language": "en", "text": "hello world"}.

language
str

De 2-letter ISO 639-1-weergave van de taal voor de hele batch. Gebruik bijvoorbeeld 'en' voor Engels; "es" voor Spaans enz. Als dit niet is ingesteld, wordt standaard 'en' voor Engels gebruikt. De taal per document heeft voorrang op de hele batchtaal. Zie https://aka.ms/talangs voor ondersteunde talen in Taal-API.

model_version
str

De modelversie die moet worden gebruikt voor de analyse, bijvoorbeeld 'nieuwste'. Als er geen modelversie is opgegeven, wordt de API standaard ingesteld op de meest recente, niet-preview-versie. Kijk hier voor meer informatie: https://aka.ms/text-analytics-model-versioning

show_stats
bool

Als dit is ingesteld op true, bevat antwoord statistieken op documentniveau in het veld Statistieken van het antwoord op documentniveau.

domain_filter
str of PiiEntityDomain

Filtert de antwoordentiteiten op entiteiten die alleen zijn opgenomen in het opgegeven domein. D.w.w., indien ingesteld op 'phi', retourneert alleen entiteiten in het domein Beschermde gezondheidszorginformatie. Zie https://aka.ms/azsdk/language/pii voor meer informatie.

categories_filter
list[str of PiiEntityCategory]

In plaats van te filteren op alle PII-entiteitscategorieën, kunt u een lijst doorgeven met de specifieke PII-entiteitscategorieën die u wilt uitfilteren. Als u bijvoorbeeld alleen Amerikaanse burgerservicenummers in een document wilt filteren, kunt u [PiiEntityCategory.US_SOCIAL_SECURITY_NUMBER] doorgeven voor deze kwarg.

string_index_type
str

Hiermee geeft u de methode op die wordt gebruikt voor het interpreteren van tekenreeks offsets. UnicodeCodePoint, de Python-codering, is de standaardinstelling. Als u de standaardinstelling van Python wilt overschrijven, kunt u ook Utf16CodeUnit of TextElement_v8 doorgeven. Zie voor meer informatie https://aka.ms/text-analytics-offsets

disable_service_logs
bool

De standaardinstelling is true, wat betekent dat de Taalservice uw invoertekst aan de servicezijde niet in een logboek opspoort voor probleemoplossing. Als deze optie is ingesteld op Onwaar, registreert de Taalservice uw invoertekst gedurende 48 uur, uitsluitend om het mogelijk te maken problemen op te lossen bij het bieden van de verwerkingsfuncties in natuurlijke taal van de service. Zie De compliance- en privacyopmerkingen van Cognitive Services op https://aka.ms/cs-compliance voor meer informatie en verantwoordelijke AI-principes van Microsoft op https://www.microsoft.com/ai/responsible-ai.

Retouren

De gecombineerde lijst van RecognizePiiEntitiesResult en DocumentError in de volgorde waarin de oorspronkelijke documenten zijn doorgegeven.

Retourtype

Uitzonderingen

Voorbeelden

Persoonlijk identificeerbare informatie-entiteiten herkennen in een batch documenten.


   import os
   from azure.core.credentials import AzureKeyCredential
   from azure.ai.textanalytics import TextAnalyticsClient

   endpoint = os.environ["AZURE_LANGUAGE_ENDPOINT"]
   key = os.environ["AZURE_LANGUAGE_KEY"]

   text_analytics_client = TextAnalyticsClient(
       endpoint=endpoint, credential=AzureKeyCredential(key)
   )
   documents = [
       """Parker Doe has repaid all of their loans as of 2020-04-25.
       Their SSN is 859-98-0987. To contact them, use their phone number
       555-555-5555. They are originally from Brazil and have Brazilian CPF number 998.214.865-68"""
   ]

   result = text_analytics_client.recognize_pii_entities(documents)
   docs = [doc for doc in result if not doc.is_error]

   print(
       "Let's compare the original document with the documents after redaction. "
       "I also want to comb through all of the entities that got redacted"
   )
   for idx, doc in enumerate(docs):
       print(f"Document text: {documents[idx]}")
       print(f"Redacted document text: {doc.redacted_text}")
       for entity in doc.entities:
           print("...Entity '{}' with category '{}' got redacted".format(
               entity.text, entity.category
           ))