Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt!
Översättningar som inte är engelska tillhandahålls endast för enkelhetens skull. Se versionen EN-US
av det här dokumentet för bindningsversionen.
Vad är en transparensanteckning?
Ett AI-system omfattar inte bara tekniken, utan även de personer som ska använda den, de personer som påverkas av den och miljön där den distribueras. Att skapa ett system som är lämpligt för sitt avsedda syfte kräver en förståelse för hur tekniken fungerar, vilka dess funktioner och begränsningar är och hur man uppnår bästa prestanda. Microsofts transparensanteckningar är avsedda att hjälpa dig att förstå hur vår AI-teknik fungerar, vilka val systemägare kan göra som påverkar systemets prestanda och beteende samt vikten av att tänka på hela systemet, inklusive teknik, människor och miljö. Du kan använda Transparensanteckningar när du utvecklar eller distribuerar ditt eget system eller delar dem med de personer som kommer att använda eller påverkas av systemet.
Microsofts transparensanteckningar är en del av ett bredare arbete hos Microsoft för att omsätta våra AI-principer i praktiken. Mer information finns i Microsoft AI-principerna.
Grunderna i bildanalys
Inledning
Organisationer skapar lösningar för att bearbeta medietillgångar som digitala filer och bilder och extrahera användbara insikter. Dessa insikter omfattar visuella funktioner från bilder som objekt, personer och bildbeskrivningar som kan användas för att driva kunskapsutvinning, automatisering av affärsprocesser och tillgänglighet för innehåll för alla.
Api:er för bildanalys är tillgängliga via Azure AI-tjänster och erbjuder förtränade maskininlärningsmodeller för att tilldela etiketter till bilder och klassificera dem i tusentals fördefinierade kategorier. API:erna extraherar många visuella funktioner från bilder, inklusive objekt, personer, vuxet innehåll och automatiskt genererade bildtexter. Med hjälp av anpassningsfunktionen kan kunderna snabbt träna visionsmodeller med sina egna data och definiera sina egna kategorier.
Viktiga termer
Term | Definition |
---|---|
Färdiga modeller | Modeller som driver funktioner som bildanalys erbjuder kunderna. Dessa modeller kräver inte ytterligare utbildning. |
Basmodell | Basmodeller är en kombination av modellarkitektur och träningsdata som används för att justera arkitekturen för en viss typ av uppgift (till exempel bildklassificering eller objektidentifiering). Basmodeller är byggda av Microsoft och används som utgångspunkt för överföringsinlärningsprocessen för olika domäner som General, Food, Landmarks, Retail, Logos och Products on Shelves. |
Modellträning | Detta avser processen för att träna en modell baserat på kundtilldelade etiketterade bilder när du använder modellens anpassningsfunktion. |
Few-shot lärande | Till skillnad från traditionella metoder för att träna maskininlärningsmodeller, där stora mängder träningsdata vanligtvis används, använder few-shot-lärande en liten mängd träningsdata för att träna en modell att lära sig det underliggande mönstret för att känna igen och klassificera ny data som tillhandahålls när kunden använder anpassningsfunktionen. |
Överföra utbildning | Användningen av kundspecifika träningsdata i modellens anpassningsfunktion för att träna om en basmodell för att lösa det specifika problem som kunden försöker lösa. Träningsdata kan vara en kombination av de klasser som de vill känna igen eller identifiera och typen av bilder. |
Klass | En tränad modell har en uppsättning klasser som tilldelas när en indatabild analyseras. När du skapar en anpassad bildklassificeringsmodell via modellanpassning definierar du den uppsättning klasser som du vill att modellen ska mata ut och tillhandahålla märkta träningsdata för var och en av klasserna. |
Par för klassnoggrannhet | Klassnoggrannhetsparet är en uppsättning med två värden som består av klassens namn och ett flyttalvärde för den konfidenspoäng som är associerad med klassidentifieringen. En klass kan till exempel vara en typ av frukt som en ananas eller päron som representeras i bilduppsättningen. Klass-noggrannhetspar är den specifika klassen och konfidensvärdet för att klassen finns i bilden (t.ex. Ananas: 93,53%). |
Bildklassificering | Den här funktionen tar en bild som indata och matar ut en uppsättning klassnoggrannhetspar som är egenskaper på bildnivå (de anger ingen plats i bilden). Ett exempel på ett par kan vara frukt mot icke-frukt, där majoriteten av bilden upptas av respektive kategori. |
Objektigenkänning | Den här funktionen tar en bild som indata och matar ut en uppsättning klassnoggrannhetspar som även innehåller koordinaterna för avgränsningsrutan för var i bilden klasserna identifierades. Modellen kan till exempel identifiera koordinaterna för avgränsningsrutan för var ett fordon finns i bilden. |
Begränsningsruta | En uppsättning med fyra numeriska värden som representerar x,y-pixelkoordinaterna i det övre vänstra hörnet av det identifierade objektet i förhållande till bildens övre vänstra hörn, bredden på det identifierade objektet. |
Självförtroende | En bildanalysåtgärd returnerar konfidensvärden i intervallet 0 till 1 för alla extraherade utdata. Konfidensvärdet representerar uppskattningen av sannolikheten för en tagg. |
Florens | Florence är namnet på en ny grundläggande AI-modell, en del av ett Azure AI Vision-initiativ, tränat med miljarder textbildpar som driver många av kvalitetsförbättringarna i v4.0-versionen av Azure AI Vision-tjänsten. Den har möjlighet att identifiera miljontals objektkategorier direkt och möjliggör snabbare anpassning till lägre kostnad för att identifiera specifika mönster med färre träningsbilder i modellanpassningstjänsten. |
Planogram | Ett planogram är ett dokument eller diagram som beskriver placeringen av produkter på hyllor eller visas i en butik. Det används för att hjälpa återförsäljare och tillverkare att optimera placeringen av produkter för att öka försäljningen. I scenarier för produktigenkänning representeras planogrammet som ett JSON-dokument. |
Förmågor
Egenskaper
Viktigt!
Förutom kändisigenkänning kan ingen av följande funktioner för bildanalys identifiera eller verifiera enskilda personer. De förutsäger eller klassificerar inte ansiktsattribut, och de skapar inte ansiktsmallar (unik uppsättning tal som genereras från en bild som representerar de distinkta funktionerna i ett ansikte) när ansikten identifieras. Varje erkännande av en individ är resultatet av din etikettering och inte från våra funktioner för ansiktsigenkänning eller från skapandet av en ansiktsmall. Kändisigenkänning är en funktion med begränsad åtkomst som endast är tillgänglig för godkända kunder. När kändisigenkänning används anropar bildanalys ansikts-API, genererar ansiktsmallar för identifierade ansikten och jämför dem med de lagrade mallarna för kändisar (se Kändis, landmärke och varumärkesigenkänning nedan).
Du kan använda bildanalys för att bearbeta bilder:
Tagga visuella funktioner: Från en uppsättning med tusentals igenkännliga objekt, levande saker, landskap och åtgärder kan du identifiera och tagga visuella funktioner i en bild. När taggarna är tvetydiga eller om innehållets identitet inte är allmänt känd, ger API-svaret tips för att klargöra taggens kontext. Taggning är inte begränsat till bildens huvudämne, till exempel en person i förgrunden. Taggning kan också innehålla inställningen (inomhus eller utomhus), möbler, verktyg, växter, djur, tillbehör och prylar.
Identifiera objekt: Objektidentifiering liknar taggning, men API:et returnerar koordinaterna för avgränsningsrutan för varje tagg som används. Om en bild till exempel innehåller en hund, en katt och en person, visar åtgärden varje objekt och dess koordinater i bilden. Du kan använda den här funktionen för att bearbeta relationer mellan objekten i en bild. Objektidentifiering låter dig också veta när det finns flera instanser av samma tagg i en bild.
Generera beskrivande bildtexter: Bildtextningsalgoritmen använder modeller för kändisigenkänning och landmärkesigenkänning för att generera mer beskrivande bildtexter när kändisar eller landmärken finns i bilden. Kändisigenkänning är endast tillgänglig för godkända kunder, ansök här om du vill använda dig av kändisigenkänning.
Anmärkning
"Caption" ersätter "Describe" i V4.0 som den avsevärt förbättrade bildtextfunktionen med information och sematisk förståelse. Kompakta bildtexter ger mer information genom att generera en meningsbeskrivning av upp till 10 regioner av bilden förutom att beskriva hela bilden. Kompakta bildtexter returnerar också koordinater för avgränsningsrutor för de beskrivna bildregionerna.
Moderera innehåll i bilder: Du kan använda bildanalys för att identifiera vuxet, utmanande och blodigt innehåll i en bild och få konfidenspoäng för dessa klassificeringar. Du kan ange tröskelvärdet för att flagga innehåll som vuxet, utmanande eller blodigt på en glidande skala för att anpassa efter dina inställningar.
Ett område av intresse och smarta bildutsnitt: Du kan analysera innehållet i en bild för att returnera koordinaterna för bildens viktigaste område eller få AI-föreslagna bildutsnitt av bilden för olika bildförhållanden. Ansiktsigenkänning används för att fastställa viktiga regioner i bilden. Identifieringen innebär inte att skilja ett ansikte från ett annat ansikte, förutsäga eller klassificera ansiktsattribut eller skapa en ansiktsmall (en unik uppsättning tal som genereras från en bild som representerar de distinkta funktionerna i ett ansikte).
Extrahera text i bilder: Bildanalys har optisk teckenigenkänning (OCR) som du kan använda för att identifiera tryckt eller handskriven text i bilder och returnera texten och textkoordinaterna.
Identifiera personer och ansikten: Du kan använda bildanalys för att identifiera ansikten och personer i en bild. API:erna returnerar rektangelkoordinaterna för varje identifierat ansikte och person. Ansiktsverifiering och identifiering erbjuds av Azure AI Face-tjänsten.
Kändis-, landmärkes- och varumärkesigenkänning: Använd bildanalys för att identifiera kommersiella varumärken, populära landmärken och kändisar i bilder eller videor från en förinställd databas med tusentals globala logotyper, landmärken och kändisar (innehåller cirka 1 miljon ansikten baserat på vanliga begärda datakällor som IMDb, Wikipedia och de främsta LinkedIn-påverkarna). Du kan till exempel använda den här funktionen för att upptäcka vilka varumärken som är mest populära på sociala medier eller varumärken som är vanligast inom medieproduktplacering. Kändisigenkänning är begränsad till godkända kunder.
Anpassning: Anpassning är en funktion i imageanalystjänsten som gör att du kan skapa, distribuera och förbättra ditt eget system för anpassad avbildningsidentifiering. En bildidentifierare tillämpar etiketter på bilder enligt deras visuella egenskaper. Varje etikett representerar en klassificering eller ett objekt. Med anpassningstjänsten kan du ange egna etiketter och träna anpassade modeller för att identifiera dem.
Produkttolkning: Använd en specialiserad modell för bildanalys för att identifiera förekomsten av produkter på butikshyllorna. Detta kan kombineras med anpassning för att träna modeller för att identifiera specifika produkter på butikshyllor.
Bildsyrning: Kombinera flera bilder som delvis överlappar i en enda stor bild. Detta används i scenariot för produktigenkänning för att få en enda bild av en hel butikshylla.
Bildrektifiering: Ångra perspektivförvrängningen av en bild. Detta används i produktigenkänningsscenariot för att säkerställa att hyllbilder är lättare att analysera.
Planogrammatchning: Jämför produktigenkänningsresultat med ett planogramdokument för att se vilka platser som är fyllda av produkter och vilka som är tomma.
Bakgrundsborttagning:Gör att du kan ta bort bakgrunden till en bild. Den här åtgärden kan antingen mata ut en bild av det identifierade förgrundsobjektet med en transparent bakgrund eller en alfamatisk bild i gråskala som visar opaciteten för det identifierade förgrundsobjektet.
Bildhämtning: Med bildhämtning kan användarna söka efter bilder på det sätt som de tänker: använda naturliga faser, frågor, till och med vaga beskrivningar. Det möjliggör vektorisering av bilder och textfrågor. På så sätt kan du konvertera bilder och text till koordinater i ett flerdimensionellt vektorutrymme. Använd vektorlikhet för att matcha bilder med söktermer baserat på semantisk närhet, till exempel för att söka i bildinnehåll eller rekommendera en bild baserat på en textfråga eller liknande bild.
Videosammanfattning och bildrutelokaliserare: Sök och interagera med videoinnehåll på samma intuitiva sätt som du tänker och skriver. Leta upp relevant innehåll utan att behöva ytterligare metadata. För närvarande endast tillgängligt i Vision Studio
Användningsfall
Avsedda användningar
Här följer några exempel på när du kan använda bildanalys:
- Bildidentifiering: Bilder som laddas upp till en organisations interna resursutrymme och plattformar för sociala medier innehåller omfattande information och metadata. Den här informationen är dock vanligtvis inte maskinläsbar och är inte tillgänglig för automatisk taggning, kategorisering och sökning. Bildanalys gör insikter från dessa bilder tillgängliga för analys, sökning och hämtning. E-handelsföretag kan till exempel göra sitt produktbibliotek sökbart, eller så kan en stor webbplats med användargenererat innehåll möjliggöra kraftfulla sök- och innehållsrekommendationer.
- Automatisering av innehållsbearbetning: Du kan använda bildanalys för att automatisera uppgifter som att identifiera visuellt innehåll i bilder och skapa metadata i din pipeline för medieanalys. Automatisering kan minska den tid, ansträngning och de kostnader som är kopplade till att skapa och producera innehåll.
- Bildinnehållsmoderering: E-handelsföretag, användargenererade innehållsutgivare, onlinespelgrupper och sociala medieplattformar måste moderera bildinnehållet. Med bildanalys kan du automatiskt flagga olämpligt innehåll i bilder (till exempel vuxet, vågat eller blodigt). Du kan sedan använda de returnerade innehållsflaggorna och deras respektive konfidenspoäng för att moderera innehållet i ditt program som du anser lämpligt.
- Domänspecifik identifiering: Utvecklare kan använda bildanalys för att identifiera domänspecifikt innehåll i sociala medier och fotoappar. Du kan till exempel identifiera kända landmärken eller varumärkeslogotyper i en bild för att ge lämpliga rekommendationer för dina användare.
- Innehållstillgänglighet: Använd basmodeller för bildanalys för att skapa lösningar som hjälper personer som är blinda och personer med nedsatt syn genom att identifiera och beskriva bildinnehåll på ett språk som kan läsas av människor. I det här sammanhanget har vi aktiverat en parameter som gör det möjligt för användare att välja könsspecifika beskrivningar, t.ex. "en man och en kvinna som sitter på en bänk" eller könsneutrala beskrivningar, t.ex. "två personer som sitter på en bänk".
- Bildfiltrering i sekretesssyfte: Du kan använda bildanalys för att identifiera ansikten och personer i bilder. Använd ansiktsigenkänning och personidentifiering för att avgöra om bilder innehåller potentiellt känslig information för sekretessöverväganden.
- Hantering av butiksinventering: Med API:erna för produktigenkänning kan du analysera foton av butikshyllor, identifiera vilka produkter som finns där och jämföra bilderna med ett planogramdokument.
Att tänka på när du väljer andra användningsfall
- Tillämpa mänsklig tillsyn för tilldelning eller nekande av förmåner: Om du använder bildanalysutdata direkt för att tilldela eller neka förmåner kan det leda till fel om resultatet baseras på felaktig eller ofullständig information. För att säkerställa rättvisa och högkvalitativa beslut för användare kombinerar du den automatisering som är tillgänglig i Bildanalys med mänsklig tillsyn.
- Inte lämplig för ansiktsidentifiering eller verifiering: Bildanalys har inte funktioner för ansiktsigenkänning. All igenkänning av en person som använder bildanalys sker som ett resultat av din etikettering och inte från den faktiska ansiktsigenkänningstekniken. Använd Azure AI Face.
- Inte lämplig för ålders- eller könsklassificering: Undvik att använda bildanalys för ålder eller könsklassificering.
- Ta hänsyn till ytterligare åtgärder för domänspecifik igenkänning: Fördefinierade AI-funktioner som kändisigenkänning, landmärkesigenkänning och varumärkeslogotypigenkänning tränas på en begränsad uppsättning kändisar, landmärken och varumärken. Igenkänningstjänsten kanske inte känner igen alla regionalt specifika kändisar, landmärken eller varumärken.
- Inte lämplig för biometrisk identifiering: Bildanalys har inte utformats eller testats för att verifiera enskilda personers identitet baserat på biometriska markörer som irisigenkänning, fingeravtrycksidentifiering eller pass eller andra former av ID för identifiering och verifiering av en person.
- Använd inte bildanalys för medicinsk diagnos: inklusive för användning som medicinteknisk enhet, kliniskt stöd, diagnostikverktyg eller annan teknik som är avsedd att användas för diagnos, botemedel, lindring, behandling eller förebyggande av sjukdomar eller andra tillstånd, och ingen licens eller rätt beviljas av Microsoft att använda denna funktion för sådana ändamål. Denna funktion är inte utformad eller avsedd att genomföras eller användas som ersättning för professionell medicinsk rådgivning eller hälso- och sjukvårdsutlåtande, diagnos, behandling eller klinisk bedömning av en sjukvårdspersonal, och bör inte användas som sådan. Kunden är ensam ansvarig för all användning av bildanalys eller anpassning för medicinsk diagnos.
- Juridiska och regelmässiga överväganden: Organisationer måste utvärdera potentiella specifika juridiska och regelmässiga skyldigheter när de använder AI-tjänster och lösningar, vilket kanske inte är lämpligt för användning i alla branscher eller scenarion. Dessutom är AI-tjänster eller lösningar inte utformade för och får inte användas på sätt som är förbjudna i tillämpliga användningsvillkor och relevanta uppförandekoder.
Systemprestanda och begränsningar för bildanalys
Noggrannhet för bildanalys
Precisionen i funktionen Bildanalys är ett mått på hur väl AI-genererade utdata motsvarar faktiskt visuellt innehåll som finns i bilder. Funktionen Bildtagg bör till exempel generera taggar för det visuella innehåll som finns i bilderna. För att mäta noggrannheten kan du utvärdera bilden med dina grundsanningsdata och jämföra utdata från AI-modellen. Genom att jämföra grundsanningen med AI-genererade resultat kan du klassificera händelser i två typer av korrekta ("sanna") resultat och två typer av felaktiga ("falska") resultat:
Term | Definition |
---|---|
Sann positiv händelse | Systemgenererade utdata motsvarar korrekt mark-sanningsdata. Systemet taggar till exempel korrekt en bild av en hund som en hund. |
Sant negativ | Systemet genererar inte felaktigt resultat som inte finns i den verifierade datan. Systemet taggar till exempel inte en bild som en hund när det inte finns någon hund i bilden. |
Falsk positiv | Systemet genererar felaktigt en utdata som saknas i referensdata. Systemet taggar till exempel en bild av en katt som en hund. |
Falskt negativ | Systemet kan inte generera resultat som finns i grunddata. Systemet kan till exempel inte tagga en bild av en hund som fanns i avbildningen. |
Dessa händelsekategorier används för att beräkna precision och återkallande:
Term | Definition |
---|---|
Noggrannhet | Ett mått på korrektheten i det extraherade innehållet. Från en bild som innehåller flera objekt tar du reda på hur många av dessa objekt som extraherades korrekt. |
Kom ihåg | Ett mått på det övergripande innehållet som extraheras. Från en bild som innehåller flera objekt tar du reda på hur många objekt som identifierades totalt sett, utan hänsyn till deras korrekthet. |
Precisions- och träffsäkerhetsdefinitionerna innebär att det i vissa fall kan vara svårt att optimera för både precision och träffsäkerhet samtidigt. Beroende på ditt scenario kan du behöva prioritera det ena framför det andra. Om du till exempel utvecklar en lösning för att bara identifiera de mest exakta taggarna eller etiketterna i innehållet, till exempel för att visa sökresultat för bilder, optimerar du för högre precision. Men om du försöker tagga allt möjligt visuellt innehåll i bilderna för indexering eller intern katalogisering optimerar du för högre träffsäkerhet.
Om du äger ett bildbehandlingssystem rekommenderar vi att du samlar in grundsanningsutvärderingsdata, vilket är data som samlas in och taggas av människodomare för att utvärdera ett system. De fördefinierade AI-modellerna som tillhandahålls i Azure AI Vision-tjänsten kanske inte uppfyller kraven i ditt användningsfall. Genom att använda den utvärderingsdatauppsättning som är specifik för ditt användningsfall kan du fatta ett välgrundat beslut om huruvida de färdiga bildanalysmodellerna är rätt för ditt scenario. Om de färdiga bildanalysmodellerna inte passar för ditt scenario kan du skapa egna modeller med hjälp av anpassningsfunktionen som beskrivs nedan. Du kan också använda data för att avgöra hur tröskelvärdet för konfidens påverkar uppnåendet av dina mål.
Du kan jämföra sanningsetiketter med systemets utdata för att fastställa övergripande noggrannhet och felfrekvens. Felutdelning hjälper dig att ange rätt tröskelvärde för ditt scenario. Utvärderingsdata för grundsanningsdata bör innehålla ett lämpligt urval av representativa bilder så att du kan förstå prestandaskillnader och vidta korrigerande åtgärder. Baserat på resultatet av utvärderingen kan du iterativt justera tröskelvärdet tills kompromissen mellan precision och träffsäkerhet uppfyller dina mål.
Konsekvenser för systemprestanda baserat på scenarier
Konsekvenserna för systemprestanda kan variera beroende på hur du använder tjänsten. Du kan till exempel använda konfidensvärdet för att kalibrera anpassade tröskelvärden för att hantera ditt innehåll och dina scenarier. Beroende på dess konfidensvärde kan innehållet dirigeras för direktbehandling eller vidarebefordras till en process med mänsklig inblandning. De resulterande mätningarna bestämmer scenariospecifik noggrannhet när det gäller precisions- och träffsäkerhetsmåtten, vilket visas i följande exempel:
- Fotodelningsapp: Du kan använda bildanalys för att automatiskt generera taggar för bilder som delas och lagras av programanvändare. Appanvändare förlitar sig på den här funktionen för att söka efter specifika foton som delas av andra användare. I det här användningsfallet kanske utvecklaren föredrar resultat med hög precision eftersom kostnaden för att extrahera taggar felaktigt skulle resultera i felaktiga frågeresultat för appanvändare.
- Bildbearbetning: För försäkrings- och anspråksbearbetningsprogram, eftersom du inte vill missa någon potentiellt relevant information, kanske du föredrar en hög återkallelse för att maximera extraheringarna. I det här scenariot kan en mänsklig granskare flagga felaktiga eller olämpliga taggar.
Ytterligare begränsningar för bildhämtning
Relevans: Bildhämtning returnerar alltid ett resultat till en användarfråga även om det inte finns någon relevant matchning i användarens bilduppsättning. Om användaren till exempel söker efter "hundar som leker på bakgården" i en bilduppsättning som bara innehåller bilder av personer, returnerar systemet det närmaste sökfrågan. I det här fallet kan det returnera bilder av människor. Detta kan också inträffa när du frågar abstrakta begrepp som inte motsvarar bilder, till exempel känslor och kön.
Stereotyper: Modellen har lärt sig att associera namn med det stereotypa könet och etniciteten hos personer med dessa namn och kan associera privatpersoners namn med kändisbilder.
Rekency: Våra modeller har tränats på datauppsättningar som innehåller viss information om verkliga händelser, men om du frågar modellerna om händelser som ägde rum efter att modellerna har tränats kommer de inte att fungera bra.
Avsiktligt missbruk: Om mycket störande bilder, i kombination med mycket störande text laddas upp till Bildhämtning, kan det returnera skadligt och stötande innehåll som en del av resultatet. För att minimera detta oavsiktliga resultat rekommenderar vi att du kontrollerar åtkomsten till systemet och utbildar de personer som ska använda det om lämplig användning.
Förstå rörelse: Videosammanfattning och bildrutelokaliserare har en begränsad möjlighet att korrekt förstå rörelse och åtgärder i en video. När du frågar efter åtgärder som "en person som tar en bild" eller "en person som faller" kan det ge felaktiga resultat.
Komplex frågesyntax: Frågor som innehåller komplex syntax, till exempel prepositioner, t.ex. "en person på en stege" eller " en person utan stege" kan ge felaktiga resultat.
Metodtips för att förbättra systemprestanda
Följande riktlinjer kan hjälpa dig att förstå och förbättra prestanda för API:er för bildanalys:
- Bildanalys stöder bilder som uppfyller filkraven för varje version.
- Även om bildanalysen är elastisk kan faktorer som upplösning, ljusexponering, kontrast och bildkvalitet påverka resultatets noggrannhet. Se produktspecifikationerna och testa tjänsten på dina bilder för att verifiera din situation.
- Innan en storskalig distribution eller distribution av ett bildanalyssystem bör systemägare genomföra en utvärderingsfas i det sammanhang där systemet ska användas och med de personer som ska interagera med systemet. Utvärdering före distribution hjälper till att säkerställa systemets noggrannhet, och det hjälper dig att vidta åtgärder för att förbättra systemets noggrannhet, om tillämpligt.
- Skapa en feedbackkanal för personer som fattar beslut baserat på systemets utdata. Inkludera nöjdhetsdata från de personer som kommer att förlita sig på dina bildanalysfunktioner och feedback från befintliga kundröstkanaler. Använd feedback för att finjustera systemet och förbättra noggrannheten.
- Tjänsten ger en konfidenspoäng för varje förutsagd utdata. En konfidenspoäng representerar noggrannheten för en förutsägelse i procent. Du kan till exempel ange ett tröskelvärde för minsta konfidens för ett system för att automatiskt bildtexta ett foto. Om en genererad undertexts konfidenspoäng ligger under tröskelvärdet bör den vidarebefordras för ytterligare granskning.
Utvärdering av bildanalys
Utvärderingsmetoder
Vi använder olika offentliga, interna och kundbelönade bilddatauppsättningar för att utvärdera noggrannheten för varje bildanalysmodell. Dessa bilddatauppsättningar innehåller bilder av en mängd olika visuella innehåll och av ett brett utbud av kvalitet för att säkerställa att modellerna utvärderas för en rad möjliga fall. Vi beräknar precisions-, återkallelse- och F1-poäng för de olika datauppsättningarna. Vi jämför varje modell med interna och offentliga riktmärken och mot tidigare versioner av modellen.
Rättviseöverväganden
Vi har noggrant testat alla våra AI-modeller för bildanalys för rättvisa för att identifiera och prioritera demografiska grupper som kan riskera att uppleva sämre kvalitet på tjänsterna och identifiera instanser där våra modeller kan producera utdata som vidmakthåller befintliga stereotyper, förnedrar eller raderar vissa grupper av människor. Vi har upptäckt att våra modeller fungerar bra för alla människor som avbildas i bildindata oavsett ras, könsidentitet, ålder och kultur.
I vissa sällsynta fall har bildtaggning och bildtextmodeller gjort rättvisefel genom att returnera felaktiga köns- och åldersetiketter för personer som visas i indatabilder. Dessa fall är mycket sällsynta, och vi fortsätter att förbättra våra modeller så att nyare modeller är mindre sannolika att generera sådana fel. Vi rekommenderar att kunderna inte använder bildanalysmodeller för köns- och åldersklassificeringar.
Vi ber kunderna att rapportera eventuella rättvisefel och dela sin feedback om dessa problem via Azure-portalen så att vi kan fortsätta att identifiera förbättringsområden när vi försöker se till att våra modeller fungerar bra för alla. Kunder som tränar sina egna modeller med hjälp av anpassningsfunktionen måste utföra ytterligare tester för att säkerställa rättvisa.
Utvärdera och integrera bildanalys för din användning
Microsoft arbetar för att hjälpa kunder att på ett ansvarsfullt sätt utveckla och distribuera lösningar som använder bildanalys. Vi har en principfast strategi för att upprätthålla personlig handlingsfrihet och värdighet genom att överväga AI-systemens rättvisa, tillförlitlighet och säkerhet, integritet och säkerhet, inkludering, transparens och mänsklig ansvarsskyldighet. Dessa överväganden ligger i linje med vårt åtagande att utveckla ansvarsfull AI.
Allmänna riktlinjer för integrering och ansvarsfull användning
I det här avsnittet beskrivs bildanalys och viktiga överväganden för att använda den här tekniken på ett ansvarsfullt sätt. Följande är allmänna rekommendationer för ansvarsfull distribution och användning av bildanalys. Kontexten kan kräva att du prioriterar och inkluderar dina egna lösningar utifrån behoven i ditt specifika distributionsscenario. Men i allmänhet tillhandahåller vi följande metodtips som utgångspunkt för att hjälpa dig.
- Förstå vad det kan göra : Utvärdera potentialen för alla AI-system som du använder för att förstå dess funktioner och begränsningar. Förstå hur det kommer att fungera i ditt scenario och kontext genom att noggrant testa det med verkliga förhållanden och data.
- Respektera en individs rätt till sekretess : Samla in data och information från individer endast för lagliga och berättigade ändamål. Använd endast de data och den information som du har samtyckt till att använda och använda endast för de syften för vilka medgivande gavs.
- Juridisk granskning: Få lämplig oberoende juridisk rådgivning för att granska din lösning, särskilt om du använder den i känsliga program eller högriskprogram. Förstå vilka begränsningar du kan behöva arbeta inom och förstå ditt ansvar för att lösa eventuella problem som kan uppstå i framtiden.
- Human-in-the-loop: Behåll en mänsklig medverkan och inkludera mänsklig tillsyn som ett område att utforska med konsekvent mönster. Detta innebär att säkerställa ständig mänsklig tillsyn av bildanalys och upprätthålla människans roll i beslutsfattandet. Se till att du kan få mänsklig inblandning i realtid i lösningen för att förhindra skada. På så sätt kan du hantera situationer där bildanalys inte fungerar som förväntat.
- Säkerhet: Se till att din lösning är säker och att den har tillräckliga kontroller för att bevara innehållets integritet och förhindra obehörig åtkomst.
- Ha en blockeringslista eller en tillåtna lista: I stället för att aktivera alla taggar med taggfunktionen Bildanalys fokuserar du på de specifika som passar bäst för ditt användningsfall.
- Strukturera användarinteraktioner genom att begränsa specifika indata: Vi rekommenderar att du övervakar användarens textindata för oönstrade innehåll. Detta kan omfatta hatpropaganda, rasistiska eller etniska smädelser och olämpliga ord eller fraser. Den exakta definitionen av innehåll som inte önskas beror på ditt scenario och kan ändras med tiden.
- Kontrollera användaråtkomst:Överväg att kräva att dina kunder och användare loggar in, eftersom det gör det enklare för ditt företag att svara på missbruksincidenter om de inträffar. Om möjligt, överväg att placera produkten bakom en betalvägg, för att göra missbruk svårare.
- Begränsa samhällets bias: Vi rekommenderar att du kör tester för dina specifika användningsfall för att begränsa samhällets fördomar.
- Upprätta feedback- och rapporteringskanal för användare: Vi rekommenderar att du skapar kanaler för att samla in frågor och problem från användare och åskådare som påverkas av systemet. Bjud in feedback om användbarheten och noggrannheten i utdata och ge användarna en tydlig väg att rapportera problematiska, stötande, partiska eller olämpliga utdata. Möjliga mekanismer är att skapa feedbackfunktioner i användargränssnittet och publicera en e-postadress för offentlig feedback.
Ansvarsfull AI-innehållsfiltrering
Vision Studio innehåller ett innehållshanteringssystem som fungerar tillsammans med kärnmodeller för att filtrera innehåll för demoexempel på bildsökning, videosammanfattning och rambestämning. Det här systemet fungerar genom att köra både indataprompten och medieinnehållet genom en uppsättning klassificeringsmodeller som syftar till att upptäcka missbruk. Om systemet identifierar skadligt innehåll får du ett felmeddelande om att uppmaningen ansågs olämplig och filtrerad av ansvarsfulla AI-tjänster.
Du kan rapportera feedback om systemet för innehållsfiltrering via support.
För att säkerställa att du har rätt minimerade risker i ditt program bör du utvärdera alla potentiella skador noggrant, följa riktlinjerna i Transparensanteckningen och lägga till scenariospecifika åtgärder efter behov.
Rekommendationer för att skydda sekretess
En lyckad sekretessmetod ger enskilda personer information och ger kontroller och skydd för att bevara deras integritet.
- Om tjänsten är en del av en lösning som är utformad för att införliva hälsorelaterade data bör du noga tänka igenom om och hur du registrerar dessa data. Följ tillämpliga statliga och federala sekretess- och hälsobestämmelser.
- Sekretesshanterare bör noga överväga vilka kvarhållningsprinciper som ska användas för extraherade bildmetadata och insikter samt för underliggande bilder. Kvarhållningsprinciper bör återspegla den avsedda användningen av programmen.
- Dela inga data utan uttryckligt medgivande från berörda intressenter eller dataägare och minimera mängden data som delas.
Anpassning i bildanalys
Anpassningsfunktionen för bildanalys har ytterligare saker att tänka på. Anpassning använder maskininlärning för att analysera bilder. Du skickar bilder som både inkluderar och saknar de aktuella egenskaperna. Du märker bilderna själv. Sedan tränar tjänsten modellen med dessa data och beräknar modellens noggrannhet genom att testa en uppsättning bilder från träningsdatauppsättningen. När du har tränat modellen kan du testa, träna om och så småningom använda den i bildigenkänningsprogrammet eller lösningen för att härleda förutsägelser på nya bilder.
Klassificering av anpassad bild tillämpar en eller flera etiketter på en bild. Identifiering av anpassat objekt returnerar koordinaterna i bilden där de tillämpade etiketterna kan hittas för identifierade objekt. Båda funktionerna levereras via API:er, SDK:er och utan kod i Vision Studio på https://portal.vision.cognitive.azure.com.
Anpassning stöder skapande och användning av anpassade visionsmodeller via följande funktioner på hög nivå. De representerar de två kärnaktiviteter som du kommer att slutföra för att förbereda din modell för användning:
- Dataetiketter: är processen att kommentera träningsbilderna med de klasser av bilder som modellen behöver klassificera. När det gäller objektidentifiering kommenterar du träningsbilderna med avgränsningsrutor som omger objektet som ska identifieras i bilden. Kunder kan märka data i Azure Machine Labeling Studio eller importera etiketterade data i COCO-filformat. När träningsdata har märkts kan du använda dem för att träna modellen via Vision Studio, API eller SDK.
- Modellträning: använder basmodellen och överföringsinlärning för att träna en modell som är optimerad för kundanpassade bilder och motsvarande klasser. Med tidigare modellanpassningsteknik behövdes stora mängder träningsdata för att uppnå hög noggrannhet. Med den nya modellanpassningen krävs mindre mängd data för att träna en modell att lära sig att känna igen och klassificera nya data med samma eller högre noggrannhet/prestanda. Eftersom dessa anpassningsfunktioner använder en stor grundläggande modell, tränad med en omfattande datamängd, kan modellen tränas med så lite som en enda bild per etikett. Modellen kan fortsätta att förbättras när den tränas med få bilder per etikett. Few-shot-lärande ger en möjlighet till anpassning utan omfattande datainsamling och etikettering. Anpassning ger noggrannhetsmått för att approximera modellprestanda baserat på en uppdelning av de träningsdata som tillhandahålls. När du tränar några bilder per etikett rekommenderar vi att du testar modellens noggrannhet med ytterligare en utvärderingsdatauppsättning.
När du är redo att använda din modell kan du göra en modellförutsägelse genom att skicka en bild för bearbetning. Observera att när du kör förutsägelse med anpassade modeller kan det uppstå längre svarstid än förväntat för att få förutsägelseresultat. Microsoft arbetar med att göra förbättringar av svarstiden inom en snar framtid. Vi rekommenderar för närvarande inte att använda anpassade modeller för affärskritiska miljöer. Observera också att kvaliteten på din klassificerare eller objektidentifieringsmodell som skapats med anpassning beror på kvaliteten och variationen av de märkta data som du anger när du tränar modellen. Kvaliteten beror också på hur balanserad den övergripande datamängden är mellan klasser. När du är nöjd med modellkvaliteten kan du distribuera och vara värd för modellen i Cognitive Service for Vision.
Viktigt!
Observera att anpassning inte är lämplig för att träna anpassade modeller för storskaliga uppsättningar av bilder som innehåller hundratals klasser och taggar, för att generera läsbara beskrivningar av bilder som kan användas som alternativtext i hjälpmedelssyfte. Bildanalysbaserade modeller har dessa funktioner och bör användas i stället för anpassning. Observera att anpassning inte heller är lämplig för ansiktsigenkänning eftersom den inte har utformats eller testats för att identifiera eller identifiera individer i bilder. Använd Azure AI Face. Varje igenkänning av en individ är resultatet av din etikettering och inte från våra ansiktsigenkänningsfunktioner eller från skapandet av en ansiktsmall (en unik uppsättning siffror som genereras från en bild som representerar de distinkta funktionerna i ett ansikte).
Användningsfall
Avsedda användningar
Du kan använda Anpassning, en funktion i Azure AI-tjänster Bildanalys för följande scenarier:
- Automatiska visuella aviseringar: Möjligheten att övervaka en videoström och få aviseringar utlösta när vissa omständigheter upptäcks. Du kanske till exempel vill ha en avisering när ånga upptäcks, skum på en flod eller om ett djur finns.
- Förbättrad effektivitet vid manuell inspektion: I detaljhandeln kan du med produktigenkänning minska den tid som du eller medarbetare lägger på att räkna unika SKU:er eller identifiera om alla SKU:er som ska finnas på en hylla finns.
- Utökad inspektionstäckning: Vid identifiering av defekter är det inte alltid möjligt för en människa att granska alla artiklar som kommer från en tillverkningslinje. I stället kan du använda anpassning för att täcka den uppsättning objekt som du inte kan inspektera manuellt, samt informera vilka objekt du inspekterar manuellt.
- Förbättra objektidentifieringen: Om du etiketterar dina bilder med metadata blir det enklare att hitta dem senare. Du kan till exempel tagga bilderna baserat på produktkatalogen eller andra visuella funktioner som du är intresserad av att filtrera på. Med anpassning kan du märka bilder med metadata vid tidpunkten för inmatningen.
Prestanda för anpassningsfunktioner
När du har tränat din modell kan du se uppskattningen av projektets prestanda i Studio https://portal.vision.cognitive.azure.com. Anpassningen använder en delmängd av de bilder som du skickade för träning eller som användaren tillhandahöll för utvärdering för att uppskatta genomsnittlig precision, medelgenomsnittlig precision, noggrannhet – topp 1 och topp 5. Dessa tre mätningar av en bildklassificerare och objektdetektorns effektivitet definieras på följande sätt:
Genomsnittlig precision är procentandelen identifierade klassificeringar som var korrekta. Om modellen till exempel identifierade 100 bilder som hundar, och 99 av dem faktiskt var hundar, är precisionen 99 procent.
Genomsnittlig genomsnittlig precision (mAP) är det genomsnittliga värdet för den genomsnittliga precisionen (AP). AP är området under precisions-/återkallningskurvan (precision ritad mot återkallande för varje förutsägelse som görs).
- Genomsnittlig genomsnittlig precision @ 30: Objektidentifieringsprestanda för alla taggar, när IoU är 30.
- Genomsnittlig genomsnittlig precision @ 50: Objektidentifieringsprestanda för alla taggar, när IoU är 50.
- Genomsnittlig genomsnittlig precision @ 75: Objektidentifieringsprestanda för alla taggar, när IoU är 75.
Noggrannhet är ett mått för utvärdering av klassificeringsmodeller. Informellt är noggrannhet den del av förutsägelser som din modell fick rätt. Formellt sett har noggrannhet följande definition:
- Noggrannhet – Topp 1 är den konventionella noggrannheten, modellförutsägelse (den med högst sannolikhet) måste vara exakt det förväntade svaret. Den mäter andelen exempel som den förutsagda etiketten matchar den enskilda måletiketten för.
- Noggrannhet – Topp 5 innebär att någon av modellens topp 5 högsta sannolikhetssvar matchar det förväntade svaret. Den anser att en klassificering är korrekt om någon av de fem förutsägelserna matchar måletiketten.
Metodtips för att förbättra noggrannheten i anpassningsmodellen
Processen att skapa en anpassningsmodell är iterativ. Varje gång du tränar din modell skapar du en ny iteration/utvärdering med egna uppdaterade prestandamått. Du kan visa alla dina utvärderingar i informationen om projektet i Vision Studio. För att förbättra modellens prestanda expanderar du de olika etiketterade data som du anger när du tränar modellen. Kvaliteten beror också på hur balanserad den övergripande datamängden är mellan klasser.
En modell kan lära sig att göra förutsägelser baserat på godtyckliga egenskaper som dina bilder har gemensamt. Vi rekommenderar att du testar modellen för en utvärdering med ytterligare data. När du har testat modellen kan du publicera och använda modellen för slutsatsdragning.
Baserat på modellens prestanda måste du bestämma om modellen är lämplig för ditt användningsfall och dina affärsbehov. Här är en metod som du kan använda. Du kan distribuera en anpassningsmodell i en isolerad miljö, testa modellens prestanda i förhållande till ditt användningsfall och sedan använda förutsägelserna för att träna modellen ytterligare tills den når önskad prestandanivå.
Läs mer om ansvarsfull AI
- Microsoft AI-principer
- Microsofts ansvarsfulla AI-resurser
- Microsoft Azure Learning-kurser om ansvarsfull AI