Ansiktsigenkänning, attribut och indata

Artikel
04/30/2024

Varning

Åtkomsten till ansiktstjänsten är begränsad baserat på berättigande- och användningskriterier för att stödja våra principer för ansvarsfull AI. Ansiktstjänsten är endast tillgänglig för Microsofts hanterade kunder och partner. Använd formuläret ansiktsigenkänning för att ansöka om åtkomst. Mer information finns på sidan ansiktsbegränsade åtkomst .

Viktigt!

Ansiktsattribut förutsägs med hjälp av statistiska algoritmer. De kanske inte alltid är korrekta. Var försiktig när du fattar beslut baserat på attributdata. Avstå från att använda dessa attribut för förfalskning. I stället rekommenderar vi att du använder ansiktsigenkänning. Mer information finns i Självstudie: Identifiera livskraft i ansikten.

Den här artikeln beskriver begreppen ansiktsidentifiering och ansiktsattributdata. Ansiktsigenkänning är processen att hitta mänskliga ansikten i en bild och eventuellt returnera olika typer av ansiktsrelaterade data.

Du använder API:et Detect för att identifiera ansikten i en bild. Om du vill komma igång med rest-API:et eller ett klient-SDK följer du en snabbstart. En mer djupgående guide finns i Anropa identifierings-API:et.

Ansiktsrektangel

Varje identifierat ansikte motsvarar ett faceRectangle fält i svaret. Det här är en uppsättning pixelkoordinater för det identifierade ansiktets vänstra, övre, bredd och höjd. Med hjälp av dessa koordinater kan du hämta ansiktets plats och storlek. I API-svaret visas ansikten i storleksordning från största till minsta.

Prova funktionerna för ansiktsidentifiering snabbt och enkelt med Hjälp av Vision Studio.

Prova Vision Studio

Ansikts-ID

Ansikts-ID:t är en unik identifierarsträng för varje identifierat ansikte i en bild. Ansikts-ID kräver godkännande av begränsad åtkomst, vilket du kan ansöka om genom att fylla i intagsformuläret. Mer information finns på sidan ansiktsbegränsade åtkomst. Du kan begära ett ansikts-ID i ditt Detect API-anrop.

Ansiktslandmärken

Ansiktsmärken är en uppsättning lättanvända punkter i ett ansikte, till exempel eleverna eller nässpetsen. Som standard finns 27 fördefinierade landmärkespunkter. Följande bild visar alla 27 punkter:

Ett ansiktsdiagram med alla 27 landmärken märkta

Koordinaterna för punkterna returneras i bildpunkternas enheter.

Den Detection_03 modellen har för närvarande den mest exakta identifieringen av landmärken. Ögat och elevernas landmärken som det returnerar är tillräckligt exakta för att möjliggöra blickspårning av ansiktet.

Attribut

Varning

Microsoft har dragit tillbaka funktioner för ansiktsigenkänning som kan användas för att försöka härleda känslomässiga tillstånd och identitetsattribut som, om de missbrukas, kan utsätta människor för stereotyper, diskriminering eller orättvis överbelastning av tjänster. Dessa inkluderar funktioner som förutsäger känslor, kön, ålder, leende, ansiktshår, hår och smink. Läs mer om det här beslutet här.

Attribut är en uppsättning funktioner som kan identifieras av identifierings-API:et. Följande attribut kan identifieras:

Tillbehör. Anger om det angivna ansiktet har tillbehör. Det här attributet returnerar möjliga tillbehör, inklusive huvudbonader, glasögon och mask, med konfidenspoäng mellan noll och en för varje tillbehör.
Oskärpa. Suddigheten i ansiktet på bilden. Det här attributet returnerar ett värde mellan noll och ett och ett informellt omdöme med låg, medel eller hög.
Exponering. Ansiktets exponering i bilden. Det här attributet returnerar ett värde mellan noll och ett och ett informellt omdöme av underExposure, goodExposure eller overExposure.
Glasögon. Om det givna ansiktet har glasögon. Möjliga värden är NoGlasses, ReadingGlasses, Sunglasses och Swimming Goggles.
Huvudställning. Ansiktets orientering i 3D-utrymme. Det här attributet beskrivs av rullnings-, yaw- och lutningsvinklarna i grader, som definieras enligt högerregeln. Ordningen på tre vinklar är roll-yaw-pitch, och varje vinkels värdeintervall är från -180 grader till 180 grader. 3D-orientering av ansiktet uppskattas av rullen, yaw och stigning vinklar i ordning. Se följande diagram för vinkelmappningar:

Mer information om hur du använder dessa värden finns i instruktionsguiden huvudposition.
Maskera. Anger om ansiktet bär mask. Det här attributet returnerar en möjlig masktyp och ett booleskt värde som anger om näsa och mun täcks.
Brus. Det visuella bruset som identifieras i ansiktsbilden. Det här attributet returnerar ett värde mellan noll och ett och ett informellt omdöme med låg, medel eller hög.
Ocklusion. Anger om det finns objekt som blockerar delar av ansiktet. Det här attributet returnerar ett booleskt värde för eyeOccluded, foreheadOccluded och mouthOccluded.
QualityForRecognition Den övergripande bildkvaliteten för om bilden som används i identifieringen är av tillräcklig kvalitet för att försöka identifiera ansiktet. Värdet är ett informellt omdöme av låg, medel eller hög. Endast bilder av hög kvalitet rekommenderas för personregistrering och kvalitet på eller över "medium" rekommenderas för identifieringsscenarier.

Kommentar

Tillgängligheten för varje attribut beror på den angivna identifieringsmodellen. Attributet QualityForRecognition beror också på igenkänningsmodellen, eftersom den för närvarande endast är tillgänglig när du använder en kombination av identifieringsmodell detection_01 eller detection_03 och igenkänningsmodell recognition_03 eller recognition_04.

Indatakrav

Använd följande tips för att se till att dina indatabilder ger de mest exakta identifieringsresultaten:

De indatabildformat som stöds är JPEG, PNG, GIF (den första ramen), BMP.
Bildfilens storlek får inte vara större än 6 MB.

Den minsta detekterbara ansiktsstorleken är 36 x 36 bildpunkter i en bild som inte är större än 1 920 x 1 080 bildpunkter. Bilder med större än 1 920 x 1 080 bildpunkter har en proportionellt större minsta ansiktsstorlek. Om ansiktsstorleken minskas kan vissa ansikten inte identifieras, även om de är större än den minsta påvisbara ansiktsstorleken.
Den maximala detekterbara ansiktsstorleken är 4 096 x 4 096 bildpunkter.
Ansikten utanför storleksintervallet 36 x 36 till 4 096 x 4 096 bildpunkter identifieras inte.

Indata med orienteringsinformation:

Vissa indatabilder med JPEG-format kan innehålla orienteringsinformation i EXIF-metadata (Exchangeable Image File Format). Om EXIF-orientering är tillgänglig roteras bilderna automatiskt till rätt orientering innan de skickas för ansiktsidentifiering. Ansiktsrektangeln, landmärkena och huvudpositionen för varje identifierat ansikte uppskattas baserat på den roterade bilden.

Om du vill visa ansiktsrektangeln och landmärken korrekt måste du kontrollera att bilden roteras korrekt. De flesta av verktygen för bildvisualisering roterar automatiskt bilden enligt exif-orienteringen som standard. För andra verktyg kan du behöva använda rotationen med hjälp av din egen kod. I följande exempel visas en ansiktsrektangel på en roterad bild (vänster) och en icke-roterad bild (höger).

Två ansiktsbilder med och utan rotation

Videoinmatning

Om du identifierar ansikten från ett videoflöde kanske du kan förbättra prestandan genom att justera vissa inställningar på videokameran:

Utjämning: Många videokameror tillämpar en utjämningseffekt. Du bör inaktivera detta om du kan eftersom det skapar en oskärpa mellan bildrutor och minskar tydligheten.
Slutartid: En snabbare slutartid minskar mängden rörelse mellan ramar och gör varje bildruta tydligare. Vi rekommenderar slutartider på 1/60 sekund eller snabbare.
Slutarvinkel: Vissa kameror anger slutarvinkel i stället för slutartid. Du bör använda en lägre slutarvinkel om möjligt. Detta resulterar i tydligare videoramar.

Kommentar

En kamera med en lägre slutarvinkel får mindre ljus i varje ram, så bilden blir mörkare. Du måste fastställa rätt nivå att använda.

Nästa steg

Nu när du är bekant med begrepp för ansiktsidentifiering kan du lära dig hur du skriver ett skript som identifierar ansikten i en viss bild.

Anropa identifierings-API:et

Dela via