Co nowego w usłudze Azure AI Vision

Artykuł
03/11/2024

Dowiedz się, co nowego w usłudze Azure AI Vision. Sprawdź tę stronę, aby być na bieżąco z nowymi funkcjami, ulepszeniami, poprawkami i aktualizacjami dokumentacji.

Luty 2024 r.

Osadzanie wielomodalne — ogólna dostępność: nowy model wielojęzyczny

Interfejs API osadzania wielomodalnego został zaktualizowany i jest teraz ogólnie dostępny. Nowy 2024-02-01 interfejs API zawiera nowy model, który obsługuje wyszukiwanie tekstu w 102 językach. Oryginalny model tylko w języku angielskim jest nadal dostępny, ale nie można go połączyć z nowym modelem w tym samym indeksie wyszukiwania. W przypadku wektoryzowanego tekstu i obrazów przy użyciu modelu tylko w języku angielskim te wektory nie są zgodne z wielojęzycznymi wektorami tekstu i obrazów.

Aby uzyskać listę obsługiwanych języków, zobacz stronę pomocy technicznej języka.

Styczeń 2024

Nowy zestaw Image Analysis SDK 1.0.0-beta.1 (zmiany powodujące niezgodność)

Zestaw SDK analizy obrazów został przepisany w wersji 1.0.0-beta.1, aby lepiej dopasować je do innych zestawów SDK platformy Azure. Wszystkie interfejsy API uległy zmianie. Zobacz zaktualizowane przewodniki Szybki start, przykłady i przewodniki z instrukcjami, aby uzyskać informacje na temat korzystania z nowego zestawu SDK.

Istotne zmiany:

Zestaw SDK wywołuje teraz ogólnie dostępny interfejs API REST przetwarzanie obrazów (2023-10-01) zamiast interfejsu API REST przetwarzanie obrazów w wersji zapoznawczej (2023-04-01-preview).
Dodano obsługę języka JavaScript.
Język C++ nie jest już obsługiwany.
Analiza obrazów z modelem niestandardowym i segmentacja obrazów (usuwanie tła) nie jest już obsługiwana w zestawie SDK, ponieważ interfejs API REST przetwarzanie obrazów (2023-10-01) nie obsługuje ich jeszcze. Aby użyć jednej z tych funkcji, wywołaj interfejs API REST przetwarzanie obrazów (2023-04-01-preview) bezpośrednio (przy użyciu Analyze odpowiednio operacji iSegment).

Listopad 2023

Analizowanie obrazu 4.0 (ogólna dostępność)

Interfejs API REST analizowania obrazu 4.0 jest teraz ogólnie dostępny. Postępuj zgodnie z przewodnikiem Szybki start Analizowanie obrazu 4.0, aby rozpocząć pracę.

Inne funkcje analizy obrazów, takie jak dostosowywanie modelu, usuwanie tła i osadzanie wielomodalne, pozostają w publicznej wersji zapoznawczej.

Zestaw SDK po stronie klienta rozpoznawania twarzy na potrzeby wykrywania aktualności

Zestaw SDK rozpoznawania twarzy na żywo obsługuje wykrywanie na żywo na urządzeniach przenośnych lub brzegowych użytkowników. Jest ona dostępna w językach Java/Kotlin dla systemów Android i Swift/Objective-C dla systemu iOS.

Nasza usługa wykrywania aktualności spełnia zgodność z normami iBeta Level 1 i 2 ISO/IEC 30107-3.

Wrzesień 2023

Wycofanie nieaktualnych wersji interfejsu API przetwarzanie obrazów

interfejs API przetwarzanie obrazów w wersji 1.0, 2.0, 3.0 i 3.1 zostanie wycofany 13 września 2026 r. Deweloperzy nie będą mogli wykonywać wywołań interfejsu API do tych interfejsów API po tej dacie. Zalecamy, aby wszyscy klienci, których dotyczy problem, migrowali swoje obciążenia do ogólnie dostępnego interfejsu API przetwarzanie obrazów 3.2, postępując zgodnie z instrukcjami w tym przewodniku Szybki start najwcześniej. Klienci powinni również rozważyć migrację do interfejsu API analizy obrazów 4.0 (wersja zapoznawcza), który ma najnowsze i największe możliwości analizy obrazów.

Odwiedź naszą stronę pytań i odpowiedzi, aby uzyskać odpowiedzi na pytania.

Maj 2023

Image Analysis 4.0 Product Recognition (publiczna wersja zapoznawcza)

Interfejsy API rozpoznawania produktów umożliwiają analizowanie zdjęć półek w sklepie detalicznym. Możesz wykryć obecność i brak produktów oraz uzyskać ich współrzędne pola ograniczenia. Użyj go w połączeniu z dostosowywaniem modelu, aby wytrenować model w celu zidentyfikowania określonych produktów. Możesz również porównać wyniki rozpoznawania produktów z dokumentem planogramu sklepu. Rozpoznawanie produktów.

Kwiecień 2023

Rozpoznawanie ograniczonych tokenów dostępu

Niezależni dostawcy oprogramowania (ISV) mogą zarządzać użyciem interfejsu API rozpoznawania twarzy swoich klientów, wystawiając tokeny dostępu, które udzielają dostępu do funkcji rozpoznawania twarzy, które są zwykle bramowane. Dzięki temu firmy klienckie mogą korzystać z interfejsu API rozpoznawania twarzy bez konieczności wykonywania formalnego procesu zatwierdzania. Użyj ograniczonych tokenów dostępu.

Marzec 2023

Publiczna wersja zapoznawcza zestawu AZURE AI Vision Image Analysis 4.0 SDK

Model fundacji Florence jest teraz zintegrowany z usługą Azure AI Vision. Ulepszone usługi przetwarzania obrazów umożliwiają deweloperom tworzenie gotowych na rynek, odpowiedzialnych aplikacji azure AI Vision w różnych branżach. Klienci mogą teraz bezproblemowo cyfryzować, analizować i łączyć swoje dane z interakcjami w języku naturalnym, odblokowując zaawansowane szczegółowe informacje z ich obrazów i zawartości wideo w celu obsługi ułatwień dostępu, pozyskiwania za pośrednictwem funkcji SEO, chronić użytkowników przed szkodliwą zawartością, zwiększyć bezpieczeństwo i poprawić czasy reagowania na zdarzenia. Aby uzyskać więcej informacji, zobacz Ogłoszenie modelu fundacji Florence firmy Microsoft.

Zestaw SDK analizy obrazów 4.0 (publiczna wersja zapoznawcza)

Usługa Image Analysis 4.0 jest teraz dostępna za pośrednictwem zestawów SDK biblioteki klienta w językach C#, C++i Python. Ta aktualizacja obejmuje również obraz oparty na Florencji podpis i gęste podpis w wydajności parzystości ludzkiej.

Image Analysis V4.0 Captioning and Dense Captioning (publiczna wersja zapoznawcza):

Wyrażenie "Caption" zastępuje element "Describe" w wersji 4.0, ponieważ ulepszona funkcja podpis obrazów bogata w szczegóły i zrozumienie semantyczne. Transkrypcje gęste zapewniają więcej szczegółów, generując opisy jednodniowe do 10 regionów obrazu oprócz opisywania całego obrazu. Napisy gęste zwracają również współrzędne pola ograniczenia dla opisanych regionów obrazu. Istnieje również nowy parametr neutralny pod względem płci, aby umożliwić klientom wybór, czy włączyć probabilistyczne wnioskowanie płci dla aplikacji alt-text i Seeing AI. Automatyczne dostarczanie rozbudowanych podpis, dostępnego tekstu alternatywnego, optymalizacji optymalizacji seo i inteligentnego przetwarzania zdjęć w celu obsługi zawartości cyfrowej. Podpis obrazu.

Podsumowanie wideo i lokalizator ramek (publiczna wersja zapoznawcza):

Wyszukiwanie i interakcja z zawartością wideo w taki sam intuicyjny sposób, w jaki myślisz i piszesz. Znajdź odpowiednią zawartość bez konieczności dodatkowych metadanych. Dostępne tylko w programie Vision Studio.

Dostosowywanie modelu usługi Image Analysis 4.0 (publiczna wersja zapoznawcza)

Teraz możesz tworzyć i trenować własne niestandardowe modele klasyfikacji obrazów i wykrywania obiektów przy użyciu programu Vision Studio lub interfejsów API REST w wersji 4.0.

Interfejsy API osadzania wielomodalnego (publiczna wersja zapoznawcza)

Interfejsy API osadzania wielomodalnego, część interfejsu API Analizy obrazu 4.0, umożliwiają wektoryzacja obrazów i zapytań tekstowych. Umożliwiają one konwertowanie obrazów i tekstu na współrzędne w przestrzeni wektorów wielowymiarowych. Teraz możesz wyszukiwać za pomocą języka naturalnego i znajdować odpowiednie obrazy przy użyciu wyszukiwania podobieństwa wektorów.

Interfejsy API usuwania w tle (publiczna wersja zapoznawcza)

W ramach interfejsu API analizy obrazu 4.0 interfejs API usuwania tła umożliwia usunięcie tła obrazu. Ta operacja może wygenerować obraz wykrytego obiektu pierwszego planu z przezroczystym tłem lub obraz matowy alfa w skali szarości przedstawiający nieprzezroczystość wykrytego obiektu pierwszego planu.

Wycofanie wersji zapoznawczej usługi Azure AI Vision 3.0 i 3.1

Wersje zapoznawcze interfejsów API usługi Azure AI Vision 3.0 i 3.1 mają zostać wycofane 30 września 2023 r. Klienci nie będą mogli wykonywać żadnych wywołań do tych interfejsów API po tej dacie. Zachęcamy klientów do migrowania obciążeń do ogólnie dostępnego interfejsu API w wersji 3.2. Podczas migracji z wersji zapoznawczej do interfejsu API 3.2 należy pamiętać o następujących zmianach:

Wywołania interfejsu API analizowania obrazu i odczytu przyjmują opcjonalny parametr wersji modelu, którego można użyć do określenia, który model AI ma być używany. Domyślnie używają najnowszego modelu.
Wywołania interfejsu API analizowania obrazu i odczytu zwracają model-version również pole w pomyślnych odpowiedziach interfejsu API. To pole raportuje, który model został użyty.
Interfejs API usługi Azure AI Vision 3.2 używa innego formatu raportowania błędów. Zapoznaj się z dokumentacją referencyjną interfejsu API, aby dowiedzieć się, jak dostosować kod obsługi błędów.

Październik 2022

Azure AI Vision Image Analysis 4.0 (publiczna wersja zapoznawcza)

Analiza obrazu 4.0 została wydana w publicznej wersji zapoznawczej. Nowy interfejs API zawiera podpis obrazów, tagowanie obrazów, wykrywanie obiektów, inteligentne uprawy, wykrywanie osób i funkcję odczytu OCR, wszystkie dostępne za pomocą jednej operacji analizowania obrazu. Funkcja OCR jest zoptymalizowana pod kątem ogólnych obrazów innych niż dokumenty w interfejsie API synchronicznym o wydajności, który ułatwia osadzanie środowisk OCR w przepływach pracy.

2022 września

Wycofanie wersji zapoznawczej usługi Azure AI Vision 3.0/3.1 odczytanych wersji zapoznawczych

Wersje zapoznawcza interfejsu API odczytu usługi Azure AI Vision 3.0 i 3.1 mają zostać wycofane 31 stycznia 2023 r. Zachęcamy klientów do zapoznania się z instrukcjami i przewodnikami Szybki start, aby zamiast tego rozpocząć pracę z ogólnie dostępną wersją interfejsu API odczytu. Najnowsze wersje ogólnie dostępne zapewniają następujące korzyści:

Najnowszy ogólnie dostępny model OCR z 2022 r.
Znaczne rozszerzenie pokrycia języka OCR, w tym obsługę tekstu odręcznego
Ulepszona jakość OCR

Czerwiec 2022

Uruchamianie programu Vision Studio

Vision Studio to narzędzie interfejsu użytkownika, które umożliwia eksplorowanie, kompilowanie i integrowanie funkcji z usługi Azure AI Vision z aplikacjami.

Program Vision Studio udostępnia platformę do wypróbowania kilku funkcji usługi i sprawdzenia, co zwracają w sposób wizualny. Za pomocą programu Studio możesz rozpocząć pracę bez konieczności pisania kodu, a następnie używać dostępnych bibliotek klienckich i interfejsów API REST w aplikacji.

Odpowiedzialne używanie sztucznej inteligencji na potrzeby rozpoznawania twarzy

Uwaga dotycząca przezroczystości twarzy

Uwaga dotycząca przejrzystości zawiera wskazówki ułatwiające naszym klientom poprawę dokładności i sprawiedliwości swoich systemów dzięki włączeniu znaczącego przeglądu przez człowieka w celu wykrywania i rozwiązywania przypadków błędu błędnego identyfikacji lub innych niepowodzeń, zapewniając wsparcie osobom, które uważają, że ich wyniki były nieprawidłowe, oraz identyfikowanie i rozwiązywanie wahań dokładności z powodu zmian w warunkach operacyjnych.

Wycofanie poufnych atrybutów

Wycofaliśmy możliwości analizy twarzy, które rzekomo wywnioskowały stany emocjonalne i atrybuty tożsamości, takie jak płeć, wiek, uśmiech, zarost, włosy i makijaż.
Funkcje wykrywania twarzy (w tym wykrywanie rozmycia, ekspozycja, okulary, headpose, landmarks, hałas, oklusion, pole ograniczenia twarzy) pozostaną ogólnie dostępne i nie wymagają aplikacji.

Pakiet Fairlearn i pulpit nawigacyjny fairness firmy Microsoft

Pakiet Fairlearn typu open source i pulpit nawigacyjny fairness firmy Microsoft ma na celu wsparcie klientów w celu mierzenia sprawiedliwości algorytmów weryfikacji twarzy firmy Microsoft na własnych danych, co pozwala im identyfikować i rozwiązywać potencjalne problemy z sprawiedliwością, które mogą mieć wpływ na różne grupy demograficzne przed wdrożeniem ich technologii.

Zasady ograniczonego dostępu

W ramach dopasowywania rozpoznawania twarzy do zaktualizowanej wersji odpowiedzialnej sztucznej inteligencji wprowadzono nowe zasady ograniczonego dostępu dla interfejsu API rozpoznawania twarzy i usługi Azure AI Vision. Istniejący klienci mają rok na złożenie wniosku i otrzymanie zgody na stały dostęp do usług rozpoznawania twarzy w oparciu o podane przypadki użycia. Szczegółowe informacje na temat ograniczonego dostępu do rozpoznawania twarzy można znaleźć tutaj i w usłudze Azure AI Vision tutaj.

Wycofanie usługi Azure AI Vision 3.2 w wersji zapoznawczej

Wersje zapoznawcza interfejsu API 3.2 mają zostać wycofane w grudniu 2022 r. Zachęcamy klientów do korzystania z ogólnie dostępnej wersji interfejsu API. Podczas migracji z wersji zapoznawczej 3.2 należy pamiętać o następujących zmianach:

Wywołania interfejsu API analizowania obrazu i odczytu przyjmują teraz opcjonalny parametr wersji modelu, którego można użyć do określenia, który model AI ma być używany. Domyślnie używają najnowszego modelu.
Wywołania interfejsu API analizowania obrazu i odczytu zwracają model-version również pole w pomyślnych odpowiedziach interfejsu API. To pole raportuje, który model został użyty.
Interfejsy API analizy obrazów używają teraz innego formatu raportowania błędów. Zapoznaj się z dokumentacją referencyjną interfejsu API, aby dowiedzieć się, jak dostosować kod obsługi błędów.

Maj 2022

Model interfejsu API OCR (odczyt) jest ogólnie dostępny (GA)

Najnowszy model interfejsu API OCR (odczyt) usługi Azure AI Vision z 164 obsługiwanymi językami jest teraz ogólnie dostępny jako usługa w chmurze i kontener.

Obsługa OCR dla tekstu drukowanego rozszerza się do 164 języków, w tym rosyjskich, arabskich, hindi i innych języków przy użyciu skryptów Cyrylica, Arabskich i Devanagari.
Obsługa OCR dla tekstu odręcznego rozszerza się na 9 języków z językiem angielskim, chińskim uproszczonym, francuskim, niemieckim, włoskim, japońskim, koreańskim, portugalskim i hiszpańskim.
Ulepszona obsługa pojedynczych znaków, dat odręcznych, kwot, nazw, innych jednostek często występujących w paragonach i fakturach.
Ulepszone przetwarzanie cyfrowych dokumentów PDF.
Limit rozmiaru pliku wejściowego wzrósł o 10x do 500 MB.
Ulepszenia wydajności i opóźnień.
Dostępne jako usługa w chmurze i kontener platformy Docker.

Zapoznaj się z przewodnikiem Z instrukcjami dotyczącymi OCR, aby dowiedzieć się, jak używać modelu ogólnie dostępnego.

Wprowadzenie do interfejsu API odczytu

Luty 2022 r.

Publiczna wersja zapoznawcza interfejsu API OCR (odczyt) obsługuje 164 języki

Interfejs API OCR (odczyt) usługi Azure AI Vision rozszerza obsługiwane języki do wersji 164 z najnowszą wersją zapoznawcza:

Obsługa OCR dla tekstu drukowanego rozszerza się do 42 nowych języków, w tym arabskich, hindi i innych języków przy użyciu skryptów arabskich i Devanagari.
Obsługa optycznego rozpoznawania znaków dla tekstu odręcznego jest rozszerzana do języka japońskiego i koreańskiego oprócz języka angielskiego, chińskiego uproszczonego, francuskiego, niemieckiego, włoskiego, portugalskiego i hiszpańskiego.
Ulepszenia, w tym lepsza obsługa wyodrębniania dat odręcznych, ilości, nazw i pól pojedynczych znaków.
Ogólne ulepszenia wydajności i jakości sztucznej inteligencji

Zapoznaj się z przewodnikiem Z instrukcjami dotyczącymi OCR, aby dowiedzieć się, jak korzystać z nowych funkcji w wersji zapoznawczej.

Wprowadzenie do interfejsu API odczytu

Nowy atrybut jakości w Detection_01 i Detection_03

Aby ułatwić konstruktorom systemów i ich klientom przechwytywanie obrazów wysokiej jakości, które są niezbędne w przypadku wysokiej jakości danych wyjściowych z interfejsu API rozpoznawania twarzy, wprowadzamy nowy atrybut jakości QualityForRecognition , aby pomóc w podjęciu decyzji, czy obraz ma wystarczającą jakość do próby rozpoznawania twarzy. Wartość jest nieformalną oceną niskiej, średniej lub wysokiej. Nowy atrybut jest dostępny tylko w przypadku używania dowolnych kombinacji modeli detection_01 wykrywania lub detection_03modeli rozpoznawania recognition_03 lub recognition_04. W scenariuszach identyfikacji zaleca się stosowanie tylko obrazów o wysokiej jakości, a jakość powyżej "średniej". Aby dowiedzieć się więcej o nowym atrybucie jakości, zobacz Wykrywanie twarzy i atrybuty i zobacz, jak używać go z przewodnikiem Szybki start.

Wrzesień 2021

Publiczna wersja zapoznawcza interfejsu API OCR (odczyt) obsługuje 122 języków

Interfejs API OCR (odczyt) usługi Azure AI Vision rozszerza obsługiwane języki do wersji 122 dzięki najnowszej wersji zapoznawczej:

Obsługa optycznego rozpoznawania znaków dla tekstu drukowanego w 49 nowych językach, w tym w języku rosyjskim, bułgarskim i innych cyrylicach i innych językach łacińskich.
Obsługa OCR dla tekstu odręcznego w 6 nowych językach, w tym angielskiego, chińskiego uproszczonego, francuskiego, niemieckiego, włoskiego, portugalskiego i hiszpańskiego.
Ulepszenia przetwarzania cyfrowych plików PDF i tekstu strefy do odczytu maszyny (MRZ) w dokumentach tożsamości.
Ogólne ulepszenia wydajności i jakości sztucznej inteligencji

Zapoznaj się z przewodnikiem Z instrukcjami dotyczącymi OCR, aby dowiedzieć się, jak korzystać z nowych funkcji w wersji zapoznawczej.

Wprowadzenie do interfejsu API odczytu

Sierpień 2021

Rozszerzanie języka tagowania obrazów

Najnowsza wersja (wersja 3.2) narzędzia Image tagger obsługuje teraz tagi w 50 językach. Aby uzyskać więcej informacji, zobacz stronę pomocy technicznej języka.

Lipiec 2021

Ulepszenia nowych elementów headPose i Landmarks dla Detection_03

Model Detection_03 został zaktualizowany w celu obsługi elementów krajobrazu twarzy.
Cechy charakterystyczne w Detection_03 są znacznie bardziej precyzyjne, zwłaszcza w punktach orientacyjnych gałek ocznych, które mają kluczowe znaczenie dla śledzenia wzroku.

Maj 2021

Aktualizacja kontenera analizy przestrzennej

Nowa wersja kontenera analizy przestrzennej została wydana z nowym zestawem funkcji. Ten kontener platformy Docker umożliwia analizowanie wideo przesyłanego strumieniowo w czasie rzeczywistym w celu zrozumienia relacji przestrzennych między ludźmi i ich przemieszczaniem się w środowiskach fizycznych.

Operacje analizy przestrzennej można teraz skonfigurować pod kątem wykrywania orientacji, z którą ma do czynienia dana osoba.
- Klasyfikator orientacji można włączyć dla personcrossingline operacji i personcrossingpolygon , konfigurując enable_orientation parametr . Jest on domyślnie wyłączony.
Operacje analizy przestrzennej oferują teraz również konfigurację wykrywania szybkości osoby podczas chodzenia/uruchamiania
- Szybkość można wykryć dla personcrossingline operacji i personcrossingpolygon , włączając enable_speed klasyfikator, który jest domyślnie wyłączony. Dane wyjściowe są odzwierciedlane w speeddanych wyjściowych , avgSpeedi minSpeed .

Kwiecień 2021

Azure AI Vision w wersji 3.2 (ogólna dostępność)

Interfejs API usługi Azure AI Vision w wersji 3.2 jest teraz ogólnie dostępny z następującymi aktualizacjami:

Ulepszony model tagowania obrazów: analizuje zawartość wizualną i generuje odpowiednie tagi na podstawie obiektów, akcji i zawartości wyświetlanej na obrazie. Ten model jest dostępny za pośrednictwem interfejsu API obrazów tagów. Aby dowiedzieć się więcej, zobacz przewodnik i omówienie analizy obrazów.
Zaktualizowany model con tryb namiotu ration: wykrywa obecność zawartości dla dorosłych i udostępnia flagi do filtrowania obrazów zawierających zawartość wizualną dla dorosłych, rasistowskich i gory. Ten model jest dostępny za pośrednictwem interfejsu API analizy. Aby dowiedzieć się więcej, zobacz przewodnik i omówienie analizy obrazów.
Funkcja OCR (odczyt) jest dostępna dla 73 języków, w tym uproszczonych i tradycyjnych języków chińskich , japońskich, koreańskich i łacińskich.
Funkcja OCR (odczyt) jest również dostępna jako kontener bez dystrybucji dla wdrożenia lokalnego.

Zobacz Azure AI Vision w wersji 3.2 (ogólna dostępność)

Struktura danych PersonDirectory (wersja zapoznawcza)

Aby wykonać operacje rozpoznawania twarzy, takie jak Identyfikowanie i znajdowanie podobnych, klienci interfejsu API rozpoznawania twarzy muszą utworzyć rozdzielaną listę obiektów osoby . Nowa funkcja PersonDirectory to struktura danych zawierająca unikatowe identyfikatory, opcjonalne ciągi nazw i opcjonalne ciągi metadanych użytkownika dla każdej tożsamości osoby dodanej do katalogu. Obecnie interfejs API rozpoznawania twarzy oferuje strukturę LargePersonGroup , która ma podobne funkcje, ale jest ograniczona do 1 miliona tożsamości. Struktura PersonDirectory może skalować do 75 milionów tożsamości.
Kolejną główną różnicą między osobą PersonDirectory i poprzednimi strukturami danych jest to, że nie trzeba już wykonywać żadnych wywołań trenowania po dodaniu twarzy do obiektu Person — proces aktualizacji odbywa się automatycznie. Aby uzyskać więcej informacji, zobacz Use the PersonDirectory structure (Używanie struktury PersonDirectory).

Marzec 2021

Aktualizacja publicznej wersji zapoznawczej usługi Azure AI Vision 3.2

Zaktualizowano publiczną wersję zapoznawcza interfejsu API usługi Azure AI Vision w wersji 3.2. Wersja zapoznawcza zawiera wszystkie funkcje usługi Azure AI Vision wraz ze zaktualizowanymi interfejsami API odczytu i analizowania.

Zobacz Publiczna wersja zapoznawcza 3.2 usługi Azure AI Vision 3.3

Luty 2021 r.

Odczyt interfejsu API w wersji 3.2 w publicznej wersji zapoznawczej z obsługą protokołu OCR dla 73 języków

Publiczna wersja zapoznawcza interfejsu API odczytu usługi Azure AI Vision w wersji 3.2 dostępna jako usługa w chmurze i kontener platformy Docker obejmują następujące aktualizacje:

OCR dla 73 języków , w tym uproszczonych i tradycyjnych języków chińskich, japońskich, koreańskich i łacińskich.
Naturalna kolejność odczytywania danych wyjściowych wiersza tekstu (tylko języki łacińskie)
Klasyfikacja stylu pisma ręcznego dla wierszy tekstu wraz z oceną ufności (tylko języki łacińskie).
Wyodrębnij tekst tylko dla wybranych stron dla dokumentu wielostronicowego.
Dostępny jako kontener bez dystrybucji dla wdrożenia lokalnego.

Aby dowiedzieć się więcej, zobacz przewodnik z instrukcjami dotyczącymi interfejsu API odczytu.

Korzystanie z interfejsu API odczytu w wersji 3.2 w publicznej wersji zapoznawczej

Nowy model wykrywania interfejsu API rozpoznawania twarzy

Nowy model wykrywania 03 jest obecnie najbardziej dokładnym modelem wykrywania. Jeśli jesteś nowym klientem, zalecamy użycie tego modelu. Wykrywanie 03 poprawia zarówno kompletność, jak i precyzję mniejszych twarzy znalezionych na obrazach (64x64 pikseli). Inne ulepszenia obejmują ogólną redukcję wyników fałszywie dodatnich i ulepszone wykrywanie obróconych orientacji twarzy. Połączenie wykrywania 03 z nowym modelem Rozpoznawanie 04 zapewnia również lepszą dokładność rozpoznawania. Aby uzyskać więcej informacji, zobacz Określanie modelu wykrywania twarzy.

Nowe wykrywalne atrybuty twarzy

Atrybut faceMask jest dostępny z najnowszym modelem Detection 03 wraz z dodanym atrybutem "noseAndMouthCovered", który wykrywa, czy maska twarzy jest noszona zgodnie z oczekiwaniami, zakrywając zarówno nos, jak i usta. Aby użyć najnowszej funkcji wykrywania maski, użytkownicy muszą określić model wykrywania w żądaniu interfejsu API: przypisz wersję modelu za pomocą parametru detectionModel do detection_03. Aby uzyskać więcej informacji, zobacz Określanie modelu wykrywania twarzy.

Nowy model rozpoznawania interfejsu API rozpoznawania twarzy

Nowy model rozpoznawania 04 jest obecnie najbardziej dokładnym modelem rozpoznawania. Jeśli jesteś nowym klientem, zalecamy użycie tego modelu do weryfikacji i identyfikacji. Poprawia dokładność rozpoznawania 03, w tym ulepszone rozpoznawanie użytkowników ubranych w osłony twarzy (maski chirurgiczne, maski N95, maski tkaniny). Zalecamy zarejestrowanie obrazów użytkowników ubranych w osłony twarzy, ponieważ spowoduje to obniżenie jakości rozpoznawania. Teraz klienci mogą tworzyć bezpieczne i bezproblemowe środowiska użytkownika, które wykrywają, czy użytkownik ma na sobie osłonę twarzy z najnowszym modelem Wykrywania 03 i rozpoznaje je za pomocą najnowszego modelu rozpoznawania 04. Aby uzyskać więcej informacji, zobacz Określanie modelu rozpoznawania twarzy.

Styczeń 2021

Aktualizacja kontenera analizy przestrzennej

Operacje analizy przestrzennej można teraz skonfigurować do wykrywania, czy dana osoba ma na sobie osłonę twarzy, taką jak maska.
- Klasyfikator maski można włączyć dla personcountpersoncrossingline operacji i personcrossingpolygon , konfigurując ENABLE_FACE_MASK_CLASSIFIER parametr .
- Atrybuty face_mask i face_noMask zostaną zwrócone jako metadane z współczynnikiem ufności dla każdej osoby wykrytej w strumieniu wideo
Operacja personcrossingpolygon została rozszerzona, aby umożliwić obliczenie czasu zamieszkania, który osoba spędza w strefie. Parametr można ustawić type w konfiguracji strefy dla operacji na zonedwelltime i nowe zdarzenie typu personZoneDwellTimeEvent będzie zawierać durationMs pole wypełnione liczbą milisekund, które osoba spędziła w strefie.
Zmiana powodująca niezgodność: nazwa zdarzenia personZoneEvent została zmieniona na personZoneEnterExitEvent. To zdarzenie jest wywoływane przez operację personcrossingpolygon , gdy osoba wchodzi do strefy lub wychodzi z niego i dostarcza informacje kierunkowe z numerowaną stroną strefy, która została przekroczona.
Adres URL wideo można podać jako "Parametr prywatny/zaciemniony" we wszystkich operacjach. Zaciemnianie jest teraz opcjonalne i będzie działać tylko wtedy, gdy KEY i IV są udostępniane jako zmienne środowiskowe.
Kalibracja jest domyślnie włączona dla wszystkich operacji. Ustaw wartość , do_calibration: false aby ją wyłączyć.
Dodano obsługę automatycznego ponownego skalowania (domyślnie wyłączone) za pomocą parametru. Aby uzyskać szczegółowe informacje, zapoznaj się z tematem enable_recalibration Operacje analizy przestrzennej
Aparat parametrów kalibracji do .DETECTOR_NODE_CONFIG Aby uzyskać szczegółowe informacje, zapoznaj się z tematem Operacje analizy przestrzennej.

Zmniejszanie opóźnienia

Zespół ds. rozpoznawania twarzy opublikował nowy artykuł zawierający szczegółowe informacje o potencjalnych przyczynach opóźnienia podczas korzystania z usługi i możliwych strategii ograniczania ryzyka. Zobacz Ograniczanie opóźnień podczas korzystania z usługi rozpoznawania twarzy.

Grudzień 2020

Konfiguracja klienta dla magazynu face ID

Chociaż usługa rozpoznawania twarzy nie przechowuje obrazów klientów, wyodrębnione funkcje twarzy będą przechowywane na serwerze. Identyfikator face ID jest identyfikatorem funkcji twarzy i będzie używany w funkcji Rozpoznawanie twarzy — identyfikowanie, rozpoznawanie twarzy — weryfikowanie i rozpoznawanie twarzy — wyszukiwanie podobnych. Przechowywane funkcje twarzy wygasną i zostaną usunięte 24 godziny po oryginalnym wywołaniu wykrywania. Klienci mogą teraz określić czas buforowania tych identyfikatorów twarzy. Maksymalna wartość jest nadal do 24 godzin, ale można teraz ustawić minimalną wartość 60 sekund. Nowe zakresy czasu buforowanych identyfikatorów twarzy to dowolna wartość z zakresu od 60 sekund do 24 godzin. Więcej szczegółów można znaleźć w dokumentacji interfejsu API rozpoznawania twarzy — wykrywanie ( parametr faceIdTimeToLive ).

Listopad 2020

Przykładowa aplikacja rejestracji twarzy

Zespół opublikował przykładową aplikację rejestracji twarzy, aby zademonstrować najlepsze rozwiązania dotyczące ustanawiania znaczącej zgody i tworzenia systemów rozpoznawania twarzy o wysokiej dokładności za pomocą rejestracji wysokiej jakości. Przykład typu open source można znaleźć w przewodniku Tworzenie aplikacji rejestracji i w usłudze GitHub, gotowym dla deweloperów do wdrożenia lub dostosowania.

Październik 2020

Interfejs API usługi Azure AI Vision w wersji 3.1 (ogólna dostępność)

Interfejs API usługi Azure AI Vision w wersji 3.1 został uaktualniony do wersji 3.1.

Wrzesień 2020

Podgląd kontenera analizy przestrzennej

Kontener analizy przestrzennej jest teraz w wersji zapoznawczej. Funkcja Analiza przestrzenna usługi Azure AI Vision umożliwia analizowanie wideo przesyłanego strumieniowo w czasie rzeczywistym w celu zrozumienia relacji przestrzennych między ludźmi a ich ruchem za pośrednictwem środowisk fizycznych. Analiza przestrzenna to kontener platformy Docker, którego można używać lokalnie.

Interfejs API odczytu w wersji 3.1 w publicznej wersji zapoznawczej dodaje funkcję OCR dla języka japońskiego

Publiczna wersja zapoznawcza interfejsu API odczytu usługi Azure AI Vision w wersji 3.1 dodaje następujące możliwości:

OCR dla języka japońskiego
Dla każdego wiersza tekstu wskaż, czy wygląd jest stylem pisma ręcznego, czy wydruku, a także współczynnik ufności (tylko języki łacińskie).
W przypadku dokumentu wielostronicowego wyodrębnij tekst tylko dla wybranych stron lub zakresu stron.
Ta wersja zapoznawcza interfejsu API odczytu obsługuje języki angielski, holenderski, francuski, niemiecki, włoski, japoński, portugalski, chiński uproszczony i hiszpański.

Aby dowiedzieć się więcej, zobacz przewodnik z instrukcjami dotyczącymi interfejsu API odczytu.

Dowiedz się więcej o interfejsie API odczytu w wersji 3.1 — publiczna wersja zapoznawcza 2

Sierpień 2020

Szyfrowanie danych magazynowanych przez klienta

Usługa rozpoznawania twarzy automatycznie szyfruje dane podczas utrwalania ich w chmurze. Szyfrowanie usługi rozpoznawania twarzy chroni dane, aby ułatwić spełnienie zobowiązań organizacji w zakresie zabezpieczeń i zgodności. Domyślnie subskrypcja używa kluczy szyfrowania zarządzanych przez firmę Microsoft. Istnieje również nowa opcja zarządzania subskrypcją przy użyciu własnych kluczy nazywanych kluczami zarządzanymi przez klienta (CMK). Więcej szczegółów można znaleźć w temacie Klucze zarządzane przez klienta.

Lipiec 2020

Odczyt interfejsu API w wersji 3.1 w publicznej wersji zapoznawczej z funkcją OCR dla języka chińskiego uproszczonego

Interfejs API odczytu usługi Azure AI Vision w wersji 3.1 w publicznej wersji zapoznawczej dodaje obsługę języka chińskiego uproszczonego.

Ta wersja zapoznawcza interfejsu API odczytu obsługuje języki angielskie, holenderskie, francuskie, niemieckie, włoskie, portugalskie, chiński uproszczony i hiszpański.

Aby dowiedzieć się więcej, zobacz przewodnik z instrukcjami dotyczącymi interfejsu API odczytu.

Dowiedz się więcej o interfejsie API odczytu w wersji 3.1 — publiczna wersja zapoznawcza 1

Maj 2020

Interfejs API usługi Azure AI Vision w wersji 3.0 wprowadzono ogólną dostępność z aktualizacjami interfejsu API odczytu:

Obsługa języka angielskiego, holenderskiego, francuskiego, niemieckiego, włoskiego, portugalskiego i hiszpańskiego
Ulepszona dokładność
Współczynnik ufności dla każdego wyodrębnionego wyrazu
Nowy format danych wyjściowych

Zobacz omówienie OCR, aby dowiedzieć się więcej.

Kwiecień 2020

Nowy model rozpoznawania interfejsu API rozpoznawania twarzy

Nowy model rozpoznawania 03 jest obecnie najbardziej dokładnym modelem. Jeśli jesteś nowym klientem, zalecamy użycie tego modelu. Funkcja Rozpoznawanie 03 zapewnia lepszą dokładność zarówno dla porównań podobieństw, jak i porównań dopasowania osób. Więcej szczegółów można znaleźć w artykule Określanie modelu rozpoznawania twarzy.

Marzec 2020 r.

Protokół TLS 1.2 jest teraz wymuszany dla wszystkich żądań HTTP do tej usługi. Aby uzyskać więcej informacji, zobacz Zabezpieczenia usług Azure AI.

Styczeń 2020

Odczyt interfejsu API 3.0 w publicznej wersji zapoznawczej

Teraz możesz użyć wersji 3.0 interfejsu API odczytu do wyodrębniania tekstu drukowanego lub odręcznego z obrazów. W porównaniu z wcześniejszymi wersjami wersja 3.0 zapewnia:

Ulepszona dokładność
Nowy format danych wyjściowych
Współczynnik ufności dla każdego wyodrębnionego wyrazu
Obsługa języków hiszpańskich i angielskich z parametrem języka

Postępuj zgodnie z przewodnikiem Szybki start Wyodrębnianie tekstu, aby rozpocząć korzystanie z interfejsu API 3.0.

2019 czerwca

Nowy model wykrywania interfejsu API rozpoznawania twarzy

Nowy model Detection 02 poprawił dokładność na małych, bocznych widokach, okludach i rozmytych twarzach. Użyj jej za pomocą funkcji Face — Detect, FaceList — Dodaj twarz, LargeFaceList — Dodaj twarz, PersonGroup Person — Dodaj twarz i osobę LargePersonGroup — dodaj twarz, określając nową nazwę detection_02 modelu wykrywania twarzy w detectionModel parametrze. Więcej szczegółów znajduje się w temacie How to specify a detection model (Jak określić model wykrywania).

2019 kwietnia

Ulepszona dokładność atrybutów

Poprawiono ogólną dokładność atrybutów age i .headPose Atrybut headPose jest również aktualizowany przy użyciu wartości włączonej pitch teraz. Użyj tych atrybutów, określając je w parametrze returnFaceAttributes Face - DetectreturnFaceAttributes parametru.

Zwiększona szybkość przetwarzania

Zwiększona szybkość rozpoznawania twarzy — Wykrywanie, FaceList — dodawanie twarzy, largeFaceList — dodawanie twarzy, persongroup person — dodawanie twarzy i osoby LargePersonGroup — dodawanie operacji rozpoznawania twarzy.

marzec 2019 r.

Nowy model rozpoznawania interfejsu API rozpoznawania twarzy

Model Rozpoznawanie 02 ma lepszą dokładność. Użyj jej za pomocą funkcji Face — Detect, FaceList — Create, LargeFaceList — Create, PersonGroup — Create i LargePersonGroup — Utwórz, określając nową nazwę recognition_02 modelu rozpoznawania twarzy w recognitionModel parametrze. Więcej szczegółów znajduje się w temacie How to specify a recognition model (Jak określić model rozpoznawania).

styczeń 2019

Funkcja migawki twarzy

Ta funkcja umożliwia usłudze obsługę migracji danych między subskrypcjami: Migawka.

Ważne

Od 30 czerwca 2023 r. interfejs API migawek twarzy zostanie wycofany.

2018 października

Komunikaty interfejsu API

Ulepszony opis dla elementów status, , createdDateTimelastActionDateTimei lastSuccessfulTrainingDateTime w elem. PersonGroup — Uzyskiwanie stanu szkolenia, LargePersonGroup — Uzyskiwanie stanu szkolenia i LargeFaceList — Uzyskiwanie stanu szkolenia.

Maj 2018 r.

Ulepszona dokładność atrybutów

Znacznie ulepszony gender atrybut, a także ulepszony age, , glassesfacialHair, hair, makeup atrybuty. Użyj ich za pośrednictwem funkcji Rozpoznawanie twarzy — wykrywaniereturnFaceAttributes parametru.

Zwiększony limit rozmiaru pliku

Zwiększony limit rozmiaru pliku obrazu wejściowego z zakresu od 4 MB do 6 MB w funkcji Rozpoznawanie twarzy — Wykrywanie, FaceList — Dodawanie twarzy, LargeFaceList — dodawanie twarzy, persongroup person — dodawanie twarzy i osoby LargePersonGroup — dodawanie twarzy.

Marzec 2018 r.

Nowa struktura danych

LargeFaceList i LargePersonGroup. Więcej szczegółów znajduje się w temacie Jak skalować w celu obsługi większej liczby zarejestrowanych użytkowników.
Zwiększona twarz — zidentyfikujmaxNumOfCandidatesReturned parametr z [1, 5] do [1, 100] i wartość domyślną na 10.

maj 2017 r.

Nowe wykrywalne atrybuty twarzy

Dodano hairatrybuty , , makeup, accessoryocclusionblur, exposure, i noise w funkcji Rozpoznawanie twarzy — wykrywaniereturnFaceAttributes parametru.
Obsługiwane 10 tys. osób w grupie PersonGroup i face — identyfikowanie.
Obsługiwane stronicowanie w personGroup Person — lista z opcjonalnymi parametrami: start i top.
Obsługiwana współbieżność w dodawaniu/usuwaniu twarzy na różnych listach FaceList i różnych osobach w grupie PersonGroup.

marzec 2017 r.

Nowy wykrywalny atrybut twarzy

Dodano emotion atrybut w funkcji Rozpoznawanie twarzy — wykrywaniereturnFaceAttributes parametru.

Naprawione problemy

Nie można ponownie wykryć twarzy z prostokątem zwróconym z funkcji Face — detect as targetFace in FaceList — Add Face and PersonGroup Person — Add Face (Dodaj twarz) i PersonGroup Person ( Dodaj twarz).
Wykrywalny rozmiar twarzy jest ustawiony, aby upewnić się, że jest ściśle z zakresu od 36x36 do 4096x4096 pikseli.

Listopad 2016

Nowa warstwa subskrypcji

Dodano subskrypcję usługi Face Storage w warstwie Standardowa, aby przechowywać dodatkowe utrwalone twarze podczas korzystania z funkcji PersonGroup Person — Dodawanie twarzy lub FaceList — dodawanie twarzy do identyfikacji lub dopasowywania podobieństwa. Opłata za przechowywane obrazy jest naliczana przy użyciu stawki wynoszącej 0,5 USD za 1000 twarzy proporcjonalnie do liczby dni. Subskrypcje w warstwie Bezpłatna są nadal ograniczone do 1000 osób.

październik 2016 r.

Komunikaty interfejsu API

Zmieniono komunikat o błędzie więcej niż jednej twarzy na targetFace obrazie z "Istnieje więcej niż jedna twarz" na "Istnieje więcej niż jedna twarz na obrazie" w faceList — Dodaj twarz i personGroup Person - Dodaj twarz i dodaj twarz.

lipiec 2016 r.

Nowe funkcje

Obsługiwane uwierzytelnianie obiektu face-to Person w funkcji Rozpoznawanie twarzy — weryfikacja.
Dodano opcjonalny mode parametr umożliwiający wybór dwóch trybów roboczych: matchPerson i matchFace w obszarze Rozpoznawanie twarzy — Znajdź podobne i domyślne to matchPerson.
Dodano opcjonalny confidenceThreshold parametr dla użytkownika w celu ustawienia progu, czy jedna twarz należy do obiektu Osoba w funkcji Rozpoznawanie twarzy — identyfikowanie.
Dodano parametry opcjonalne start i top w elemecie PersonGroup — lista , aby umożliwić użytkownikowi określenie punktu początkowego i łącznego numeru PersonGroups do listy.

Zmiany wersji 1.0 z wersji 0

Zaktualizowano główny punkt końcowy usługi z https://westus.api.cognitive.microsoft.com/face/v0/ do https://westus.api.cognitive.microsoft.com/face/v1.0/. Zmiany zastosowane do: Rozpoznawanie twarzy — wykrywanie, rozpoznawanie twarzy — identyfikowanie, rozpoznawanie twarzy — wyszukiwanie podobnych i twarzy — grupa.
Zaktualizowano minimalny rozmiar twarzy wykrywalnej do 36x36 pikseli. Nie zostaną wykryte twarze mniejsze niż 36x36 pikseli.
Przestarzałe dane PersonGroup i Person w funkcji Face V0. Nie można uzyskać dostępu do tych danych za pomocą usługi Face V1.0.
Przestarzała punkt końcowy interfejsu API rozpoznawania twarzy w wersji 0 30 czerwca 2016 r.

Aktualizacje usług sztucznej inteligencji platformy Azure

Ogłoszenia dotyczące aktualizacji platformy Azure dla usług Azure AI