Osadzanie wielomodalne (wersja 4.0)

Artykuł
02/20/2024

Osadzanie wielomodalne to proces generowania liczbowej reprezentacji obrazu, który przechwytuje jego cechy i cechy w formacie wektorowym. Te wektory kodują zawartość i kontekst obrazu w sposób zgodny z wyszukiwaniem tekstu w tej samej przestrzeni wektorowej.

Systemy pobierania obrazów tradycyjnie używały funkcji wyodrębnionych z obrazów, takich jak etykiety zawartości, tagi i deskryptory obrazów, w celu porównania obrazów i sklasyfikowania ich według podobieństwa. Jednak wyszukiwanie podobieństwa wektorów zyskuje większą popularność ze względu na szereg korzyści związanych z tradycyjnym wyszukiwaniem opartym na słowach kluczowych i staje się istotnym składnikiem popularnych usług wyszukiwania zawartości.

Jaka jest różnica między wyszukiwaniem wektorowym i wyszukiwaniem opartym na słowach kluczowych?

Wyszukiwanie słów kluczowych to najbardziej podstawowa i tradycyjna metoda pobierania informacji. W tym podejściu wyszukiwarka szuka dokładnego dopasowania słów kluczowych lub fraz wprowadzonych przez użytkownika w zapytaniu wyszukiwania i porównuje je z etykietami i tagami podanymi dla obrazów. Następnie wyszukiwarka zwraca obrazy zawierające te dokładne słowa kluczowe jako tagi zawartości i etykiety obrazów. Wyszukiwanie słów kluczowych w dużym stopniu zależy od możliwości używania odpowiednich i określonych terminów wyszukiwania przez użytkownika.

Wyszukiwanie wektorowe wyszukuje duże kolekcje wektorów w przestrzeni wielowymiarowej, aby znaleźć wektory podobne do danego zapytania. Wyszukiwanie wektorowe wyszukuje podobieństwa semantyczne, przechwytując kontekst i znaczenie zapytania wyszukiwania. Takie podejście jest często bardziej wydajne niż tradycyjne techniki pobierania obrazów, ponieważ może zmniejszyć przestrzeń wyszukiwania i poprawić dokładność wyników.

Aplikacje biznesowe

Osadzanie wielomodalne ma wiele aplikacji w różnych polach, w tym:

Zarządzanie zasobami cyfrowymi: osadzanie wielomodalne może służyć do zarządzania dużymi kolekcjami obrazów cyfrowych, takich jak muzea, archiwa lub galerie online. Użytkownicy mogą wyszukiwać obrazy na podstawie funkcji wizualnych i pobierać obrazy zgodne z ich kryteriami.
Zabezpieczenia i nadzór: wektoryzacja może być używana w systemach zabezpieczeń i nadzoru do wyszukiwania obrazów na podstawie określonych funkcji lub wzorców, takich jak w, śledzenie osób i obiektów lub wykrywanie zagrożeń.
Pobieranie obrazów kryminalistycznych: wektoryzacja może służyć do wyszukiwania obrazów na podstawie ich zawartości wizualnej lub metadanych, takich jak w przypadku cyber-przestępczości.
Handel elektroniczny: Wektoryzacja może być używana w aplikacjach zakupów online do wyszukiwania podobnych produktów na podstawie ich funkcji lub opisów lub dostarczania rekomendacji na podstawie poprzednich zakupów.
Moda i projektowanie: Wektoryzacja może być używana w modzie i projektowaniu do wyszukiwania obrazów na podstawie ich cech wizualnych, takich jak kolor, wzorzec lub tekstura. Może to pomóc projektantom lub sprzedawcom detalicznym zidentyfikować podobne produkty lub trendy.

Uwaga

Osadzanie wielomodalne nie jest zaprojektowane do analizowania obrazów medycznych pod kątem funkcji diagnostycznych lub wzorców chorób. Nie należy używać osadzania wielomodalnego do celów medycznych.

Co to są osadzanie wektorów?

Osadzanie wektorów to sposób reprezentowania zawartości — tekstu lub obrazów — jako wektorów liczb rzeczywistych w przestrzeni wielowymiarowej. Osadzanie wektorów często uczy się na podstawie dużych ilości danych tekstowych i wizualnych przy użyciu algorytmów uczenia maszynowego, takich jak sieci neuronowe.

Każdy wymiar wektora odpowiada innej funkcji lub atrybutu zawartości, takiej jak znaczenie semantyczne, rola składniowa lub kontekst, w którym często się pojawia. W usłudze Azure AI Vision osadzanie obrazów i wektorów tekstowych ma wymiary 1024.

Ważne

Osadzanie wektorów można porównać i dopasować tylko wtedy, gdy pochodzą one z tego samego typu modelu. Obrazy wektorowane przez jeden model nie będą przeszukiwalne za pomocą innego modelu. Najnowszy interfejs API analizy obrazów oferuje dwa modele, wersja 2023-04-15 , która obsługuje wyszukiwanie tekstu w wielu językach, oraz starszy 2022-04-11 model, który obsługuje tylko język angielski.

Jak to działa?

Poniżej przedstawiono główne kroki procesu pobierania obrazu przy użyciu osadzania wielomodalnego.

Diagram of image retrieval process.

Wektoryzowanie obrazów i tekstu: interfejsy API osadzania wielomodalnego, VectorizeImage i VectorizeText mogą służyć do wyodrębniania wektorów funkcji z obrazu lub tekstu odpowiednio. Interfejsy API zwracają pojedynczy wektor funkcji reprezentujący całe dane wejściowe.

Uwaga

Osadzanie wielomodalne nie wykonuje żadnych biometrycznych przetwarzania ludzkich twarzy. Aby uzyskać informacje na temat wykrywania i identyfikacji twarzy, zobacz usługę rozpoznawania twarzy platformy Azure.
Mierzenie podobieństwa: Systemy wyszukiwania wektorów zwykle używają metryk odległości, takich jak odległość cosinusu lub odległość euklidesowa, aby porównać wektory i sklasyfikować je według podobieństwa. Pokaz programu Vision Studio używa odległości cosinusu do mierzenia podobieństwa.
Pobieranie obrazów: użyj pierwszych N wektorów podobnych do zapytania wyszukiwania i pobierz obrazy odpowiadające tym wektorom z biblioteki zdjęć, aby podać wynik końcowy.

Ocena istotności

Usługi pobierania obrazów i wideo zwracają pole o nazwie "istotność". Termin "istotność" oznacza miarę wyniku podobieństwa między osadzeniem zapytania a obrazem lub ramką wideo. Wynik istotności składa się z dwóch części:

Podobieństwo cosinus (które mieści się w zakresie [0,1]) między zapytaniem a obrazem lub ramką wideo osadzania.
Wynik metadanych, który odzwierciedla podobieństwo między zapytaniem a metadanymi skojarzonymi z obrazem lub ramką wideo.

Ważne

Wynik istotności jest dobrą miarą służącą do klasyfikacji wyników, takich jak obrazy lub ramki wideo w odniesieniu do pojedynczego zapytania. Jednak ocena istotności nie może być dokładnie porównywana między zapytaniami. W związku z tym nie można łatwo mapować wyniku istotności na poziom ufności. Nie można również trywialnie utworzyć algorytmu progowego, aby wyeliminować nieistotne wyniki wyłącznie na podstawie wyniku istotności.

Wymagania dotyczące danych wejściowych

Dane wejściowe obrazu

Rozmiar pliku obrazu musi być mniejszy niż 20 megabajtów (MB)
Wymiary obrazu muszą być większe niż 10 x 10 pikseli i mniejsze niż 16 000 x 16 000 pikseli

Wprowadzenie tekstu

Ciąg tekstowy musi zawierać się między (włącznie) jednym wyrazem i 70 wyrazami.

Następne kroki

Włącz osadzanie wielomodalne dla usługi wyszukiwania i wykonaj kroki generowania osadzania wektorów dla tekstu i obrazów.

Wywoływanie interfejsów API osadzania wielomodalnego