GPT-4 Turbo z pojęciami dotyczącymi przetwarzania obrazów

Artykuł
09/26/2024

GPT-4 Turbo with Vision to duży model wielomodalny (LMM) opracowany przez openAI, który może analizować obrazy i dostarczać tekstowe odpowiedzi na pytania dotyczące nich. Obejmuje zarówno przetwarzanie języka naturalnego, jak i zrozumienie wizualne. Ten przewodnik zawiera szczegółowe informacje na temat możliwości i ograniczeń biblioteki GPT-4 Turbo z usługą Vision.

Aby wypróbować zestaw GPT-4 Turbo z usługą Vision, zobacz przewodnik Szybki start.

Rozmowy z wizją

Model GPT-4 Turbo z usługą Vision odpowiada na ogólne pytania dotyczące tego, co jest obecne na przekazanych obrazach lub wideo.

Specjalne informacje o cenach

Ważne

Szczegóły cennika mogą ulec zmianie w przyszłości.

GPT-4 Turbo z usługą Vision nalicza opłaty, takie jak inne modele czatów usługi Azure OpenAI. Płacisz stawkę za token dla monitów i uzupełnień, szczegółowo na stronie Cennik. Podstawowe opłaty i dodatkowe funkcje zostały opisane tutaj:

Podstawowe ceny dla GPT-4 Turbo z wizją są:

Dane wejściowe: 0,01 USD na 1000 tokenów
Dane wyjściowe: 0,03 USD za 1000 tokenów

Zobacz sekcję Tokeny w przeglądzie , aby uzyskać informacje na temat sposobu tłumaczenia tekstu i obrazów na tokeny.

Przykładowe obliczenie ceny obrazu

Ważne

Poniższa zawartość jest tylko przykładem, a ceny mogą ulec zmianie w przyszłości.

W przypadku typowego przypadku użycia utwórz obraz z widocznymi obiektami i tekstem oraz 100-tokenem wejściowym monitu. Gdy usługa przetwarza monit, generuje 100 tokenów danych wyjściowych. Na obrazie można wykryć zarówno tekst, jak i obiekty. Cena tej transakcji będzie następująca:

Towar	Szczegół	Koszt
Wprowadzanie monitu tekstowego	100 tokenów tekstowych	0,001 USD
Przykładowe dane wejściowe obrazu (zobacz Tokeny obrazów)	170 + 85 tokenów obrazów	0,00255 USD
Ulepszone funkcje dodatku dla OCR	1,50 USD / 1000 transakcji	0,0015 USD
Ulepszone funkcje dodatku dla uziemienia obiektów	1,50 USD / 1000 transakcji	0,0015 USD
Tokeny wyjściowe	100 tokenów (zakładane)	0,003 USD
Łącznie		0,00955 USD

Przykładowe obliczenie ceny wideo

Ważne

Poniższa zawartość jest tylko przykładem, a ceny mogą ulec zmianie w przyszłości.

W przypadku typowego przypadku użycia wykonaj 3-minutowe wideo z 100-tokenowym wejściem monitu. Wideo zawiera transkrypcję, która ma 100 tokenów długości, a gdy usługa przetwarza monit, generuje 100 tokenów danych wyjściowych. Cennik tej transakcji będzie następujący:

Towar	Szczegół	Koszt
GPT-4 Turbo z tokenami wejściowymi przetwarzania obrazów	100 tokenów tekstowych	0,001 USD
Dodatkowy koszt identyfikowania ramek	100 tokenów wejściowych + 700 tokenów + 1 Transakcja pobierania wideo	0,00825 USD
Dane wejściowe obrazu i dane wejściowe transkrypcji	20 obrazów (każdy 85 tokenów) + 100 tokenów transkrypcji	0,018 USD
Tokeny wyjściowe	100 tokenów (zakładane)	0,003 USD
Łącznie		0,03025 USD

Ponadto istnieje jednorazowy koszt indeksowania w wysokości 0,15 USD w celu wygenerowania indeksu pobierania wideo dla tego 3-minutowego wideo. Ten indeks można użyć ponownie w dowolnej liczbie wywołań interfejsu API usługi Video Retrieval i GPT-4 Turbo.

Ograniczenia danych wejściowych

W tej sekcji opisano ograniczenia biblioteki GPT-4 Turbo z usługą Vision.

Obsługa obrazów

Maksymalny rozmiar obrazu wejściowego: maksymalny rozmiar obrazów wejściowych jest ograniczony do 20 MB.
Dokładność niskiej rozdzielczości: gdy obrazy są analizowane przy użyciu ustawienia "niskiej rozdzielczości", umożliwia szybsze reagowanie i używa mniejszej liczby tokenów wejściowych w niektórych przypadkach użycia. Może to jednak mieć wpływ na dokładność rozpoznawania obiektu i tekstu na obrazie.
Ograniczenie czatu obrazów: w przypadku przekazywania obrazów w programie Azure AI Studio lub interfejsie API istnieje limit 10 obrazów na rozmowę.

Obsługa wideo

Niska rozdzielczość: ramki wideo są analizowane przy użyciu GPT-4 Turbo z ustawieniem "niskiej rozdzielczości", które może mieć wpływ na dokładność małego obiektu i rozpoznawania tekstu w filmie wideo.
Limity plików wideo: obsługiwane są zarówno typy plików MP4, jak i MOV. W usłudze Azure AI Studio filmy wideo muszą być krótsze niż 3 minuty. W przypadku korzystania z interfejsu API nie ma takiego ograniczenia.
Limity monitów: monity wideo zawierają tylko jeden film wideo i brak obrazów. W usłudze Azure AI Studio możesz wyczyścić sesję, aby wypróbować inny film lub obrazy.
Ograniczony wybór ramki: usługa wybiera 20 klatek z całego filmu wideo, co może nie przechwytywać wszystkich krytycznych momentów ani szczegółów. Wybór ramki może być w przybliżeniu równomiernie rozłożony przez wideo lub skoncentrowany przez określone zapytanie pobierania wideo, w zależności od monitu.
Obsługa języka: usługa obsługuje głównie język angielski na potrzeby uziemienia transkrypcji. Transkrypcje nie zawierają dokładnych informacji na temat tekstów w piosenkach.

Następne kroki

Rozpocznij korzystanie z biblioteki GPT-4 Turbo z usługą Vision, korzystając z przewodnika Szybki start.
Aby uzyskać bardziej szczegółowe informacje na temat interfejsów API i użyć monitów wideo w czacie, postępuj zgodnie z przewodnikiem z instrukcjami.
Zobacz dokumentację interfejsu API uzupełniania i osadzania

Udostępnij za pośrednictwem

GPT-4 Turbo z pojęciami dotyczącymi przetwarzania obrazów

Rozmowy z wizją

Specjalne informacje o cenach

Przykładowe obliczenie ceny obrazu

Przykładowe obliczenie ceny wideo

Ograniczenia danych wejściowych

Obsługa obrazów

Obsługa wideo

Następne kroki

Opinia

Dodatkowe zasoby