Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Görüntü işleme özellikli sohbet modelleri, OpenAI tarafından geliştirilen ve görüntüleri analiz edip bunlarla ilgili sorulara metinsel yanıtlar sağlayabilen büyük çok modüllü modellerdir (LMM). Bunlar hem doğal dil işleme hem de görsel anlama özelliklerini içerir. Geçerli görüntü işleme özellikli modeller o serisi akıl yürütme modelleri, GPT-4.1 serisi modeller, GPT-4.5, GPT-4o serisi ve GPT-4 Turbo ve Görüntü İşlemeli GPT-4 Turbo'dur.
Görüntü işleme özellikli modeller, karşıya yüklediğiniz görüntülerde neler olduğuyla ilgili genel soruları yanıtlayabilir.
Tavsiye
Görüntü işleme özellikli modelleri kullanmak için dağıttığınız desteklenen bir modelde Sohbet Tamamlama API'sini çağırırsınız. Sohbet Tamamlama API'sini bilmiyorsanız Görüntü İşleme özellikli sohbet nasıl yapılır kılavuzuna bakın.
Sohbet Tamamlama API'lerini çağırma
Aşağıdaki komut, görüntü işleme özellikli bir sohbet modelini kodla kullanmanın en temel yolunu gösterir. Bu modelleri program aracılığıyla ilk kez kullanıyorsanız, Resimlerle sohbet hızlı başlangıcımızla başlamanızı öneririz.
https://{RESOURCE_NAME}.openai.azure.com/openai/deployments/{DEPLOYMENT_NAME}/chat/completions?api-version=2024-02-15-preview
adresine bir POST isteği gönder
- RESOURCE_NAME, Azure OpenAI kaynağınızın adıdır
- DEPLOYMENT_NAME model dağıtımınızın adıdır
Gerekli başlıklar:
-
Content-Type
: uygulama/json -
api-key
: {API_KEY}
Gövde: Aşağıda örnek bir istek gövdesi verilmiştir. biçim, GPT-4 için sohbet tamamlama API'si ile aynıdır, ancak ileti içeriği metin ve görüntü içeren bir dizi (bir görüntünün geçerli bir HTTP veya HTTPS URL'si ya da temel 64 kodlu bir görüntü) olabilir.
Önemli
Bir "max_tokens"
değer ayarlamayı unutmayın, aksi takdirde dönüş çıkışı kesilir.
Önemli
Görüntüleri karşıya yüklerken, sohbet isteği başına 10 resim sınırı vardır.
{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "Describe this picture:"
},
{
"type": "image_url",
"image_url": {
"url": "<image URL>"
}
}
]
}
],
"max_tokens": 100,
"stream": false
}
Tavsiye
Yerel görüntü kullanma
Yerel bir görüntü kullanmak istiyorsanız, api'ye geçirilebilmesi için aşağıdaki Python kodunu kullanarak base64'e dönüştürebilirsiniz. Alternatif dosya dönüştürme araçları çevrimiçi olarak kullanılabilir.
import base64
from mimetypes import guess_type
# Function to encode a local image into data URL
def local_image_to_data_url(image_path):
# Guess the MIME type of the image based on the file extension
mime_type, _ = guess_type(image_path)
if mime_type is None:
mime_type = 'application/octet-stream' # Default MIME type if none is found
# Read and encode the image file
with open(image_path, "rb") as image_file:
base64_encoded_data = base64.b64encode(image_file.read()).decode('utf-8')
# Construct the data URL
return f"data:{mime_type};base64,{base64_encoded_data}"
# Example usage
image_path = '<path_to_image>'
data_url = local_image_to_data_url(image_path)
print("Data URL:", data_url)
base64 görüntü verileriniz hazır olduğunda, bunu istek gövdesindeki API'ye şu şekilde geçirebilirsiniz:
...
"type": "image_url",
"image_url": {
"url": "data:image/jpeg;base64,<your_image_data>"
}
...
Ayrıntı parametresi ayarları
İsteğe bağlı olarak "detail"
alanında bir "image_url"
parametre tanımlayabilirsiniz. Modelin görüntüleri yorumlama ve işleme biçimini ayarlamak için üç değerden low
birini (, high
veya auto
) seçin.
-
auto
ayar: Varsayılan ayardır. Model, görüntü girişinin boyutuna göre düşük veya yüksek arasında karar verir. -
low
ayar: model "yüksek res" modunu etkinleştirmez, bunun yerine daha düşük çözünürlüklü 512x512 sürümünü işler ve daha hızlı yanıtlar ve ince ayrıntıların kritik olmadığı senaryolar için daha az belirteç tüketimi sağlar. -
high
ayarı: model "yüksek res" modunu etkinleştirir. Burada model başlangıçta düşük çözünürlüklü görüntüyü görüntüler ve ardından giriş görüntüsünden ayrıntılı 512x512 kesimleri oluşturur. Her segment, görüntünün daha ayrıntılı yorumlanmasını sağlayan belirteç bütçesinin iki katını kullanır.
Değeri, bu örnekte gösterilen biçimi kullanarak ayarlarsınız:
{
"type": "image_url",
"image_url": {
"url": "<image URL>",
"detail": "high"
}
}
Görüntü parametrelerinin kullanılan belirteçleri ve fiyatlandırmayı nasıl etkilediğinin ayrıntıları için lütfen bkz. Azure OpenAI nedir? Görüntü Belirteçleri
Çıktı
API yanıtı aşağıdaki gibi görünmelidir.
{
"id": "chatcmpl-8VAVx58veW9RCm5K1ttmxU6Cm4XDX",
"object": "chat.completion",
"created": 1702439277,
"model": "gpt-4",
"prompt_filter_results": [
{
"prompt_index": 0,
"content_filter_results": {
"hate": {
"filtered": false,
"severity": "safe"
},
"self_harm": {
"filtered": false,
"severity": "safe"
},
"sexual": {
"filtered": false,
"severity": "safe"
},
"violence": {
"filtered": false,
"severity": "safe"
}
}
}
],
"choices": [
{
"finish_reason":"stop",
"index": 0,
"message": {
"role": "assistant",
"content": "The picture shows an individual dressed in formal attire, which includes a black tuxedo with a black bow tie. There is an American flag on the left lapel of the individual's jacket. The background is predominantly blue with white text that reads \"THE KENNEDY PROFILE IN COURAGE AWARD\" and there are also visible elements of the flag of the United States placed behind the individual."
},
"content_filter_results": {
"hate": {
"filtered": false,
"severity": "safe"
},
"self_harm": {
"filtered": false,
"severity": "safe"
},
"sexual": {
"filtered": false,
"severity": "safe"
},
"violence": {
"filtered": false,
"severity": "safe"
}
}
}
],
"usage": {
"prompt_tokens": 1156,
"completion_tokens": 80,
"total_tokens": 1236
}
}
Her yanıt bir "finish_reason"
alan içerir. Aşağıdaki olası değerlere sahiptir:
-
stop
: API tam model çıktısı döndürdü. -
length
: Giriş parametresi veya modelinmax_tokens
belirteç sınırı nedeniyle tamamlanmamış model çıktısı. -
content_filter
: İçerik filtrelerimizden gelen bir uyarı nedeniyle içerik çıkarıldı.
Çıktı
Modelden aldığınız sohbet yanıtları artık görüntü hakkında nesne etiketleri, sınırlayıcı kutular ve OCR sonuçları gibi gelişmiş bilgiler içermelidir. API yanıtı aşağıdaki gibi görünmelidir.
{
"id": "chatcmpl-8UyuhLfzwTj34zpevT3tWlVIgCpPg",
"object": "chat.completion",
"created": 1702394683,
"model": "gpt-4",
"choices":
[
{
"finish_reason": {
"type": "stop",
"stop": "<|fim_suffix|>"
},
"index": 0,
"message":
{
"role": "assistant",
"content": "The image shows a close-up of an individual with dark hair and what appears to be a short haircut. The person has visible ears and a bit of their neckline. The background is a neutral light color, providing a contrast to the dark hair."
}
}
],
"usage":
{
"prompt_tokens": 816,
"completion_tokens": 49,
"total_tokens": 865
}
}
Her yanıt bir "finish_reason"
alan içerir. Aşağıdaki olası değerlere sahiptir:
-
stop
: API tam model çıktısı döndürdü. -
length
: Giriş parametresi veya modelinmax_tokens
belirteç sınırı nedeniyle tamamlanmamış model çıktısı. -
content_filter
: İçerik filtrelerimizden gelen bir uyarı nedeniyle içerik çıkarıldı.
GPT-4 Turbo model yükseltmesi
GPT-4 Turbo'nun en son GA sürümü:
-
gpt-4
Sürüm:turbo-2024-04-09
Bu, aşağıdaki önizleme modellerinin yerini alır:
-
gpt-4
Sürüm:1106-Preview
-
gpt-4
Sürüm:0125-Preview
-
gpt-4
Sürüm:vision-preview
OpenAI ile Azure OpenAI GPT-4 Turbo GA Modelleri Arasındaki Farklar
- OpenAI'nin en son
0409
turbo modeli sürümü tüm çıkarım istekleri için JSON modunu ve işlev çağrısını destekler. - Azure OpenAI'nin en son
turbo-2024-04-09
sürümü şu anda görüntü (görüntü) girişiyle çıkarım istekleri yaparken JSON modu ve işlev çağrısı kullanımını desteklememektedir. Metin tabanlı giriş istekleri (ve satır içi görüntüleri olmayanimage_url
istekler), JSON modunu ve işlev çağrılarını destekler.
gpt-4 vision-preview ile arasındaki farklar
- Azure AI'ye özgü Görüntü İşleme geliştirmeleri ile GPT-4 Turbo ve Görüntü İşleme tümleştirmesi Şu Sürüm için
gpt-4
desteklenmez: Buna Optik Karakter Tanıma (OCR), nesne topraklama, video istemleri ve görüntülerle verilerinizin daha iyi işlenmesi dahildir.
Önemli
Optik Karakter Tanıma (OCR), nesne eşleştirme, video istemleri gibi görsel iyileştirme önizleme özellikleri kullanımdan kaldırılacak ve gpt-4
Sürüm: vision-preview
sürümüne turbo-2024-04-09
yükseltildikten sonra, artık kullanılamayacaktır. Şu anda bu önizleme özelliklerinden herhangi birine güveniyorsanız, bu otomatik model yükseltmesi önemli bir değişiklik olacaktır.
GPT-4 Turbo tarafından sağlanan yönetimli erişilebilirlik
-
gpt-4
Sürüm:turbo-2024-04-09
hem standart hem de sağlanan dağıtımlar için kullanılabilir. Şu anda bu modelin sağlanan sürümü görüntü/görüntü çıkarım isteklerini desteklememektedir. Bu modelin sağlanan dağıtımları yalnızca metin girişini kabul eder. Standart model dağıtımları hem metin hem de görüntü/görüntü çıkarım isteklerini kabul eder.
Görsel GA ile GPT-4 Turbo Dağıtımı
GA modelini Azure AI Foundry portalından dağıtmak için GPT-4
‘yi seçin ve ardından açılan menüden turbo-2024-04-09
sürümünü seçin. Model için gpt-4-turbo-2024-04-09
varsayılan kota, GPT-4-Turbo için geçerli kotayla aynı olacaktır.
Bölgesel kota sınırlarına bakın.