Görüntü işleme görevleri ve teknikleri

Tamamlandı

Uyarı

Daha fazla ayrıntı için Metin ve resimler sekmesine bakın!

"Görüntü işleme" terimi, yapay zeka yazılımının görsel girişi işlediği bir dizi görev ve tekniği ifade eder; genellikle görüntülerden, videolardan veya canlı kamera akışlarından. Görüntü işleme, iyi kurulmuş bir yapay zeka alanıdır ve görsel girdilerden bilgi ayıklamak için kullanılan teknikler yıllar içinde önemli ölçüde gelişti.

Görüntü sınıflandırması

En eski görüntü işleme çözümlerinden biri, çok sayıda görüntüyle eğitilmiş bir modelin, resmin içeriğine göre bir metin etiketini tahmin etmek için kullanıldığı görüntü sınıflandırması olarak adlandırılan bir tekniktir.

Örneğin, bir marketin üretimi otomatik olarak tanımlayan akıllı ödeme sistemi uygulamak istediğini varsayalım. Örneğin müşteri, ödeme sırasında meyve veya sebzeleri bir ölçeğe yerleştirebilir ve kameraya bağlı bir yapay zeka uygulaması, ürün türlerini (elma, portakal, muz vb.) otomatik olarak tanımlayıp ağırlığına göre uygun miktarı ücretlendirebilir. Bu çözümün çalışması için, bir modelin her biri doğru adla etiketlenmiş büyük hacimli görüntülerle eğitilmesi gerekir. Sonuç, bir görüntünün ana konusunu tahmin etmek için görsel özelliklerini kullanabilen bir modeldir.

Portakal, elma ve muz fotoğrafları.

Nesne algılama

Bakkalın daha gelişmiş bir sistem istediğini varsayalım; bu sistemde kasa birden çok öğeyi tarayabilir ve her birini tanımlayabilir. Bu tür bir sorun için yaygın bir yaklaşım "nesne algılama" olarak adlandırılır. Nesne algılama modelleri, tek tek nesneleri ve bunların konumlarını bulmak için görüntüdeki birden çok bölgeyi inceler. Modelden elde edilen tahmin, hangi nesnelerin algılandığını ve görüntüde göründükleri belirli bölgeleri (dikdörtgen sınırlayıcı kutunun koordinatlarıyla gösterilir) içerir.

Bir portakal, bir elma ve bir muzun sınırlayıcı kutular içindeki fotoğrafı.

Anlam segmentasyonu

Bir görüntüdeki nesneleri algılamanın diğer, daha karmaşık bir yolu da "semantik segmentasyon" olarak adlandırılır. Bu yaklaşımda, bir model nesneleri bulmak ve ait oldukları nesneye göre görüntüdeki tek tek pikselleri sınıflandırmak için eğitilir. Bu işlemin sonucu, görüntüdeki nesnelerin konumuna ilişkin çok daha kesin bir tahmindir.

Turuncu, elma ve muzun üst üste bindirilmiş maske ile fotoğrafı.

Bağlamsal görüntü analizi

En son çok modüllü görüntü işleme modelleri, görüntülerdeki nesnelerle bunları tanımlayan metin arasındaki bağlamsal ilişkileri bulmak için eğitilir. Sonuç olarak, bir görüntüyü, hangi nesneleri ve etkinlikleri göstereceğini belirlemek için sembolik olarak yorumlayabilme yeteneği elde edilir; ve uygun açıklamalar oluşturun veya ilgili etiketler önerin.

Elma yiyen bir kişinin fotoğrafı.

Elma yiyen bir kişi.