Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makalede Azure AI Search tarafından desteklenen veri türleri açıklanmaktadır. Filtre ifadelerinde kullanılan alanlar ve değerler Varlık Veri Modeli'ne (EDM) göre yazılır. EDM veri türü belirtmek, alan tanımı için bir gereksinimdir.
Not
Dizin oluşturucular kullanıyorsanız, dizin oluşturucuların kaynağa özgü veri türlerini bir arama dizinindeki EDM veri türleriyle nasıl eşlediği hakkında daha fazla bilgi için Azure AI Search'te dizin oluşturucular için veri türü eşlemesi bölümüne bakın.
Vektör alanları için EDM veri türleri
Ekleme modelinizin çıkışı için bir vektör alanı türü geçerli olmalıdır. Örneğin, text-embedding-ada-002 kullanırsanız, çıktı biçimi veya Collection(Edm.Single)olurFloat32. Bu senaryoda, temel float öğelere int dönüştürme yasak olduğundan veri Int8 türü atayamazsınız. Ancak, 'den Float32 'ye veya (Collection(Edm.Half))'ye Float16 yayın yapabilirsiniz.
Vektör alanları bir ekleme dizisidir. EDM'de dizi bir koleksiyondur.
| Veri tipi | Vektör türü | Açıklama | Önerilen kullanım |
|---|---|---|---|
Collection(Edm.Byte) |
İkili | 1 bit imzasız ikili. Dizin Oluşturma veya Güncelleştirme'de genel olarak kullanılabilir. |
Cohere'in v3 ikili ekleme modelleri gibi ikili eklemeler yayan modellerle tümleştirmeyi destekler. veya 1 bit imzasız ikili çıkış yayan özel niceleme mantığı. Tür Collection(Edm.Byte)alanları için, ikili veriler için alan tanımını ve vektör arama algoritmalarını belirtme konusunda yardım için İkili verileri dizin alma konusuna bakın. |
Collection(Edm.Single) |
Float32 |
32 bit kayan nokta. Dizin Oluşturma veya Güncelleştirme'de genel olarak kullanılabilir. | Sizin adınıza vektör alanları oluşturan Microsoft araçlarında varsayılan veri türü. Duyarlılık ve verimlilik arasında bir denge sağlar. Çoğu gömme modeli, vektörleri olarak Float32yayar. |
Collection(Edm.Half) |
Float16 |
Daha düşük duyarlık ve aralık ile 16 bit kayan nokta. Dizin Oluşturma veya Güncelleştirme'de genel olarak kullanılabilir. | Bellek ve hesaplama verimliliğinin kritik olduğu ve bazı duyarlıklardan ödün verenin kabul edilebilir olduğu senaryolar için kullanışlıdır. Genellikle daha hızlı sorgu sürelerine ve daha az bellek ayak izine Float32yol açar, ancak doğruluğu biraz daha düşüktür. Dizin Float32 eklemelerine Float16bir Float16 tür atayabilirsiniz. Yerel olarak yayılan Float16 modelleri veya özel niceleme işlemlerini katıştırmak için de kullanabilirsinizFloat16. |
Collection(Edm.Int16) |
Int16 |
16 bit işaretli tamsayı. Dizin Oluşturma veya Güncelleştirme'de genel olarak kullanılabilir. | Birçok uygulama için yeterli hassasiyeti korurken, daha yüksek hassasiyetli niceleme yöntemlerine kıyasla Float32 daha az bellek ayak izi ve destek sunar. Bellek verimliliğinin önemli olduğu durumlar için uygundur. Vektörleri şu şekilde Int16çıkaran özel nicelemeye sahip olmanızı gerektirir: . |
Collection(Edm.SByte) |
Int8 |
8 bit işaretli tamsayı. Dizin Oluşturma veya Güncelleştirme'de genel olarak kullanılabilir. | veya Float16ile Float32 karşılaştırıldığında önemli bellek ve hesaplama verimliliği kazanımları sağlar. Ancak, duyarlıktaki azalmayı dengelemek ve uygun şekilde geri çağırmak için büyük olasılıkla ek teknikler (niceleme ve fazla örnekleme gibi) gerektirir. Vektörleri şu şekilde Int8çıkaran özel nicelemeye sahip olmanızı gerektirir: . |
Seçici olmayan alanlar için EDM veri türleri
| Veri tipi | Açıklama |
|---|---|
Edm.String |
Metin verileri. |
Edm.Boolean |
True/false değerleri içerir. |
Edm.Int32 |
32 bit tamsayı değerleri. |
Edm.Int64 |
64 bit tamsayı değerleri. |
Edm.Double |
Çift duyarlıklı IEEE 754 kayan nokta değerleri. |
Edm.DateTimeOffset |
OData V4 biçiminde temsil edilen tarih ve saat değerleri: yyyy-MM-ddTHH:mm:ss.fffZ veya yyyy-MM-ddTHH:mm:ss.fff[+|-]HH:mm. Alanların kesinliği DateTimeOffset milisaniyelerle sınırlıdır. Değerleri milisaniyenin altında hassasiyetle karşıya yüklerseniz DateTimeOffset , döndürülen değer milisaniyeye yuvarlanır (örneğin, 2024-04-15T10:30:09.7552052Z olarak 2024-04-15T10:30:09.7550000Zdöndürülür). Saat dilimi bilgilerini içeren değerleri dizininize yüklediğinizde DateTimeOffset Azure AI Search bu değerleri UTC olarak normalleştirir. Örneğin, 2024-01-13T14:03:00-08:00 olarak 2024-01-13T22:03:00Zdepolanır. Saat dilimi bilgilerini depolamanız gerekiyorsa dizininize fazladan bir alan ekleyin. |
Edm.GeographyPoint |
Dünya üzerindeki coğrafi konumu temsil eden bir nokta. İstek ve yanıt gövdeleri için, bu türdeki değerlerin gösterimi GeoJSON "Point" tür biçimini izler. URL'ler için OData, WKT standardını temel alan değişmez bir form kullanır. Nokta değişmez değeri geography'POINT(lon lat)' olarak oluşturulur. |
Edm.ComplexType |
Özellikleri desteklenen başka herhangi bir veri türünde olabilecek alt alanlarla eşlenen nesneler. Bu tür, JSON gibi yapılandırılmış hiyerarşik verilerin dizine alınmasını sağlar. Tür Edm.ComplexType alanındaki nesneler iç içe nesneler içerebilir, ancak iç içe geçme düzeyi sınırlıdır. Sınırlar Hizmet sınırları bölümünde açıklanmıştır. |
Collection(Edm.String) |
Dizelerin listesi. |
Collection(Edm.Boolean) |
Boole değerlerinin listesi. |
Collection(Edm.Int32) |
32 bit tamsayı değerlerinin listesi. |
Collection(Edm.Int64) |
64 bit tamsayı değerlerinin listesi. |
Collection(Edm.Double) |
Çift duyarlıklı sayısal değerlerin listesi. |
Collection(Edm.DateTimeOffset) |
Tarih saat değerlerinin listesi. |
Collection(Edm.GeographyPoint) |
Coğrafi konumları temsil eden noktaların listesi. |
Collection(Edm.ComplexType) |
türündeki Edm.ComplexTypenesnelerin listesi. Bir belgedeki tüm tür Edm.ComplexType koleksiyonlarında maksimum öğe sayısı sınırı vardır. Ayrıntılar için Hizmet sınırları bölümüne bakın. |
İlkel ve karmaşık türlerin koleksiyonları dışında, yukarıdaki türlerin tümü null atanabilir, örneğin, Collection(Edm.String). Boş değer atanabilir alanlar açıkça null olarak ayarlanabilir. Azure AI Search dizinine yüklenen bir belgeden atlandığında otomatik olarak null olarak ayarlanır. Koleksiyon alanları, bir belgeden çıkarıldıklarında otomatik olarak boş ([] JSON'da) olarak ayarlanır. Ayrıca, bir koleksiyon alanında null değer depolamak mümkün değildir.
Karmaşık koleksiyonlardan farklı olarak, özellikle ilkel türlerden oluşan bir koleksiyondaki öğe sayısında bir üst sınır yoktur, ancak yük boyutundaki 16 MB'lık üst sınır , koleksiyonlar da dahil olmak üzere belgelerin tüm bölümleri için geçerlidir.
Filtre ifadelerinde kullanılan jeo-uzamsal veri türü
Azure AI Search'te jeo-uzamsal arama bir filtre olarak ifade edilir.
Edm.GeographyPolygon , dünya üzerindeki bir coğrafi bölgeyi temsil eden bir çokgendir. Bu tür belge alanlarında kullanılamasa da, işlevin bağımsız değişkeni geo.intersects olarak kullanılabilir. OData'daki URL'lerin değişmez biçimi, WKT (İyi bilinen metin) ve OGC'nin basit özellik erişim standartlarına dayanmaktadır. Çokgen sabit değeri coğrafya'POLYGON((lon lat, lon lat, ...))' olarak oluşturulur.
Önemli
Çokgendeki noktalar saat yönünün tersine olmalıdır. Çokgendeki noktalar, çokgenin içine göre saat yönünün tersine yorumlanır. Örneğin, Londra çevresindeki 4 noktalı kapalı poligon -0,3°W 51,6°N [sol üst] , -0,3°W 51,4°N [sol alt], 0,1°E 51,4°N [sağ alt], 0,1°E 51,6°N [sağ üst], -0,3°W 51,6°N [başlangıç noktası].