Aracılığıyla paylaş


Toplu çalıştırma gönderme ve akışı değerlendirme

Önemli

Bu makalede açıklanan özelliklerden bazıları yalnızca önizleme aşamasında kullanılabilir. Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri Ek Kullanım Koşulları.

Akışınızın büyük bir veri kümesiyle ne kadar iyi performans gösterebileceğini değerlendirmek için toplu çalıştırma gönderebilir ve istem akışında bir değerlendirme yöntemi kullanabilirsiniz.

Bu makalede şunları öğreneceksiniz:

  • Toplu çalıştırma gönderme ve değerlendirme yöntemi kullanma
  • Değerlendirme sonucunu ve ölçümlerini görüntüleme
  • Yeni bir değerlendirme turu başlatma
  • Toplu çalıştırma geçmişini denetleme ve ölçümleri karşılaştırma
  • Yerleşik değerlendirme yöntemlerini anlama
  • Akış performansını geliştirmenin yolları

Önkoşullar

Toplu çalıştırma ve değerlendirme yöntemi kullanmak için aşağıdakilerin hazır olması gerekir:

  • Toplu çalıştırma için test veri kümesi. Veri kümeniz şu biçimlerden birinde olmalıdır: .csv, .tsvveya .jsonl. Verileriniz, akışınızın giriş adlarıyla eşleşen üst bilgileri de içermelidir. Akış girişleriniz liste veya sözlük gibi karmaşık bir yapıya sahipse, verilerinizi göstermek için biçimi kullanın jsonl .
  • Toplu çalıştırmanızı çalıştırmak için kullanılabilir bir işlem oturumu. İşlem oturumu, akışınızı yürüten ve çıkışlar oluşturan bulut tabanlı bir kaynaktır. İşlem oturumları hakkında daha fazla bilgi edinmek için bkz . işlem oturumu.

Toplu çalıştırma gönderme ve değerlendirme yöntemi kullanma

Toplu çalıştırma, akışınızı büyük bir veri kümesiyle çalıştırmanıza ve her veri satırı için çıkışlar oluşturmanıza olanak tanır. Akışınızın çıkışını belirli ölçütler ve hedeflerle karşılaştırmak için bir değerlendirme yöntemi de seçebilirsiniz. Değerlendirme yöntemi , akış çıkışınızın ölçümlerini farklı yönlere göre hesaplayan özel bir akış türüdür. Toplu çalıştırma ile gönderildiğinde ölçümleri hesaplamak için bir değerlendirme çalıştırması yürütülür.

Toplu işlemi değerlendirmeyle başlatmak için Değerlendir düğmesi - Özel değerlendirme'yi seçebilirsiniz. Özel değerlendirme'yi seçerek değerlendirme yöntemleriyle toplu iş çalıştırması gönderebilir veya akışınız için değerlendirme yapmadan bir toplu iş çalıştırması gönderebilirsiniz.

Bu ekran görüntüsü toplu çalıştırma ve değerlendirme tetikleyicisi düğmesini gösterir

İlk olarak, toplu çalıştırmanıza açıklayıcı ve tanınabilir bir ad vermeniz istenir. Ayrıca bir açıklama yazabilir ve toplu çalıştırmanıza etiketler (anahtar-değer çiftleri) ekleyebilirsiniz. Yapılandırmayı tamamladıktan sonra devam etmek için İleri'yi seçin.

Bu ekran görüntüsünde özel değerlendirmenin temel ayarı gösterilmektedir

İkincisi, akışınızı test etmek istediğiniz bir veri kümesini seçmeniz veya karşıya yüklemeniz gerekir. Ayrıca bu toplu çalıştırmayı yürütmek için kullanılabilir bir işlem oturumu seçmeniz gerekir.

İstem akışı, akış girişinizi veri kümenizdeki belirli bir veri sütununa eşlemeyi de destekler. Bu, belirli bir girişe sütun atayabileceğiniz anlamına gelir. Biçime ${data.XXX} başvurarak bir girişe sütun atayabilirsiniz. Bir girişe sabit bir değer atamak istiyorsanız, bu değeri doğrudan yazabilirsiniz.

Bu ekran görüntüsü, özel değerlendirmenin toplu çalıştırma ayarını gösterir

Ardından, bir sonraki adımda bu akışın performansını doğrulamak için bir değerlendirme yöntemi kullanmaya karar verebilirsiniz. Herhangi bir değerlendirme yöntemi uygulamak veya ölçümleri hesaplamak istemiyorsanız, bu adımı atlamak için doğrudan İleri düğmesini seçebilirsiniz. Aksi takdirde, toplu çalıştırmayı şimdi değerlendirmeyle çalıştırmak istiyorsanız, bir veya daha fazla değerlendirme yöntemi seçebilirsiniz. Değerlendirme, toplu iş çalıştırması tamamlandıktan sonra başlar. Toplu iş çalıştırması tamamlandıktan sonra başka bir değerlendirme turu da başlatabilirsiniz. Yeni bir değerlendirme turu başlatma hakkında daha fazla bilgi edinmek için bkz . Yeni bir değerlendirme turu başlatma.

Bu ekran görüntüsünde değerlendirme yöntemlerini seçme işlemleri gösterilmektedir.

Sonraki adım giriş eşlemesi bölümünde, değerlendirme yöntemi için gereken giriş verilerinin kaynaklarını belirtmeniz gerekir. Örneğin, ground truth sütunu bir veri kümesinden gelebilir. Varsayılan olarak değerlendirme, test çalıştırmasına sağlanan test veri kümesiyle aynı veri kümesini kullanır. Ancak, karşılık gelen etiketler veya hedef gerçek değerleri farklı bir veri kümesindeyse, buna kolayca geçiş yapabilirsiniz.

  • Veri kaynağı çalıştırma çıkışınızdan geliyorsa, kaynak ${run.output olarak gösterilir.[ OutputName]}
  • Veri kaynağı test veri kümenizden geliyorsa kaynak ${data olarak gösterilir.[ ColumnName]}

Bu ekran görüntüsünde, giriş eşlemesi ve bağlantı dahil olmak üzere değerlendirme ayarlarını yapılandırma gösterilmektedir.

Not

Değerlendirmeniz veri kümesinden veri gerektirmiyorsa, veri kümesi seçiminin isteğe bağlı bir yapılandırma olduğunu belirten giriş eşlemesi bölümündeki veri kümesi sütunlarına başvurmanız gerekmez. Veri kümesi seçimi değerlendirme sonucunu etkilemez.

Değerlendirme yöntemi, akış yanıtının performansını ölçmek için Büyük Dil Modelleri (LLM) kullanıyorsa, değerlendirme yöntemlerinde LLM düğümleri için bağlantılar ayarlamanız da gerekir.

Ardından, ayarlarınızı gözden geçirmek için İleri'yi seçebilir ve toplu işlemi değerlendirmeyle başlatmak için Gönder'i seçebilirsiniz.

Değerlendirme sonucunu ve ölçümlerini görüntüleme

Gönderimden sonra, gönderilen toplu çalıştırmayı istem akışı sayfasındaki çalıştırma listesi sekmesinde bulabilirsiniz. Çalıştırma sonucu sayfasına gitmek için bir çalıştırma seçin.

Çalıştırma ayrıntıları sayfasında, Bu toplu çalıştırmanın ayrıntılarını denetlemek için Ayrıntılar'ı seçebilirsiniz.

Çıktı

Temel sonuç ve izleme

Bu, ilk olarak girişleri ve çıkışları satır satır görüntülemek için sizi Çıkış sekmesine yönlendirir. Çıkış sekmesi sayfasında satır kimliği, giriş, çıkış, durum, sistem ölçümleri ve oluşturulan saat gibi sonuçların tablo listesi görüntülenir.

Her satır için İzlemeyi görüntüle'yi seçmek, izleme ayrıntılı sayfasında bu test çalışmalarını gözlemlemenize ve hata ayıklamanıza olanak tanır.

Bu ekran görüntüsü toplu çalıştırma çıkışını gösterir.

 İzleme ayrıntılarının ekran görüntüsü.

Ekleme değerlendirme sonucu ve izleme

Değerlendirme çıkışını ekle'yi seçtiğinizde ilgili değerlendirme çalıştırmalarını seçebilirsiniz ve tablonun sonunda her veri satırı için değerlendirme sonucunu gösteren ekli sütunlar görürsünüz. Karşılaştırma için birden çok değerlendirme çıkışı eklenebilir.

Değerlendirme çıktısını eklemek için toplu çalıştırma çıktılarının ekran görüntüsü.

Soldaki Genel Bakış panelinde en son değerlendirme ölçümlerini görebilirsiniz.

Temel genel bakış

Sağ tarafta Genel Bakış, çalıştırma hakkında veri noktası başına yürütme sayısı, toplam belirteçler ve çalıştırma süresi gibi genel bilgiler sunar.

En son değerlendirme çalıştırması toplu ölçümleri varsayılan olarak burada gösterilir. Değerlendirme çalıştırmasının kendisini görüntülemek için Değerlendirme çalıştırmasını görüntüle'yi seçebilirsiniz.

Çıktı sayfasındaki toplu çalıştırmaya genel bakış bilgilerinin ekran görüntüsü.

Genel bakış burada genişletilebilir ve daraltılabilir ve Tam bilgileri görüntüle'yi seçerek çıkış sekmesinin yanındaki Genel Bakış sekmesine yönlendirilirsiniz. Burada bu çalıştırmayla ilgili daha ayrıntılı bilgiler yer alır.

Yeni bir değerlendirme turu başlatma

Toplu çalıştırmayı zaten tamamladıysanız, akışınızı yeniden çalıştırmadan çıkışların ölçümlerini hesaplamak üzere yeni bir değerlendirme çalıştırması göndermek üzere başka bir değerlendirme turu başlatabilirsiniz. Bu yararlı olur ve aşağıdaki durumlarda akışınızı yeniden çalıştırma maliyetinizden tasarruf edebilirsiniz:

  • Toplu çalıştırmayı gönderirken ölçümleri hesaplamak için bir değerlendirme yöntemi seçmediyseniz ve şimdi yapmaya karar vermediniz.
  • Bir ölçümü hesaplamak için zaten değerlendirme yöntemini kullandınız. Başka bir ölçümü hesaplamak için başka bir değerlendirme turu başlatabilirsiniz.
  • Değerlendirme çalıştırmanız başarısız oldu ancak akışınız başarıyla çıkışlar oluşturdu. Değerlendirmenizi yeniden gönderebilirsiniz.

İstem akışı Çalıştırmalar sekmesine gidebilirsiniz. Ardından toplu çalıştırma ayrıntı sayfasına gidin ve değerlendir'i seçerek başka bir değerlendirme turu başlatın.

Bu ekran görüntüsü, toplu çalıştırmayı temel alan yeni bir değerlendirmenin nasıl başlatılacaklarını gösterir.

Yapılandırmayı ayarladıktan sonra, bu yeni değerlendirme turu için "Gönder"i seçebilirsiniz. Gönderimden sonra, istem akışı çalıştırma listesinde yeni bir kayıt görebilirsiniz. Değerlendirme çalıştırması tamamlandıktan sonra, benzer şekilde, toplu çalıştırma ayrıntı panelinin "Çıkışlar" sekmesinde değerlendirmenin sonucunu de kontrol edebilirsiniz. Sonucunu görüntülemek için yeni değerlendirme çalıştırmasını seçmeniz gerekir.

Yerleşik değerlendirme yöntemleri tarafından hesaplanan ölçümler hakkında daha fazla bilgi edinmek için yerleşik değerlendirme yöntemlerini anlama bölümüne gidin.

Genel bakış

Genel Bakış sekmesi seçildiğinde çalıştırma özellikleri, giriş veri kümesi, çıkış veri kümesi, etiketler ve açıklama gibi çalıştırma hakkında kapsamlı bilgiler gösterilir.

Günlükler

Günlükler sekmesinin seçilmesi çalıştırma günlüklerini görüntülemenizi sağlar. Bu, yürütme hatalarının ayrıntılı hata ayıklaması için yararlı olabilir. Günlük dosyalarını yerel makinenize indirebilirsiniz.

Anlık Görüntü

Anlık Görüntü sekmesini seçtiğinizde çalıştırma anlık görüntüsü gösterilir. Akışınızın DAG'sini görüntüleyebilirsiniz. Ayrıca, yeni bir akış oluşturmak için Kopyalama seçeneğiniz de vardır. Çevrimiçi uç nokta olarak da dağıtabilirsiniz .

Toplu çalıştırma anlık görüntüsünün ekran görüntüsü.

Toplu çalıştırma geçmişini denetleme ve ölçümleri karşılaştırma

Bazı senaryolarda, performansını artırmak için akışınızı değiştirirsiniz. Akışınızın performansını farklı sürümlerle karşılaştırmak için birden fazla toplu iş çalıştırması gönderebilirsiniz. Hangisinin akışınız için daha uygun olduğunu görmek için farklı değerlendirme yöntemleriyle hesaplanan ölçümleri de karşılaştırabilirsiniz.

Akışınızın toplu çalıştırma geçmişini denetlemek için akış sayfanızın Toplu çalıştırmayı görüntüle düğmesini seçebilirsiniz. Bu akış için gönderdiğiniz toplu çalıştırmaların listesini görürsünüz.

Bu ekran görüntüsü, çalıştırma listesi sayfasındaki çıktıyı görselleştir düğmesini gösterir.

Ayrıntıları denetlemek için her toplu çalıştırmayı seçebilirsiniz. Ayrıca birden çok toplu çalıştırma seçebilir ve toplu çalıştırmaların ölçümlerini ve çıkışlarını karşılaştırmak için Çıktıları görselleştir'i seçebilirsiniz.

"Çıktıyı görselleştir" panelinde Çalıştırmalar ve ölçümler tablosu, seçili çalıştırmaların bilgilerini vurgulanmış olarak gösterir. Giriş olarak seçilen çalıştırmaların çıkışlarını alan diğer çalıştırmalar da listelenir.

"Çıkışlar" tablosunda, seçilen toplu iş çalıştırmalarını her örnek satırına göre karşılaştırabilirsiniz. "Çalıştırmalar ve ölçümler" tablosundaki "gözle görselleştirme" simgesini seçerek, bu çalıştırmanın çıkışları ilgili temel çalıştırmaya eklenir.

Yerleşik değerlendirme yöntemlerini anlama

İstem akışında, akış çıkışınızın performansını ölçmenize yardımcı olmak için birden çok yerleşik değerlendirme yöntemi sunuyoruz. Her değerlendirme yöntemi farklı ölçümleri hesaplar. Yerleşik değerlendirme yöntemlerinin ve açıklamalarının listesi için aşağıdaki tabloya bakın.

Değerlendirme Yöntemi Ölçümler Açıklama Bağlan ion Gerekli Gerekli Giriş Puan Değeri
Sınıflandırma Doğruluğu Değerlendirmesi Doğruluk Çıkışlarını temel gerçekle karşılaştırarak sınıflandırma sisteminin performansını ölçer. Hayır tahmin, temel gerçek [0, 1] aralığında.
Soru-Cevap İlgi Puanları çift tabanlı değerlendirme Puan, kazanma/kaybetme Bir soru yanıtlama sistemi tarafından oluşturulan yanıtların kalitesini değerlendirir. Kullanıcı sorusuyla ne kadar iyi eşleştiklerine bağlı olarak her yanıta ilgi puanı atamayı, temel yanıtla farklı yanıtları karşılaştırmayı ve ortalama kazanma oranları ve ilgi puanları gibi ölçümler üretmek için sonuçları toplamayı içerir. Yes soru, yanıt (temel gerçek veya bağlam yok) Puan: 0-100, kazanma/kaybetme: 1/0
Soru-Cevap Topraklama Değerlendirmesi Topraklanmışlık Modelin tahmin edilen yanıtlarının giriş kaynağında ne kadar temellendiğini ölçer. LLM'nin yanıtları doğru olsa bile, kaynakta doğrulanmıyorsa, ön planda değildir. Yes soru, yanıt, bağlam (temel gerçek yok) 1'e 5, 1 en kötü, 5 en iyisi.
Soru-Cevap GPT Benzerlik Değerlendirmesi GPT Benzerliği GpT Modeli'ni kullanarak kullanıcı tarafından sağlanan temel gerçek yanıtları ile modelin tahmin edilen yanıtı arasındaki benzerliği ölçer. Yes soru, yanıt, temel gerçek (bağlam gerekli değil) [0, 1] aralığında.
Soru-Cevap İlgi Değerlendirmesi İlgi Modelin tahmin edilen yanıtlarının sorulan sorularla ne kadar ilgili olduğunu ölçer. Yes soru, yanıt, bağlam (temel gerçek yok) 1'e 5, 1 en kötü, 5 en iyisi.
Soru-Cevap Tutarlılığı Değerlendirmesi Tutarlı -lık Modelin tahmin edilen yanıtında tüm cümlelerin kalitesini ve bunların doğal olarak nasıl bir araya uyacağını ölçer. Yes soru, yanıt (temel gerçek veya bağlam yok) 1'e 5, 1 en kötü, 5 en iyisi.
Soru-Cevap Akıcılık Değerlendirmesi Akıcı -lık Modelin tahmin edilen yanıtının dil bilgisi ve dilsel olarak ne kadar doğru olduğunu ölçer. Yes soru, yanıt (temel gerçek veya bağlam yok) 1-5, 1 en kötü, 5 en iyi
Soru-Cevap f1 puan Değerlendirme F1 puanı Model tahmini ile temel gerçek arasındaki paylaşılan sözcük sayısının oranını ölçer. Hayır soru, yanıt, temel gerçek (bağlam gerekli değil) [0, 1] aralığında.
Soru-Cevap Ada Benzerlik Değerlendirmesi Ada Benzerliği Hem temel gerçek hem de tahmin için Ada embeddings API'sini kullanarak tümce (belge) düzeyinde eklemeleri hesaplar. Ardından aralarındaki kosinüs benzerliğini hesaplar (bir kayan nokta sayısı) Yes soru, yanıt, temel gerçek (bağlam gerekli değil) [0, 1] aralığında.

Akış performansını geliştirmenin yolları

Değerlendirmeden yerleşik yöntemleri denetledikten sonra aşağıdaki işlemleri yaparak akış performansınızı iyileştirmeyi deneyebilirsiniz:

  • Akışınızdaki olası hatalarda hata ayıklamak için çıkış verilerini denetleyin.
  • Performansını geliştirmek için akışınızı değiştirin. Buna şunlar dahildir ancak bunlarla sınırlı değildir:
    • İstemi değiştirme
    • Sistem iletisini değiştirme
    • Akışın parametrelerini değiştirme
    • Akış mantığını değiştirme

Hedefinize ulaşabilecek bir istem oluşturma hakkında daha fazla bilgi edinmek için bkz . Istem mühendisliğine giriş, Istem mühendisliği teknikleri ve Büyük Dil Modelleri (LLM'ler) için Sistem ileti çerçevesi ve şablon önerileri.

Bu belgede, toplu çalıştırma göndermeyi ve akış çıkışınızın kalitesini ölçmek için yerleşik bir değerlendirme yöntemi kullanmayı öğrendiniz. Ayrıca değerlendirme sonucunu ve ölçümlerini görüntülemeyi ve farklı bir yöntem veya değişken alt kümesiyle yeni bir değerlendirme turu başlatmayı da öğrendinsiniz. Bu belgenin akış performansınızı geliştirmenize ve istem akışıyla hedeflerinize ulaşmanıza yardımcı olduğunu umuyoruz.

Sonraki adımlar