Genie Space'i test edip izleme

Genie Space'i gerçek dünya sorularıyla test edin, oluşturulan SQL ve görselleştirmeleri gözden geçirin, Genie bir sorun olduğunda yanıtları düzenleyin ve alan kullanımını ve kullanıcı geri bildirimlerini izleyin; böylece veriler ve sorular geliştikçe alanı doğru tutabilirsiniz. Uygun ölçekte yanıt doğruluğunu puanlemek için karşılaştırmaları kullanın.

Genie Alanınızı test edin

Kullanıcı etkileşimlerinin çoğu sohbet penceresinde gerçekleşir. Alanınızın istediğiniz gibi çalışıp çalışmadığını öğrenmenin en iyi yolu, işletme kullanıcılarınızın sormasını beklediğiniz gerçekçi sorularla test etmektir.

Yeni sohbet penceresi, aşağıdaki metinde açıklandığı gibi.

Alan ayarlarında yapılandırılan örnek sorular sohbet penceresinde görüntülenir. Genie, kullanıcıların verileri keşfetmeye başlamasına yardımcı olmak için alanın bağlamını temel alan örnek sorular da oluşturabilir. Kullanıcılar bir örnek soruya tıklayabilir veya ekranın altındaki metin alanına kendi sorularını girebilir.

Yanıtlar metin alanının üzerinde görünür. Kullanıcı bir soru girdikten sonra sohbet geçmişine kaydedilir.

Yeni bir konuşma başlatmak için:

  1. Yeni bir sohbet başlatmak için Yeni sohbet'e tıklayın. Önceki bir konuşmayı açmak için Geçmiş simgesine tıklayın.
  2. Sorunuzu Sorunuzu sorun... metin girişi alanına yazın.

Yanıtları gözden geçirme

Yanıtlar genellikle sorulara doğal dil yanıtları ve ilgili sonuç kümesini gösteren bir tablo olarak teslim edilir. Genie bir görselleştirmenin yanıt netliğini artırabileceğini algıladığında bir görselleştirme de döndürür. Kesin yanıt yapısı, soruya göre değişir. Soruyu yanıtlamak için bir SQL sorgusu oluşturulduysa, yanıta eklenir.

Görselleştirme, geri bildirim ve diğer seçenekleri içeren örnek bir yanıt gösterilir.

Note

Diğer büyük dil modelleri (LLM'ler) gibi Genie de belirlenimci olmayan davranışlar sergileyebilir. Bu, aynı istemi birden çok kez gönderirken zaman zaman farklı çıkışlar alabileceğiniz anlamına gelir. Genie'nin öğrenebileceği örnek SQL sorguları sağlamak Genie'nin daha tutarlı olmasını sağlayabilir. bkz. örnek SQL sorguları ve işlevleri ekleme.

Yanıt geri bildirimi

Her yanıt, kullanıcıdan bu doğru mu? yanıtını ister. Kullanıcılar aşağıdaki yollardan biriyle yanıt verebilir:

  • Evet: Yanıtın doğru göründüğünü onaylar.
  • Düzeltin: Yanıtı yanlış olarak işaretler. Kullanıcılar sık karşılaşılan sorunlardan birini seçebilir veya kendi açıklamalarını girebilir. Daha sonra yapabilecekleri:
    • Gönder'e tıklayın ve sağlanan geri bildirimi kullanarak yanıtı yeniden oluşturmak için yeniden deneyin.
    • Yanıtı yeniden oluşturmadan geri bildirim göndermek için Gönder'e tıklayın.
  • Gözden geçirme isteği: Yanıtı manuel gözden geçirme için işaretler. Kullanıcılar size ek bağlam sağlamak için isteğe bağlı bir açıklama ekleyebilir.

Düzenleyici olarak, Genie arabiriminde geri bildirimleri ve işaretlenmiş yanıtları görüntüleyebilirsiniz. Genie Space'inizin davranışı yalnızca kullanıcı geri bildirimlerine göre değişmez. İyileştirme fırsatlarını belirlemek veya doğrudan kullanıcı sorularını yanıtlamak için geri bildirim kullanmalısınız. Databricks, kullanıcıları bu mekanizmayı kullanarak alan hakkında geri bildirim sağlamaya teşvik etmelerini önerir.

İş kullanıcıları , gözden geçirılmak üzere işaretledikleri soruların güncelleştirmelerini İzleyici sayfalarında görüntüleyebilir. Genie Space üzerinde en az CAN MANAGE iznine sahip kullanıcılar belirli bir alışverişi gözden geçirebilir, istekle ilgili yorum yapabilir ve verilen yanıtı onaylayabilir veya düzeltebilir. İzleme sayfasından geri bildirime erişebilir ve istekleri gözden geçirebilirler. Ardından bu geri bildirimi kullanarak yanıtları ayarlayabilir ve alanınızda yineleme yapabilirsiniz. Bkz Monitor the space.

Diğer yanıt eylemleri

Oluşturulan SQL içeren yanıtlar için, döndürülen verilerle etkileşim kurmanıza olanak sağlayan ek seçenekler vardır.

  • CSV'i kopyala: Alan kullanıcıları, csv olarak yaklaşık 1 GB'a kadar sonuç verisi indirebilir. 1 GB sınırı son dosya indirme adımından önceki bir adıma uygulandığından, son dosya indirme boyutu 1 GB'tan biraz daha fazla veya daha az olabilir. Sonuçları indirmek için yanıttaki indirme simgesine tıklayın.

  • Kodu göster: Oluşturulan sorguyu görüntülemek için Kodu göster'e tıklayın. Bu, güvenilir olmayan yanıtlarla ilgili sorunları gidermek için yararlı olabilir. Bkz. Sorguları düzenleme ve kaydetme.

  • Kebap menü simgesi. kebap menüsü: Aşağıdaki eylemlere erişin:

    • CSV'yi kopyalama: Yanıt CSV'sini panonuza kopyalayın.
    • Yönerge olarak ekle: Genie'ye benzer soruları nasıl yanıtlayabileceğini öğretmek için yararlı olabilecek etkileşimler için Yönerge olarak ekle'ye tıklayın. Bu işlem, sorunun ve oluşturulan SQL'in otomatik olarak eklendiği örnek SQL sorgularını kaydetmek için kullanıcı arabirimini açar. Örneği yazıldı olarak bırakabilir veya değişiklik yapmak için düzenleyip kaydedebilirsiniz. bkz. örnek SQL sorguları ve işlevleri ekleme.
    • Kıyaslama olarak ekle: Soruyu kıyaslama sorusu olarak ekleyin. Bkz . Karşılaştırmalar.
    • Verileri yenileme: Daha önce oluşturulan sorguyu çalıştırarak verileri yenileyin.
    • Yanıtı yeniden oluştur: Soruyu yeniden gönderin ve Genie'nin yanıtı yeniden oluşturmasını sağlayın.

Sorguları düzenleme ve kaydetme

Genie'nin SQL sorguları doğruluk açısından gözden geçirilebilir ve gerektiğinde düzenlenebilir. Genie Space yazarları genellikle Genie'nin yanlış yanıt verdiğini fark etmelerini sağlayan etki alanını ve verileri bilir. Hatalar genellikle oluşturulan SQL sorgusunda el ile yapılan küçük bir ayarlamayla düzeltilebilir. Sorguyu incelemek ve herhangi bir yanıt için oluşturulan SQL'i görüntülemek için Oluşturulan kodu göster'e tıklayın.

Genie Space'te CAN EDIT veya daha büyük ayrıcalıklarınız varsa, oluşturulan SQL deyimini düzenleyerek düzeltebilirsiniz. Düzeltmelerinizi yaptıktan sonra sorguyu çalıştırın. Daha sonra, Genie'ye gelecekte nasıl yanıt verebileceğini öğretmek için bir yönerge olarak kaydedebilirsiniz. Düzenlenen sorgunuzu kaydetmek için Yönerge olarak ekle'ye tıklayın.

Alanı izleme

Genie Space, veri ekipleri ve iş kullanıcıları arasında uzun vadeli bir işbirliği aracı olarak düşünülebilir. Tek seferlik dağıtım olarak hizmet etmek yerine zaman içinde bilgi biriktirir. Kullanıcılar yeni sorular sordukçe kapsamı ve doğruluğu geliştirmek için alanı daraltabilirsiniz.

Tek tek soruları ve yanıtları gözden geçirmek, kullanıcı geri bildirimlerini görüntülemek ve gözden geçirmek üzere bayrak eklenmiş yanıtları belirlemek için İzleyici sekmesini kullanın.

Açıklanan özellikleri gösteren örnek bir izleme sekmesi.

Monitor sekmesinde, alanda sorulan tüm sorular ve yanıtlar gösterilir. Soruları zamana, derecelendirmeye, kullanıcıya veya duruma göre filtreleyebilirsiniz. Alanı izleyerek, YÖNETEBİLİR izinlerine sahip kullanıcılar, iş kullanıcıları tarafından çıkarılan sorguları ve Genie Space'in nasıl yanıt verdiğini proaktif olarak anlayabilir.

Genie'nin karşı karşıya olduğu soruları belirlemek, Genie Space'i yanıtlarını geliştirmek için belirli yönergelerle güncelleştirmenize yardımcı olabilir. Soru ve yanıt metnini açmak ve sohbet yazışmasının tamamını görüntülemek için bir soruya tıklayın.

Haftalık ileti hacmini, etkin kullanıcıları ve başparmak yukarı/aşağı geri bildirimini gözden geçirmek için İzleyici sekmesinin Haftalık özet bölümünü kullanın. En sık karşılaşılan kullanım eğilimlerini ve yaygın sorunları belirlemek için Alan kullanımını analiz et'e tıklayın. Bu, alanınızın izleme verilerini analiz eden ve kullanım düzenlerini ve iyileştirme alanlarını özetleyen Genie Code'ı başlatır. Genie Code yanıtları, alanınızdaki ilgili konuşmalara geri bağlanan alıntılar içerir. Konuşmayı doğrudan Genie Code yazışmasında açmak için bir alıntıya tıklayın.

haftalık iletileri, kullanıcıları ve geri bildirimleri gösteren İzleme sekmesinin Haftalık özet bölümü.

Konuşmaları kalite için gözden geçirme

Important

Bu özellik Beta sürümündedir. Çalışma alanı yöneticileri Bu özelliğe erişimi Önizlemeler sayfasından denetleyebilir. Bkz. Azure Databricks önizlemelerini yönetme.

Bir konuşma alan yöneticileri tarafından gözden geçirilebilir olarak ayarlandığında, Yönetim iznine sahip kullanıcılar, tüm konuşmayı gözden geçirmek için izleme sekmesinden konuşmayı açabilir. Bu, Genie'nin yanıt kalitesini değerlendirmenize, kullanıcı geri bildirimlerine yanıt vermenize ve ek yönergelerin veya örnek sorguların doğruluğu geliştireceği alanları belirlemenize olanak tanır. Özel olarak ayarlanmış konuşmalar için, alan yöneticileri izleme sekmesinde kullanıcı istemlerini görebilir, ancak konuşmanın veya sonuçların tamamını görüntüleyemez. Daha fazla bilgi için bkz. Konuşma paylaşma.

Note

Beta etkinleştirilmeden önce oluşturulan konuşmalar Özel olarak kalır. Etkinleştirildikten sonra oluşturulan konuşmalar varsayılan olarak Alan yöneticileri tarafından gözden geçirilebilir şeklinde ayarlanır.

Benchmarks

Karşılaştırmalar, Genie'nin genel yanıt doğruluğunu değerlendirmek için çalıştırabileceğiniz bir dizi test sorusu oluşturmanıza olanak sağlar. En sık sorulan kullanıcı sorularını kapsayan iyi tasarlanmış bir karşılaştırma kümesi, Genie Space'inizi iyileştirdikçe doğruluğunu değerlendirmenize yardımcı olur. Her Genie Space en fazla 500 karşılaştırma sorusu içerebilir.

Karşılaştırma soruları yeni konuşmalar olarak çalıştırılır. Zincirlenmiş bir Genie konuşmasıyla aynı bağlamı taşımazlar. Her soru, sağlanan örnek SQL ve SQL işlevleri dahil olmak üzere alanda tanımlanan yönergeler kullanılarak yeni bir sorgu olarak işlenir.

Karşılaştırma soruları iki modu destekler:

  • Sohbet modu: Varsayılan mod. Genie, SQL tarafından oluşturulan sonuçlarını sağlanan bir SQL yanıtıyla karşılaştırarak doğruluğu değerlendirir.
  • Aracı modu: Genie'nin Aracı moduyla aynı çok adımlı mantığı kullanarak karşılaştırma soruları yürütür. Bir LLM yargıcı yanıtları değerlendirir. Not verme işlemini yönlendirmek için isteğe bağlı bir değerlendirme notu sağlayabilirsiniz.

Dokuz soruda bildirilen doğrulukla örnek karşılaştırmalar.

Karşılaştırma soruları ekleme

Karşılaştırma soruları, kullanıcılarınızın sordığı yaygın soruları ifade etmenin farklı yollarını yansıtmalıdır. Genie'nin söz konusu ifadelerdeki çeşitlemelere veya farklı soru biçimlerine verdiği yanıtı denetlemek için bunları kullanabilirsiniz.

Karşılaştırma sorusu oluştururken, isteğe bağlı olarak sonuç kümesi doğru yanıt olan bir SQL sorgusu ekleyebilirsiniz. Karşılaştırma çalıştırmaları sırasında doğruluk, SQL sorgunuzdaki sonuç kümesi Genie tarafından oluşturulan sorguyla karşılaştırılarak değerlendirilir. Unity Kataloğu SQL işlevlerini karşılaştırmalar için altın standart yanıtlar olarak da kullanabilirsiniz.

Karşılaştırma sorusu eklemek için:

  1. Genie Space'in üst kısmında Karşılaştırmalar'a tıklayın.

  2. Karşılaştırma ekle'ye tıklayın.

  3. Soru alanına test etmek için bir karşılaştırma sorusu girin.

  4. Bir mod seçin: Sohbet veya Aracı.

    • Sohbet modu: Genie, sonuçlarını sağladığınız bir SQL yanıtıyla karşılaştırarak doğruluğu değerlendirir.
    • Aracı modu: Genie, soruyu yanıtlamak için çok adımlı mantık kullanır. Bir LLM yargıcı, yanıtları değerlendirir.
  5. (Yalnızca sohbet modu) Soruyu yanıtlayan bir SQL sorgusu sağlayın. Unity Kataloğu SQL işlevleri de dahil olmak üzere SQL Yanıt kutusuna yazarak kendi sorgunuzu yazabilirsiniz. Alternatif olarak, Genie'nin SQL sorgusunu sizin için yazmasını sağlamak için SQL Oluştur'a tıklayın. Girdiğiniz soruyu doğru yanıtlayan bir SQL deyimi kullanın.

    Note

    Bu adım önerilir. Yalnızca bu örnek SQL deyimini içeren sorular doğruluk açısından otomatik olarak değerlendirilebilir. SQL Yanıtı içermeyen tüm soruların puanlanması için el ile gözden geçirme gerekir. SQL Oluştur düğmesini kullanıyorsanız, soruyu doğru yanıtladığınızdan emin olmak için deyimini gözden geçirin.

  6. (Yalnızca aracı modu, isteğe bağlı) Değerlendirme notu alanına doğru yanıt veya beklenen içerikle ilgili yönergeleri girin. Genie değerlendirme notunu LLM yargıcına iletir. Not, Aracı modunun oluşturduğu metin raporlarında beklenen içeriğe başvurabilir.

  7. (Yalnızca sohbet modu, isteğe bağlı) Sorgunuzu çalıştırmak ve sonuçları görüntülemek için Çalıştır'a tıklayın.

  8. Düzenlemeyi bitirdiğinizde Karşılaştırma ekle'ye tıklayın.

  9. Bir soruyu kaydettikten sonra güncelleştirmek için, soruyu güncelleştir iletişim kutusunu açmak için kalem simgesine tıklayınDüzenle simgesi.

Alternatif soru ifadelerini test etmek için karşılaştırmaları kullanma

Genie Space'inizin doğruluğunu değerlendirirken, testleri gerçekçi senaryoları yansıtacak şekilde yapılandırmak önemlidir. Kullanıcılar aynı soruyu farklı şekillerde sorabilir. Databricks, doğruluğu tam olarak değerlendirmek için aynı sorunun birden çok tümcesini eklemeyi ve karşılaştırma testlerinizde aynı örnek SQL'i kullanmanızı önerir. Çoğu Genie Spaces aynı sorunun iki ila dört tümcesini içermelidir.

Karşılaştırma sorularını çalıştırma

Genie Space'te en azından CAN EDIT izinleri olan kullanıcılar istedikleri zaman bir karşılaştırma değerlendirmesi çalıştırabilir. Tüm karşılaştırma sorularını çalıştırabilir veya test etmek için bir soru alt kümesi seçebilirsiniz.

Genie her soru için girişi yorumlar, SQL oluşturur ve sonuçları döndürür. Daha sonra oluşturulan SQL ve sonuçlar, karşılaştırma sorusunda tanımlanan SQL Yanıtı ile karşılaştırılır.

Tüm karşılaştırma sorularını çalıştırmak için:

  1. Genie Space'in üst kısmında Karşılaştırmalar'a tıklayın.
  2. Test çalıştırmasını başlatmak için Karşılaştırmaları çalıştır'a tıklayın.

Karşılaştırma sorularının bir alt kümesini çalıştırmak için:

  1. Genie Space'in üst kısmında Karşılaştırmalar'a tıklayın.
  2. Test etmek istediğiniz soruların yanındaki onay kutularını seçin.
  3. Seçili sorularda test çalıştırmasını başlatmak için Seçili çalıştır'a tıklayın.

Ayrıca önceki bir karşılaştırma sonucundan soruların bir alt kümesini seçebilir ve iyileştirmeleri test etmek için bu belirli soruları yeniden çalıştırabilirsiniz.

Karşılaştırmalar, sayfadan uzaklaştığınızda çalışmaya devam eder. Çalıştırma tamamlandığında Değerlendirme sekmesinde sonuçları de kontrol edebilirsiniz.

Derecelendirmeleri yorumlama

Karşılaştırma modu Genie'nin derecelendirmeleri nasıl hesaplayıp hesaplamadığını belirler.

Sohbet modu derecelendirmeleri

Aşağıdaki ölçütler Genie'nin Sohbet modu yanıtlarını nasıl ayarladığını belirler:

Koşul Rating
Genie, sağlanan SQL Yanıtıyla tam olarak eşleşen SQL oluşturur İyi
Genie, SQL Yanıt tarafından üretilen sonuç kümesiyle tam olarak eşleşen bir sonuç kümesi oluşturur İyi
Genie , SQL Yanıtı ile aynı verilerle bir sonuç kümesi oluşturur ancak farklı sıralanır İyi
Genie, SQL Yanıtı ile aynı 4 anlamlı basamağı yuvarlayan sayısal değerlerle bir sonuç kümesi oluşturur İyi
Genie boş bir sonuç kümesi oluşturan veya hata döndüren SQL oluşturur Kötü
Genie, SQL Answer tarafından üretilen sonuç kümesine kıyasla ek sütunlar içeren bir sonuç kümesi oluşturur Kötü
Genie, SQL Yanıtı tarafından üretilen tek hücre sonucundan farklı bir tek hücre sonucu oluşturur. Kötü

El ile gözden geçirme gerekiyor: Genie doğruluğu değerlendiremediğinde veya Genie tarafından oluşturulan sorgu sonuçları sağlanan SQL Yanıtından elde edilen sonuçlarla tam eşleşme içermediğinde yanıtlar bu etiketle işaretlenir. SQL Yanıtı içermeyen karşılaştırma soruları el ile gözden geçirilmelidir.

Ajan Modu derecelendirmeleri

Bir LLM yargıcı, SQL karşılaştırması kullanmak yerine Aracı Modu yanıtlarını değerlendirir. Değerlendirme notu sağladıysanız LLM yargıcı, aracı modunun oluşturduğu metin raporundaki beklenen içerik de dahil olmak üzere yanıtı değerlendirirken bu notu kılavuz olarak kullanır. Yargıç, değerlendirme notu ölçütlerini karşılayan yanıtları İyi olarak derecelendirmektedir.

Erişim karşılaştırması değerlendirmeleri

Genie Space'inizdeki doğruluğu zaman içinde izlemek için tüm karşılaştırma değerlendirmelerinize erişebilirsiniz. Bir alanın Karşılaştırmalarını açtığınızda Değerlendirmeler sekmesinde zaman damgalı değerlendirme çalıştırmaları listesi görüntülenir. Değerlendirme çalıştırması bulunamazsa bkz . Karşılaştırma soruları ekleme veya Karşılaştırma soruları çalıştırma.

Aşağıdaki metinde açıklandığı gibi değerlendirmeler ekranı.

Değerlendirmeleri sekmesi, aşağıdaki kategorilerde bildirilen değerlendirmelere ve performanslarına genel bir bakış gösterir:

Değerlendirme adı: Değerlendirme çalıştırmalarının ne zaman gerçekleştiğini gösteren zaman damgası. Bu değerlendirmenin ayrıntılarını görmek için zaman damgasına tıklayın. Yürütme durumu: Değerlendirmenin tamamlandığını, duraklatıldığını veya başarısız olduğunu gösterir. Değerlendirme çalıştırması önceden tanımlanmış SQL yanıtları olmayan karşılaştırma soruları içeriyorsa, bu sütunda gözden geçirilmeye işaretlenir. Doğruluk: Tüm karşılaştırma sorularının doğruluğunun sayısal değerlendirmesi. El ile gözden geçirme gerektiren değerlendirme süreçleri için doğruluk ölçüsü ancak bu sorular gözden geçirildikten sonra görüntülenir. Oluşturan: Değerlendirmeyi çalıştıran kullanıcının adını gösterir.

Bireysel değerlendirmeleri gözden geçirme

Her yanıta ayrıntılı bir bakış elde etmek için bireysel değerlendirmeleri gözden geçirebilirsiniz. Herhangi bir soru için değerlendirmeyi düzenleyebilir ve el ile gözden geçirilmesi gereken tüm öğeleri güncelleştirebilirsiniz.

Bireysel değerlendirmeleri gözden geçirmek için:

  1. Genie Space'in üst kısmına yakın bir yerde Kıyaslama seçeneğine tıklayın.

  2. Bu test çalıştırmasının ayrıntılı bir görünümünü açmak için Değerlendirme adı sütunundaki herhangi bir değerlendirmenin zaman damgasına tıklayın.

    Tek bir değerlendirme çalıştırmasının sonuçlarını gösteren ekran. Tüm sorular solda listelenir. Varsa, sağ tarafta model çıkışı ve temel gerçeklik çıkışı ile tek tek sorular gösterilir.

  3. Her sorunun ayrıntılı bir görünümünü görmek için ekranın sol tarafındaki soru listesini kullanın.

  4. Model çıkış yanıtını Temel gerçeklik yanıtıyla gözden geçirin ve karşılaştırın.

    Yanlış olarak derecelendirilmiş sonuçlar için, sonucun neden Hatalı olarak derecelendirildiğiyle ilgili bir açıklama görüntülenir. Bu, oluşturulan çıkış ile beklenen temel gerçek arasındaki belirli farkları anlamanıza yardımcı olur.

    Note

    Bu yanıtların sonuçları bir hafta boyunca değerlendirme ayrıntılarında görünür. Bir hafta sonra sonuçlar artık görünmez. Oluşturulan SQL deyimi ve örnek SQL deyimi kalır.

  5. Yanıtı bu sorunun yeni Temel gerçeği olarak kaydetmek için Temel gerçeğigüncelleştir'e tıklayın. Bu, hiçbir temel gerçek yoksa veya yanıt mevcut yer gerçeği deyiminden daha iyi veya daha doğruysa yararlıdır.

  6. Değerlendirmeyi Düzenle simgesi düzenlemek için etikete tıklayın.

    Bu değerlendirme için doğru bir puan almak için her sonucu İyi veya Kötü olarak işaretleyin.