मॉड्यूल मूल्यांकन - Training

1.

जब आपके एम्बेडिंग को इकाई लंबाई में सामान्यीकृत किया जाता है और आप शब्दार्थ समानता को मापना चाहते हैं तो आपको किस पीजीवेक्टर दूरी ऑपरेटर का उपयोग करना चाहिए?

<=> (कोसाइन दूरी)

<-> (L2 दूरी)

<#> (नकारात्मक आंतरिक उत्पाद)

2.

आप एक आरएजी पाइपलाइन का निर्माण कर रहे हैं जिसे 5 मिलियन एम्बेडिंग के संग्रह से प्रासंगिक दस्तावेज़ विखंडू को जल्दी से पुनर्प्राप्त करने की आवश्यकता है। संग्रह को कभी-कभी बैच अपडेट प्राप्त होते हैं लेकिन कोई वास्तविक समय आवेषण नहीं होता है। आपको कौन सा सूचकांक प्रकार चुनना चाहिए?

आईवीएफउचित संख्या में सूचियों के साथ

उच्च ef_construction मूल्य के साथ HNSW

कोई सूचकांक नहीं, सटीक अनुक्रमिक स्कैन पर निर्भर करता है

3.

HNSW इंडेक्स बनाते समय, पैरामीटर क्या नियंत्रित करता है m ?

ग्राफ़ में प्रति नोड कनेक्शन की अधिकतम संख्या

सूचकांक निर्माण के दौरान विचार किए गए उम्मीदवार पड़ोसियों की संख्या

वैक्टर को विभाजित करने के लिए सूचियों की संख्या

4.

आपको एक नए एम्बेडिंग मॉडल पर स्विच करने के बाद 50,000 उत्पाद विवरण के लिए एम्बेडिंग को अद्यतन करने की आवश्यकता है। कौन सा दृष्टिकोण समवर्ती खोजों पर प्रभाव को कम करता है?

प्रत्येक 1,000-5,000 पंक्तियों के लेनदेन में अपडेट को बैच करें

एक ही हस्तांतरण में सभी 50,000 पंक्तियों को अद्यतन करें

अपडेट करने से पहले मौजूदा वेक्टर इंडेक्स को ड्रॉप करें

5.

पूर्ण-पाठ खोज के साथ वेक्टर समानता को संयोजित करने वाली हाइब्रिड खोज में, कौन सी तकनीक दोनों खोज विधियों से प्रासंगिकता स्कोर को संतुलित करने में मदद करती है?

रैंकिंग को संयोजित करने के लिए पारस्परिक रैंक फ़्यूज़न (RRF) का उपयोग करना

वेक्टर दूरी को पाठ प्रासंगिकता स्कोर से गुणा करना

हमेशा वेक्टर खोज परिणाम पहले लौटाना

मॉड्यूल का आकलन

प्रतिक्रिया