हाइपरपैरामीटर के साथ मॉडल में सुधार करें
छोटे डेटासेट वाले सरल मॉडल अक्सर एक ही चरण में फिट हो सकते हैं, जबकि बड़े डेटासेट और अधिक जटिल मॉडल को प्रशिक्षण डेटा के साथ मॉडल का बार-बार उपयोग करके और अपेक्षित लेबल के साथ आउटपुट की तुलना करके फिट होना चाहिए। यदि भविष्यवाणी पर्याप्त सटीक है, तो हम मॉडल को प्रशिक्षित मानते हैं। यदि नहीं, तो हम मॉडल को थोड़ा समायोजित करते हैं और फिर से लूप करते हैं।
हाइपरपैरामीटर ऐसे मान हैं जो इन छोरों के दौरान मॉडल के फिट होने के तरीके को बदलते हैं। सीखने की दर, उदाहरण के लिए, एक हाइपरपैरामीटर है जो यह निर्धारित करता है कि प्रत्येक प्रशिक्षण चक्र के दौरान एक मॉडल कितना समायोजित किया जाता है। एक उच्च सीखने की दर का मतलब है कि एक मॉडल को तेजी से प्रशिक्षित किया जा सकता है; लेकिन अगर यह बहुत अधिक है, तो समायोजन इतना बड़ा हो सकता है कि मॉडल कभी भी "बारीक ट्यून" नहीं होता है और इष्टतम नहीं होता है।
डेटा को प्रीप्रोसेसिंग करना
प्रीप्रोसेसिंग उन परिवर्तनों को संदर्भित करता है जो आप अपने डेटा को मॉडल में पारित करने से पहले करते हैं। हमने पहले पढ़ा है कि प्रीप्रोसेसिंग में आपके डेटासेट की सफाई शामिल हो सकती है। हालांकि यह महत्वपूर्ण है, प्रीप्रोसेसिंग में आपके डेटा के प्रारूप को बदलना भी शामिल हो सकता है ताकि मॉडल के लिए इसका उपयोग करना आसान हो। उदाहरण के लिए, "लाल," "नारंगी," "पीला," "चूना," और "हरा" के रूप में वर्णित डेटा बेहतर काम कर सकता है यदि कंप्यूटर के अधिक मूल स्वरूप में परिवर्तित किया जाता है, जैसे कि लाल की मात्रा और हरे रंग की मात्रा बताने वाली संख्याएं।
स्केलिंग सुविधाएँ
सबसे आम प्रीप्रोसेसिंग कदम सुविधाओं को स्केल करना है ताकि वे शून्य और एक के बीच आ जाएं। उदाहरण के लिए, बाइक का वजन और बाइक पर एक व्यक्ति द्वारा तय की जाने वाली दूरी दो अलग-अलग संख्याएं हो सकती हैं, लेकिन दोनों संख्याओं को शून्य और एक के बीच स्केल करके मॉडल को डेटा से अधिक प्रभावी ढंग से सीखने की अनुमति मिलती है।
सुविधाओं के रूप में श्रेणियों का उपयोग करना
मशीन लर्निंग में, आप "साइकिल," "स्केटबोर्ड," या "कार" जैसी श्रेणीबद्ध सुविधाओं का भी उपयोग कर सकते हैं। इन विशेषताओं को एक-गर्म वैक्टर में 0 या 1 मानोंप्रतिनिधित्व किया जाता है; वैक्टर जिनके पास प्रत्येक संभावित मान के लिए 0 या 1 है। उदाहरण के लिए, साइकिल, स्केटबोर्ड और कार क्रमशः (1,0,0), (0,1,0), और (0,0,1) हो सकते हैं।