मशीन लर्निंग में एक सामान्य अच्छा अभ्यास भविष्यवक्ता चर की सामान्यीकरण या डेटा मानकीकरण करना है, यह है, मतलब को बदलने वाले डेटा को केंद्र में रखना और इसे विचरण (या मानक विचलन) द्वारा विभाजित करना सामान्य करना। स्व-नियंत्रण और मेरी समझ के लिए हम दो मुख्य चीजों को प्राप्त करने के लिए ऐसा करते हैं:
- संख्यात्मक स्थिरता के उद्देश्य के लिए अतिरिक्त छोटे मॉडल भार से बचें।
- अनुकूलन एल्गोरिदम जैसे त्वरित संयुग्मन को त्वरित रूप से सुनिश्चित करें ताकि एक भविष्यवक्ता आयाम के बड़े परिमाण दूसरों को धीमा सम्मिलन का नेतृत्व न करें।
हम आमतौर पर डेटा को प्रशिक्षण, सत्यापन और परीक्षण सेट में विभाजित करते हैं। साहित्य में हम आम तौर पर देखते हैं कि सुविधा सामान्यीकरण करने के लिए वे पूर्वसूचक चर के पूरे सेट पर माध्य और विचरण (या मानक विचलन) लेते हैं। यहाँ जो बड़ा दोष मुझे दिखाई देता है, वह यह है कि यदि आप ऐसा करते हैं, तो आप वास्तव में भविष्य की जानकारी को प्रशिक्षण के पूर्वसूचक चरों के रूप में प्रस्तुत करने वाले होते हैं, अर्थात् भविष्य की जानकारी, जो माध्य और विचरण में निहित होती है।
इसलिए, मैं प्रशिक्षण डेटा पर सामान्यीकरण करता हूं और माध्य और विचरण को बचाता हूं। फिर मैं प्रशिक्षण माध्य और भिन्नताओं का उपयोग करके सत्यापन और परीक्षण डेटा सेटों के भविष्यवाणियों के फीचर सामान्यीकरण को लागू करता हूं। क्या इसके साथ कोई मूलभूत दोष हैं? क्या कोई बेहतर विकल्प सुझा सकता है?