मैं डेटा स्केलिंग, और विशेष रूप से मानकीकरण विधि का अध्ययन कर रहा हूं। मैंने इसके पीछे के गणित को समझा है, लेकिन यह मेरे लिए स्पष्ट नहीं है कि सुविधाओं को शून्य माध्य और इकाई भिन्नता देना क्यों महत्वपूर्ण है।
क्या तुम मुझे समझा सकते हो ?
मैं डेटा स्केलिंग, और विशेष रूप से मानकीकरण विधि का अध्ययन कर रहा हूं। मैंने इसके पीछे के गणित को समझा है, लेकिन यह मेरे लिए स्पष्ट नहीं है कि सुविधाओं को शून्य माध्य और इकाई भिन्नता देना क्यों महत्वपूर्ण है।
क्या तुम मुझे समझा सकते हो ?
जवाबों:
यह महत्वपूर्ण है कि नहीं और क्यों के प्रश्न, संदर्भ पर निर्भर करते हैं।
उदाहरण के लिए, क्रमिक रूप से बूस्ट किए गए निर्णय पेड़ों के लिए, यह महत्वपूर्ण नहीं है - ये एमएल एल्गोरिदम डेटा के लिए मोनोटोन परिवर्तनों के बारे में "परवाह नहीं" करते हैं; वे सिर्फ इसे विभाजित करने के लिए बिंदुओं की तलाश करते हैं।
रैखिक भविष्यवक्ताओं के लिए, उदाहरण के लिए, स्केलिंग परिणामों की व्याख्या में सुधार कर सकता है। यदि आप गुणांक की भयावहता के बारे में सोचना चाहते हैं कि कोई संकेत कितना परिणाम को प्रभावित कर रहा है, तो सुविधाओं को किसी भी तरह उसी क्षेत्र में बढ़ाया जाना चाहिए।
कुछ भविष्यवाणियों के लिए, विशेष रूप से एनएन, स्केलिंग, और विशेष रूप से एक विशेष सीमा तक स्केलिंग, तकनीकी कारणों से महत्वपूर्ण हो सकता है। कुछ परतें फ़ंक्शन का उपयोग करती हैं जो केवल कुछ क्षेत्र के भीतर प्रभावी रूप से बदलती हैं ( फ़ंक्शन के हाइपरबोलिक-परिवार के समान ), और यदि सुविधाएँ बहुत अधिक सीमा से बाहर हैं, तो संतृप्ति हो सकती है। यदि ऐसा होता है, तो संख्यात्मक व्युत्पन्न बुरी तरह से काम करेगा, और एल्गोरिथ्म एक अच्छे बिंदु पर अभिसरण करने में सक्षम नहीं हो सकता है।
शून्य माध्य के मामले में, ऐसा इसलिए है क्योंकि कुछ मशीन लर्निंग मॉडल में उनके प्रतिनिधित्व में पूर्वाग्रह शब्द शामिल नहीं है, इसलिए हमें पूर्वाग्रह की कमी के लिए एल्गोरिथम को फीड करने से पहले डेटा को उत्पत्ति के चारों ओर ले जाना होगा। इकाई भिन्नता के मामले में, ऐसा इसलिए है क्योंकि बहुत सारे मशीन लर्निंग एल्गोरिदम निर्णय या भविष्यवाणी करने के लिए किसी प्रकार की दूरी (जैसे यूक्लिडियन) का उपयोग करते हैं। यदि किसी विशेष सुविधा में व्यापक मान (यानी बड़े संस्करण) हैं, तो दूरी उस सुविधा से अत्यधिक प्रभावित होगी और अन्य विशेषताओं के प्रभाव को अनदेखा किया जाएगा। वैसे, डेटा के मानकीकृत होने पर कुछ अनुकूलन एल्गोरिदम (ग्रेडिएंट डिसेंट सहित) का प्रदर्शन बेहतर होता है।
इसलिए, यह आसानी से प्रशिक्षित करने के लिए सभी सुविधाओं को एक ही पैमाने पर छोटा करने के लिए सुझाव दिया गया है। नीचे लिंक भी इसी तरह की अवधारणा पर चर्चा करता है। /stats/41704/how-and-why-do-normalization-and-feature-scaling-work