ज़ीरो मीन और यूनिट वेरियस

10

मैं डेटा स्केलिंग, और विशेष रूप से मानकीकरण विधि का अध्ययन कर रहा हूं। मैंने इसके पीछे के गणित को समझा है, लेकिन यह मेरे लिए स्पष्ट नहीं है कि सुविधाओं को शून्य माध्य और इकाई भिन्नता देना क्यों महत्वपूर्ण है।

क्या तुम मुझे समझा सकते हो ?

machine-learning feature-scaling normalization

— Qwerto
स्रोत

यहां देखिए ।

— मीडिया

यह बहुत अच्छा होगा: medium.com/greyatom/…

— लर्नर झांग

8

यह महत्वपूर्ण है कि नहीं और क्यों के प्रश्न, संदर्भ पर निर्भर करते हैं।

उदाहरण के लिए, क्रमिक रूप से बूस्ट किए गए निर्णय पेड़ों के लिए, यह महत्वपूर्ण नहीं है - ये एमएल एल्गोरिदम डेटा के लिए मोनोटोन परिवर्तनों के बारे में "परवाह नहीं" करते हैं; वे सिर्फ इसे विभाजित करने के लिए बिंदुओं की तलाश करते हैं।
रैखिक भविष्यवक्ताओं के लिए, उदाहरण के लिए, स्केलिंग परिणामों की व्याख्या में सुधार कर सकता है। यदि आप गुणांक की भयावहता के बारे में सोचना चाहते हैं कि कोई संकेत कितना परिणाम को प्रभावित कर रहा है, तो सुविधाओं को किसी भी तरह उसी क्षेत्र में बढ़ाया जाना चाहिए।
कुछ भविष्यवाणियों के लिए, विशेष रूप से एनएन, स्केलिंग, और विशेष रूप से एक विशेष सीमा तक स्केलिंग, तकनीकी कारणों से महत्वपूर्ण हो सकता है। कुछ परतें फ़ंक्शन का उपयोग करती हैं जो केवल कुछ क्षेत्र के भीतर प्रभावी रूप से बदलती हैं ( फ़ंक्शन के हाइपरबोलिक-परिवार के समान ), और यदि सुविधाएँ बहुत अधिक सीमा से बाहर हैं, तो संतृप्ति हो सकती है। यदि ऐसा होता है, तो संख्यात्मक व्युत्पन्न बुरी तरह से काम करेगा, और एल्गोरिथ्म एक अच्छे बिंदु पर अभिसरण करने में सक्षम नहीं हो सकता है।

— अमी तेवरी
स्रोत

2

शून्य माध्य के मामले में, ऐसा इसलिए है क्योंकि कुछ मशीन लर्निंग मॉडल में उनके प्रतिनिधित्व में पूर्वाग्रह शब्द शामिल नहीं है, इसलिए हमें पूर्वाग्रह की कमी के लिए एल्गोरिथम को फीड करने से पहले डेटा को उत्पत्ति के चारों ओर ले जाना होगा। इकाई भिन्नता के मामले में, ऐसा इसलिए है क्योंकि बहुत सारे मशीन लर्निंग एल्गोरिदम निर्णय या भविष्यवाणी करने के लिए किसी प्रकार की दूरी (जैसे यूक्लिडियन) का उपयोग करते हैं। यदि किसी विशेष सुविधा में व्यापक मान (यानी बड़े संस्करण) हैं, तो दूरी उस सुविधा से अत्यधिक प्रभावित होगी और अन्य विशेषताओं के प्रभाव को अनदेखा किया जाएगा। वैसे, डेटा के मानकीकृत होने पर कुछ अनुकूलन एल्गोरिदम (ग्रेडिएंट डिसेंट सहित) का प्रदर्शन बेहतर होता है।

— pythinker
स्रोत

2

जब भी हम मशीन लर्निंग में किसी भी डेटासेट के साथ शुरू करते हैं, हम अक्सर यह मान लेते हैं कि आउटपुट के संबंध में सभी डेटा सुविधाएँ समान रूप से महत्वपूर्ण हैं और एक फीचर को अन्य फीचर पर हावी नहीं होना चाहिए। यही कारण है कि हम सभी सुविधाओं को समान पैमाने पर लाने के लिए चुनते हैं।
हालाँकि, एक व्यक्ति यहाँ संदेह उठा सकता है कि यदि सुविधाएँ सामान्य नहीं की गई हैं, तब भी सीखने के दौरान इसे सौंपे गए भारों को प्रशिक्षण के दौरान अपेक्षित परिणाम में परिवर्तित डेटा सेट में मदद मिल सकती है। इसके साथ समस्या यह है कि इसके परिणाम और प्रशिक्षण के लिए वास्तव में लंबा समय लगेगा।
माध्य और विचरण के रूप में विशिष्ट संख्या 0 को चुनने के लिए 1 की कल्पना करना आसान है और इस तरह की छोटी संख्याओं को रखने से तेज प्रशिक्षण में मदद मिलेगी।

इसलिए, यह आसानी से प्रशिक्षित करने के लिए सभी सुविधाओं को एक ही पैमाने पर छोटा करने के लिए सुझाव दिया गया है। नीचे लिंक भी इसी तरह की अवधारणा पर चर्चा करता है। /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

— दिव्यांशु शेखर
स्रोत