ज़ीरो मीन और यूनिट वेरियस


10

मैं डेटा स्केलिंग, और विशेष रूप से मानकीकरण विधि का अध्ययन कर रहा हूं। मैंने इसके पीछे के गणित को समझा है, लेकिन यह मेरे लिए स्पष्ट नहीं है कि सुविधाओं को शून्य माध्य और इकाई भिन्नता देना क्यों महत्वपूर्ण है।

क्या तुम मुझे समझा सकते हो ?


यहां देखिए ।
मीडिया

यह बहुत अच्छा होगा: medium.com/greyatom/…
लर्नर झांग

जवाबों:


8

यह महत्वपूर्ण है कि नहीं और क्यों के प्रश्न, संदर्भ पर निर्भर करते हैं।

  • उदाहरण के लिए, क्रमिक रूप से बूस्ट किए गए निर्णय पेड़ों के लिए, यह महत्वपूर्ण नहीं है - ये एमएल एल्गोरिदम डेटा के लिए मोनोटोन परिवर्तनों के बारे में "परवाह नहीं" करते हैं; वे सिर्फ इसे विभाजित करने के लिए बिंदुओं की तलाश करते हैं।

  • रैखिक भविष्यवक्ताओं के लिए, उदाहरण के लिए, स्केलिंग परिणामों की व्याख्या में सुधार कर सकता है। यदि आप गुणांक की भयावहता के बारे में सोचना चाहते हैं कि कोई संकेत कितना परिणाम को प्रभावित कर रहा है, तो सुविधाओं को किसी भी तरह उसी क्षेत्र में बढ़ाया जाना चाहिए।

  • कुछ भविष्यवाणियों के लिए, विशेष रूप से एनएन, स्केलिंग, और विशेष रूप से एक विशेष सीमा तक स्केलिंग, तकनीकी कारणों से महत्वपूर्ण हो सकता है। कुछ परतें फ़ंक्शन का उपयोग करती हैं जो केवल कुछ क्षेत्र के भीतर प्रभावी रूप से बदलती हैं ( फ़ंक्शन के हाइपरबोलिक-परिवार के समान ), और यदि सुविधाएँ बहुत अधिक सीमा से बाहर हैं, तो संतृप्ति हो सकती है। यदि ऐसा होता है, तो संख्यात्मक व्युत्पन्न बुरी तरह से काम करेगा, और एल्गोरिथ्म एक अच्छे बिंदु पर अभिसरण करने में सक्षम नहीं हो सकता है।

यहाँ छवि विवरण दर्ज करें


2

शून्य माध्य के मामले में, ऐसा इसलिए है क्योंकि कुछ मशीन लर्निंग मॉडल में उनके प्रतिनिधित्व में पूर्वाग्रह शब्द शामिल नहीं है, इसलिए हमें पूर्वाग्रह की कमी के लिए एल्गोरिथम को फीड करने से पहले डेटा को उत्पत्ति के चारों ओर ले जाना होगा। इकाई भिन्नता के मामले में, ऐसा इसलिए है क्योंकि बहुत सारे मशीन लर्निंग एल्गोरिदम निर्णय या भविष्यवाणी करने के लिए किसी प्रकार की दूरी (जैसे यूक्लिडियन) का उपयोग करते हैं। यदि किसी विशेष सुविधा में व्यापक मान (यानी बड़े संस्करण) हैं, तो दूरी उस सुविधा से अत्यधिक प्रभावित होगी और अन्य विशेषताओं के प्रभाव को अनदेखा किया जाएगा। वैसे, डेटा के मानकीकृत होने पर कुछ अनुकूलन एल्गोरिदम (ग्रेडिएंट डिसेंट सहित) का प्रदर्शन बेहतर होता है।


2
  • जब भी हम मशीन लर्निंग में किसी भी डेटासेट के साथ शुरू करते हैं, हम अक्सर यह मान लेते हैं कि आउटपुट के संबंध में सभी डेटा सुविधाएँ समान रूप से महत्वपूर्ण हैं और एक फीचर को अन्य फीचर पर हावी नहीं होना चाहिए। यही कारण है कि हम सभी सुविधाओं को समान पैमाने पर लाने के लिए चुनते हैं।
    हालाँकि, एक व्यक्ति यहाँ संदेह उठा सकता है कि यदि सुविधाएँ सामान्य नहीं की गई हैं, तब भी सीखने के दौरान इसे सौंपे गए भारों को प्रशिक्षण के दौरान अपेक्षित परिणाम में परिवर्तित डेटा सेट में मदद मिल सकती है। इसके साथ समस्या यह है कि इसके परिणाम और प्रशिक्षण के लिए वास्तव में लंबा समय लगेगा।
  • माध्य और विचरण के रूप में विशिष्ट संख्या 0 को चुनने के लिए 1 की कल्पना करना आसान है और इस तरह की छोटी संख्याओं को रखने से तेज प्रशिक्षण में मदद मिलेगी।

इसलिए, यह आसानी से प्रशिक्षित करने के लिए सभी सुविधाओं को एक ही पैमाने पर छोटा करने के लिए सुझाव दिया गया है। नीचे लिंक भी इसी तरह की अवधारणा पर चर्चा करता है। /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.