डेटा बनाने का विचार शून्य-माध्य है


12

मैं अक्सर सभी तत्वों से माध्य को हटाकर लोगों को एक डेटासेट के आयाम / सुविधा को शून्य-माध्य बनाते देखता हूं। लेकिन मैंने कभी नहीं समझा कि ऐसा क्यों करना है? प्रीप्रोसेसिंग कदम के रूप में ऐसा करने का क्या प्रभाव है? क्या यह वर्गीकरण प्रदर्शन में सुधार करता है? क्या यह डेटासेट के बारे में कुछ उत्तर देने में मदद करता है? क्या यह डेटा को समझने के लिए एक विज़ुअलाइज़ेशन करते समय मदद करता है?


9
इस दृष्टिकोण को सेंटिंग कहा जाता है । इसके अनुप्रयोगों में से एक है प्रतिगमन मॉडल के अवरोधन को "पूर्वानुमानित y जब x औसतन होता है," अवरोधन को थोड़ा अधिक व्याख्यायित करना है।
पेंग्विन_काटन

एक केंद्रित सुविधा / डेटासेट को अच्छी तरह से वातानुकूलित भी कहा जा सकता है । दृश्य अन्वेषण के लिए यहां देखें । इनपुट को सामान्य करने का कार्य ग्रेडिएंट डिसेंट को बहुत आसान बनाता है।
देखते

जवाबों:


12

कुछ मामले जहां "अपने मतलब पर डेटा केंद्रित करना" (इसके बाद सिर्फ "डी-अर्थ") उपयोगी है:

एन(10,4)एन(100,4)

2) उच्च क्षणों की गणना को सरल बनाएं: हालांकि एक यादृच्छिक चर के लिए एक निरंतर जोड़ने से इसका विचरण, या किसी अन्य यादृच्छिक चर के साथ इसका सह-परिवर्तन नहीं होता है, फिर भी, यदि आपके पास एक शून्य-शून्य का मतलब है, और आपको विस्तृत गणना लिखनी होगी, आप है सभी शब्द लिखने के लिए और पता चलता है कि वे बाहर रद्द कर दें। यदि चर अ-माध्य हैं, तो आप बहुत सी बेकार गणनाओं को सहेजते हैं।

3) उनके माध्य पर केंद्रित रैंडम वैरिएबल सेंट्रल लिमिट प्रमेय का विषय है

4) "औसत मूल्य" से विचलन कई मामलों में ब्याज का मुद्दा है, और क्या वे यादृच्छिक चर के वास्तविक मूल्यों के बजाय "औसत से ऊपर या नीचे" होते हैं। "अनुवाद करना" (नेत्रहीन और / या कम्प्यूटेशनल रूप से) नकारात्मक मूल्यों के रूप में मतलब से नीचे विचलन और सकारात्मक मूल्यों के रूप में मतलब से ऊपर विचलन, संदेश को स्पष्ट और मजबूत बनाता है।

अधिक गहन चर्चा के लिए, यह भी देखें

कई प्रतिगमन का संचालन करते समय, आपको अपने भविष्यवक्ता चर को कब केंद्रित करना चाहिए और कब उन्हें मानकीकृत करना चाहिए?

एकाधिक प्रतिगमन में डेटा को केंद्रित करना

यदि आप CV पर "केंद्रित डेटा" खोजते हैं, तो आपको अन्य दिलचस्प पोस्ट भी मिलेंगे।


@OP: मुझे लगता है कि इस जवाब को स्वीकार किया जाना चाहिए।
rottweiler

4

इसके अलावा, व्यावहारिक कारणों से, यह तंत्रिका नेटवर्क को प्रशिक्षित करते समय, उदाहरण के लिए, डेटा को केंद्र में लाने के लिए फायदेमंद है।

विचार यह है कि एक तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए कुछ ढाल आधारित दृष्टिकोण का उपयोग करके गैर-उत्तल अनुकूलन समस्या को हल करना होगा। ग्रेडिएंट्स की गणना बैकप्रोपेगेशन के माध्यम से की जाती है। अब, ये ग्रेडिएंट इनपुट्स पर निर्भर करते हैं, और डेटा को केंद्र में रखते हुए ग्रेडिएंट्स में संभावित पूर्वाग्रह को हटाते हैं।

इसके विपरीत, एक गैर-शून्य का मतलब बड़े स्वदेशी में परिलक्षित होता है, जिसका अर्थ है कि ग्रेडिएंट दूसरों की तुलना में एक दिशा में बड़ा होता है (पूर्वाग्रह) इस प्रकार अभिसरण प्रक्रिया को धीमा कर देता है, अंततः बदतर समाधान की ओर जाता है।


1

एलेकोस ने जो कहा, उसे जोड़ने के लिए, जो कि बायसियन आँकड़ों या नियमितीकरण का उपयोग करते समय शून्य पर अपने डेटा को केंद्रित करना बेहद महत्वपूर्ण है, क्योंकि अन्यथा डेटा को इंटरसेप्ट के साथ सहसंबद्ध किया जा सकता है, जो नियमितीकरण को वह नहीं करता है जो आप आमतौर पर चाहते हैं।

डेटा को शून्य बनाने का मतलब सहसंयोजक मैट्रिक्स के कई ऑफ-विकर्ण शब्दों को कम कर सकता है, इसलिए यह डेटा को अधिक आसानी से व्याख्या करने योग्य बनाता है, और गुणांक अधिक सीधे अर्थपूर्ण है, क्योंकि प्रत्येक गुणांक मुख्य रूप से उस कारक पर लागू होता है, और सहसंबंध के साथ कम कार्य करता है। अन्य कारक।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.