सामान्यीकरण बनाम स्केलिंग


45

डेटा 'सामान्यीकरण' और डेटा 'स्केलिंग' के बीच अंतर क्या है? अब तक मुझे लगा था कि दोनों शब्द एक ही प्रक्रिया को संदर्भित करते हैं, लेकिन अब मुझे एहसास हुआ कि कुछ और है जो मुझे नहीं पता / समझ नहीं है। इसके अलावा अगर सामान्यीकरण और स्केलिंग के बीच अंतर है, तो हमें कब सामान्यीकरण का उपयोग करना चाहिए, लेकिन स्केलिंग और इसके विपरीत नहीं?

कृपया कुछ उदाहरण के साथ विस्तृत करें।


6
सामान्य रूप से सामान्य रूप से अपने अवलोकनों को f ( x ) (जहाँ f एक औसत दर्जे का, आमतौर पर निरंतर, कार्य) में बदलना है , जैसे कि वे सामान्य रूप से वितरित दिखते हैं । डेटा को सामान्य करने के लिए परिवर्तनों के कुछ उदाहरण बिजली के रूपांतरण हैंस्केलिंग बस का अर्थ है ( एक्स ) = सी एक्स , सी आर , इस एक निरंतर द्वारा अपनी टिप्पणियों गुणा है जो (नैनोमीटर से किलोमीटर की दूरी के लिए उदाहरण के लिए) पैमाने बदल जाता है। xf(x)ff(x)=cxcRc


सामान्यीकरण भी एक स्केलिंग विधि है, मानकीकरण के समान

मेरे पास जवाब देने के लिए आंकड़ों पर पर्याप्त प्रतिष्ठा नहीं है। मुझे लगता है कि आपके प्रश्न का शीर्षक सामान्यीकरण बनाम मानकीकरण होना चाहिए, क्योंकि ये दोनों पुनर्विक्रेता के विभिन्न दृष्टिकोण हैं। सामान्यीकरण मानों को 0 और 1 की श्रेणी में बदल रहा है, जबकि मानकीकरण वितरण को 0 और माध्य के रूप में 1 के मानक के रूप में स्थानांतरित कर रहा है।
हामिद हेयर्डियन

जवाबों:


23

मुझे "आधिकारिक" परिभाषा के बारे में पता नहीं है और यहां तक ​​कि अगर यह है, तो भी आपको इस पर भरोसा नहीं करना चाहिए क्योंकि आप देखेंगे कि इसका उपयोग असंगत रूप से किया जा रहा है।

यह कहा जा रहा है, आमतौर पर आंकड़ों में स्केलिंग का अर्थ है फॉर्म रैखिक परिवर्तन ।f(x)=ax+b

नॉर्मलाइज़िंग का मतलब या तो ट्रांसफ़ॉर्मेशन लागू करना हो सकता है ताकि आपने ट्रांसफ़ॉर्म किए गए डेटा को लगभग सामान्य रूप से वितरित किया जा सके, लेकिन इसका मतलब यह भी हो सकता है कि एक सामान्य पैमाने पर विभिन्न वेरिएबल्स को रखा जाए। मानकीकरण, जिसका अर्थ है घटाना और मानक विचलन द्वारा विभाजित करना, बाद के उपयोग का एक उदाहरण है। जैसा कि आप देख सकते हैं कि यह स्केलिंग का भी उदाहरण है। पहले के लिए एक उदाहरण lognormal वितरित डेटा के लिए लॉग ले जाएगा।

लेकिन आपको जो लेना चाहिए वह यह है कि जब आप इसे पढ़ते हैं तो आपको लेखक के बारे में अधिक सटीक विवरण की तलाश करनी चाहिए। कभी-कभी आप इसे संदर्भ से प्राप्त कर सकते हैं।


14

स्केलिंग एक व्यक्तिगत पसंद है जो संख्याओं को सही महसूस करती है, जैसे शून्य और एक, या एक और सौ के बीच। उदाहरण के लिए मिलीमीटर में दिए गए डेटा को मीटर में परिवर्तित करना क्योंकि यह मीट्रिक के लिए अधिक सुविधाजनक, या शाही है।

जबकि सामान्यीकरण एक बाहरी 'मानक' को स्केल करने के बारे में है - स्थानीय मानदंड - जैसे कि माध्य मान को निकालना और नमूना मानक विचलन द्वारा विभाजित करना, जैसे कि आपके सॉर्ट किए गए डेटा की तुलना एक संचयी सामान्य, या एक संचयी विसेन, या के साथ की जा सकती है जो कुछ।

इसलिए यदि एक व्याख्याता या प्रबंधक डेटा 'सामान्यीकृत' चाहता है, तो इसका अर्थ है "इसे अपने तरीके से फिर से स्केल करें ";;


9

मैं नहीं जानता कि क्या आप वास्तव में इसका मतलब है, लेकिन मैं बहुत से लोग देख रहा हूँ जो सामान्यीकरण का अर्थ है डेटा मानकीकरण। मानकीकरण आपके डेटा को बदल रहा है, इसलिए इसका मतलब 0 और मानक विचलन 1 है:

x <- (x - mean(x)) / sd(x)

मैं डेटा स्केलिंग के लिए सामान्यीकरण शब्द का उपयोग करते हुए लोगों को भी देखता हूं, जैसा कि आपके डेटा को 0-1 रेंज में बदलने के लिए:

x <- (x - min(x)) / (max(x) - min(x))

यह भ्रामक हो सकता है!

दोनों तकनीकों में उनके पेशेवरों और विपक्ष हैं। जब कई बाहरी लोगों के साथ एक डेटासेट स्केलिंग करते हैं, तो आपका गैर-बाह्य डेटा बहुत कम अंतराल में समाप्त हो सकता है। इसलिए यदि आपके डेटासेट में बहुत अधिक आउटलेयर हैं, तो आप इसे मानकीकृत करने पर विचार कर सकते हैं। बहरहाल, जब आप ऐसा करते हैं कि आप नकारात्मक डेटा (कभी-कभी आप ऐसा नहीं चाहते) और अनबाउंड डेटा (आप या तो नहीं चाहते हो सकता है) के साथ समाप्त हो जाएंगे।


3

केंद्रीकरण का अर्थ चर से यादृच्छिक चर के साधन को प्रतिस्थापित करना है। यानी x -xi

स्केलिंग का अर्थ है अपने मानक विचलन द्वारा चर को विभाजित करना। यानी xi / s

दो के संयोजन को सामान्यीकरण या ठहराव कहा जाता है। यानी x-xi / s


प्रश्न एक डुप्लिकेट है।
बजे माइकल चेर्निक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.