सामान्यीकरण और मानकीकरण के बीच क्या अंतर है?


118

काम के दौरान हम इस पर चर्चा कर रहे थे क्योंकि मेरे बॉस ने सामान्यीकरण के बारे में कभी नहीं सुना। रैखिक बीजगणित में, सामान्यीकरण अपनी लंबाई से एक वेक्टर के विभाजन को संदर्भित करता है। और आँकड़ों में, मानकीकरण का तात्पर्य किसी माध्य के घटाव का उल्लेख करना होता है और फिर इसका SD द्वारा विभाजन। लेकिन वे अन्य संभावनाओं के साथ भी विनिमेय लगते हैं।

कुछ प्रकार के सार्वभौमिक स्कोर बनाते समय , जो अलग-अलग मेट्रिक्स बनाता है , जिनके अलग-अलग साधन होते हैं और अलग-अलग एसडी होते हैं, क्या आप सामान्यीकरण करेंगे, मानकीकृत करेंगे, या कुछ और करेंगे? एक व्यक्ति ने मुझे बताया कि यह प्रत्येक मीट्रिक को लेने और उन्हें अपने एसडी द्वारा अलग-अलग विभाजित करने की बात है। फिर दोनों को समेटें। और इसके परिणामस्वरूप एक सार्वभौमिक स्कोर होगा जिसका उपयोग दोनों मैट्रिक्स का न्याय करने के लिए किया जा सकता है।2

उदाहरण के लिए, मान लें कि आपके पास काम करने वाले लोगों की संख्या (एनवाईसी में) और उन लोगों की संख्या है जो काम करने के लिए निकले (एनवाईसी में)।

कार y

Trainx
Cary

यदि आप ट्रैफ़िक के उतार-चढ़ाव को जल्दी से रिपोर्ट करने के लिए एक सार्वभौमिक स्कोर बनाना चाहते हैं, तो आप सिर्फ और जोड़ नहीं सकते क्योंकि ट्रेन की सवारी करने वाले बहुत से लोग होंगे। NYC में 8 मिलियन लोग रहते हैं, साथ ही पर्यटक भी। यही कारण है कि लाखों लोग रोज़ाना कार में सवार होकर हज़ारों लोगों को कारों में बिठाते हैं। इसलिए उन्हें तुलना करने के लिए एक समान पैमाने पर बदलने की आवश्यकता है।माध्य ( y )mean(x)mean(y)

यदिmean(x)=8,000,000

औरmean(y)=800,000

क्या आप और सामान्य करेंगे ? क्या आप और योग करेंगे? या फिर आप प्रत्येक को उनके संबंधित एसडी द्वारा विभाजित करेंगे? संख्या में आने के लिए जब उतार-चढ़ाव होता है, कुल ट्रैफ़िक में उतार-चढ़ाव का प्रतिनिधित्व करता है।x xyxy

संदर्भ के लिए पुस्तकों के किसी भी लेख या अध्यायों को बहुत सराहा जाएगा। धन्यवाद!

इसके अलावा यहां एक और उदाहरण है कि मैं क्या करने की कोशिश कर रहा हूं।

कल्पना कीजिए कि आप एक कॉलेज डीन हैं, और आप प्रवेश आवश्यकताओं पर चर्चा कर रहे हैं। आप कम से कम एक निश्चित GPA और एक निश्चित परीक्षा स्कोर वाले छात्रों को चाहते हैं। यह अच्छा होगा यदि वे दोनों एक ही पैमाने पर थे क्योंकि तब आप दोनों को एक साथ जोड़ सकते थे और कह सकते थे, "कम से कम 7.0 वाला कोई भी व्यक्ति प्रवेश कर सकता है।" इस तरह, यदि एक संभावित छात्र के पास 4.0 GPA है, तो वे 3.0 परीक्षण स्कोर के रूप में कम प्राप्त कर सकते हैं और अभी भी भर्ती हो सकते हैं। इसके विपरीत, अगर किसी के पास 3.0 GPA था, तो वे अभी भी 4.0 टेस्ट स्कोर के साथ भर्ती हो सकते हैं।

लेकिन ऐसा नहीं है। अधिनियम 36 बिंदु के पैमाने पर है और अधिकांश जीपीए 4.0 पर हैं (कुछ 4.3 हैं, हां कष्टप्रद)। चूंकि मैं कुछ प्रकार के सार्वभौमिक स्कोर प्राप्त करने के लिए केवल एक अधिनियम और जीपीए नहीं जोड़ सकता, इसलिए मैं उन्हें कैसे बदल सकता हूं ताकि उन्हें जोड़ा जा सके, इस प्रकार एक सार्वभौमिक प्रवेश स्कोर बना। और फिर एक डीन के रूप में, मैं बस किसी निश्चित सीमा के ऊपर स्कोर के साथ किसी को भी स्वतः स्वीकार कर सकता था। या यहां तक ​​कि स्वचालित रूप से उन सभी को स्वीकार करते हैं जिनका स्कोर शीर्ष 95% के भीतर है .... उन प्रकार की चीजें।

क्या यह सामान्यीकरण होगा? मानकीकरण? या बस अपने एसडी द्वारा प्रत्येक तो विभाजित?


4
प्रश्न का अंतिम भाग ऐसा लगता है जैसे आप कई विशेषताओं में से एक वैल्यूएशन बनाने की कोशिश कर रहे हैं उस बारे में अधिक जानकारी के लिए, इस प्रश्न को देखें और आँकड़ो पर उत्तर दें ।stackexchange.com / q / 9137 और ysts.stackexchange.com/q/9358 । विशेष रूप से, ध्यान दें कि डीन की समस्या के लिए न तो सामान्यीकरण और न ही मानकीकरण की कोई प्रत्यक्ष प्रासंगिकता है।
whuber

जवाबों:


64

सामान्यीकरण मानों को [0,1] की सीमा में बचाता है। यह कुछ मामलों में उपयोगी हो सकता है जहां सभी मापदंडों को समान सकारात्मक पैमाने की आवश्यकता होती है। हालाँकि, डेटा सेट से आउटलेर खो जाते हैं।

Xchanged=XXminXmaxXmin

मानकीकरण 0 के एक माध्य ( ) और 1 (इकाई विचरण) के मानक विचलन ( ) के लिए डेटा को बचाता है ।σμσ

Xchanged=Xμσ

अधिकांश अनुप्रयोगों के लिए मानकीकरण की सिफारिश की जाती है।


7
क्या आप यह समझा सकते हैं कि डेटा के सामान्यीकरण पर "डेटा सेट से आउटलेयर क्यों खो जाते हैं"?
शिक्षार्थी

3
री-स्केलिंग के इस मामले में आउटलेरर्स परिणाम को प्रभावित करेंगे और खो नहीं जाएंगे।
फर्स

@ लर्नर की कल्पना करें यदि आपके पास [1 2 3 4 5 1000 2 2 5 5 2000 ...] है। 1000 डेटापॉइंट का सामान्यीकृत मान छोटा हो जाएगा क्योंकि हमारे पास 2000
COLD ICE

3
@ मुझे लगता है कि यह आपके द्वारा उपयोग किए जाने वाले सामान्यीकरण एल्गोरिथ्म पर निर्भर करता है। उदाहरण के लिए, यदि आपने अपने डेटासेट में अधिकतम मान (उदाहरण 2000) से प्रत्येक संख्या को विभाजित किया है, तो वे 0 से 1 के बीच होंगे, और यह आउटलेयर को प्रभावित नहीं करेगा।
एलिसन

3
मुझे लगता है कि यह बाहरी लोगों को बिल्कुल भी प्रभावित नहीं करता है, अन्यथा यह विसंगति का पता लगाने वाले सॉफ्टवेयर्स में नहीं किया जाएगा।
एलिसन

44

व्यवसाय की दुनिया में, "सामान्यीकरण" का आम तौर पर मतलब है कि मूल्यों की सीमा "0.0 से 1.0 तक सामान्यीकृत" है। "मानकीकरण" का आम तौर पर अर्थ है कि मूल्यों की श्रेणी "मानकीकृत" है यह मापने के लिए कि इसके मानक से कितने मानक विचलन हैं। हालांकि, हर कोई इससे सहमत नहीं होगा। अपनी परिभाषाओं का उपयोग करने से पहले उन्हें समझाना सबसे अच्छा है ।

किसी भी मामले में, आपके परिवर्तन को कुछ उपयोगी प्रदान करने की आवश्यकता है।

अपनी ट्रेन / कार के उदाहरण में, क्या आप यह जानने में से कुछ हासिल करते हैं कि उनके मतलब से कितने मानक विचलन हैं, प्रत्येक मूल्य झूठ है? यदि आप एक दूसरे के खिलाफ उन "मानकीकृत" उपायों को एक साजिश के रूप में प्लॉट करते हैं, तो आप एक सहसंबंध देख सकते हैं (दाईं ओर पहला ग्राफ़ देखें):

http://en.wikipedia.org/wiki/Correlation_and_dependence

यदि हां, तो क्या इसका मतलब आपके लिए कुछ भी है?

जहाँ तक आपका दूसरा उदाहरण है, यदि आप एक पैमाने से दूसरे पैमाने पर एक GPA को "बराबर" करना चाहते हैं, तो इन पैमानों में क्या समानता है? दूसरे शब्दों में, आप उन न्यूनतम को समतुल्य होने के लिए कैसे बदल सकते हैं, और अधिकतम को समतुल्य होने के लिए?

यहाँ "सामान्यीकरण" का एक उदाहरण दिया गया है:

सामान्यीकरण लिंक

एक बार जब आप अपने जीपीए और एसीटी स्कोर को एक विनिमेय रूप में प्राप्त करते हैं, तो क्या यह एक्ट और जीपीए स्कोर को अलग-अलग तौलने का मतलब है? यदि हां, तो आपके लिए वजन का क्या मतलब है?

1 संपादित करें (05/03/2011) ========================================== =

सबसे पहले, मैं ऊपर दिए गए व्हीलर द्वारा सुझाए गए लिंक की जांच करूंगा । लब्बोलुआब यह है कि आपकी दो-चर समस्याओं में, आपको एक बनाम एक चर के "तुल्यता" के साथ आना होगा। और, एक चर को दूसरे से अलग करने का तरीका। दूसरे शब्दों में, भले ही आप इसे एक सरल रैखिक संबंध के लिए सरल कर सकते हैं, आपको दूसरे से एक चर को अलग करने के लिए "भार" की आवश्यकता होगी।

यहाँ एक दो चर समस्या का उदाहरण दिया गया है:

बहु गुण उपयोगिताएँ

अंतिम पृष्ठ से, यदि आप कह सकते हैं कि मानकीकृत ट्रेन यातायात U1(x)बनाम मानकीकृत कार यातायात U2(y)"additively स्वतंत्र" है, तो आप इस तरह के एक साधारण समीकरण के साथ दूर होने में सक्षम हो सकते हैं:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

जहाँ k1 = 0.5 का अर्थ है कि आप मानकीकृत कार / ट्रेन यातायात के प्रति उदासीन हैं। एक उच्च k1 का मतलब होगा कि ट्रेन यातायात U1(x)अधिक महत्वपूर्ण है।

हालांकि, अगर ये दो चर "additively स्वतंत्र" नहीं हैं, तो आपको अधिक जटिल समीकरण का उपयोग करना होगा। एक संभावना पृष्ठ 1 पर दिखाई गई है:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

या तो मामले में, आपको एक उपयोगिता के साथ आना होगा U(x, y)जो समझ में आता है।

आपकी जीपीए / एसीटी समस्या के लिए समान सामान्य भार / तुलना अवधारणाएं हैं। भले ही वे "मानकीकृत" के बजाय "सामान्यीकृत" हों।

एक आखिरी मुद्दा। मुझे पता है कि आप इसे पसंद नहीं करने वाले हैं, लेकिन "अतिरिक्त रूप से स्वतंत्र" शब्द की परिभाषा निम्नलिखित लिंक के पेज 4 पर है। मैं एक कम geeky परिभाषा की तलाश में था, लेकिन मुझे एक नहीं मिला। आप कुछ बेहतर खोजने के लिए चारों ओर देख सकते हैं।

Additively स्वतंत्र

लिंक का हवाला देते हुए:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

जैसा कि इस प्रतिक्रिया के शीर्ष पर सुझाव दिया गया है, यदि आप एक एक्स प्लॉट पर मानकीकृत ट्रेन ट्रैफ़िक बनाम मानकीकृत कार ट्रैफ़िक प्लॉट करते हैं, तो आपको सहसंबंध दिखाई दे सकता है। यदि ऐसा है, तो आप उपरोक्त गैर-रेखीय उपयोगिता समीकरण या कुछ इसी तरह से फंस गए हैं।


ठीक। आप सही हे। मेरी परिभाषाएँ समझाना सबसे अच्छा है। और इसके बारे में फिर से सोचने पर, यह मेरी परिभाषाओं की जरूरत नहीं है। 1 सार्वभौमिक स्कोर बनाने के लिए मुझे जो आवश्यक है वह उपयुक्त विधि है। चाहे वो एडमिशन स्कोर हो या ट्रैफिक स्कोर। एक सार्वभौमिक मीट्रिक बनाने के बारे में कैसे जाना जाता है जो अन्य चर का एक फ़ंक्शन है, जो उन दोनों को समान पैमाने पर रखने के लिए बदल दिया गया था? और वजन के बारे में चिंता मत करो। मैं समझता हूं कि अभी भी सीधे योग मैट्रिक्स 1/1 का भार उठा रहा है। लेकिन यह मेरे लिए अभी चिंता का विषय है।
क्रिस

@ क्रिस, मैंने ऊपर दिए गए एक एडिट के रूप में अपना जवाब जोड़ा।
बिल_080

2
(+1) अच्छा संपादन। @ क्रिस: आपको यहां PowerPoint स्लाइड के एक छोटे सेट में नोटों में रुचि हो सकती है : यह उस विषय पर एक प्रस्तुति है जिसे मैंने गैर-तकनीकी लोगों को दिया था। मैं इसका उल्लेख करता हूं क्योंकि इसमें कुछ चित्रण और मार्गदर्शन है कि "एक सार्वभौमिक मीट्रिक कैसे बनाया जाए।"
whuber

मल्टी-एट्रीब्यूट यूटिलिटीज लिंक मृत है, लेख यहां पाया जा सकता है। web.archive.org/web/20090530032248/http://www.doc.ic.ac.uk/~frk/…
mgilbert

6

इसका उत्तर सरल है, लेकिन आप इसे पसंद नहीं करेंगे: यह निर्भर करता है। यदि आप दोनों स्कोर से समान रूप से 1 मानक विचलन को महत्व देते हैं, तो मानकीकरण जाने का तरीका है (ध्यान दें: वास्तव में, आप छात्र हैं , क्योंकि आप जनसंख्या के एसडी के अनुमान से विभाजित कर रहे हैं )।

यदि नहीं, तो यह संभावना है कि मानकीकरण एक अच्छा पहला कदम होगा, जिसके बाद आप एक सुवक्ता कारक से गुणा करके स्कोर में से किसी एक को अधिक भार दे सकते हैं।


इसलिए, आप कम से कम शुरुआत करते हैं जो मैंने मानकीकरण (छात्रकरण) के रूप में वर्णित किया है, फिर डेटा / परिदृश्य को सबसे अच्छा फिट करने के लिए वजन समायोजित करें? यह समझ आता है। मुझे समझ में नहीं आ रहा है कि मैं एसडी से क्यों विभाजित होऊंगा। और शोध में मैंने पाया कि मानकीकृत मीन अंतर को कुछ कहा गया है .... और मैं अभी खुद को भ्रमित कर रहा हूं। ऐसा लगता है कि यह सरल होना चाहिए। आप या तो उन दोनों को स्केल-ए पर डालते हैं, या दूसरे के समान पैमाने पर एक करते हैं, फिर राशि। लेकिन नहीं। इसके बजाय मैं उलझन में हूँ और सभी विकी इस समय के लिए बाहर हूँ।
क्रिस

0

GPA / ACT या ट्रेन / कार की समस्या को हल करने के लिए, जियोमेट्रिक माध्य का उपयोग क्यों नहीं किया जाता है ?

n (a1 × a2 × ... × a)

a*वितरण से मूल्य कहां है और वितरण nका सूचकांक है।

यह ज्यामितीय माध्य सुनिश्चित करता है कि प्रत्येक मान अपने पैमाने पर विवाद करता है, समान मूल्य पर समान रूप से योगदान देता है। जियोमेट्रिक मीन पर अधिक देखें


3
मैं यह नहीं देखता कि ओपी द्वारा वर्णित स्थितियों के लिए ज्यामितीय माध्य उचित होगा।
गंग

1
मैं गोबर से सहमत हूँ। ज्यामितीय माध्य इस समस्या का हल नहीं है।
फेरि

जियोमेट्रिक माध्य छोटी संख्या के योगदान को कम करने से रोकेगा। इसलिए यह मानकीकरण या सामान्यीकरण का एक विकल्प हो सकता है जब असमान तराजू को जोड़ना पड़ता है।
रंसो

0

मेरे क्षेत्र में, डेटा विज्ञान, सामान्यीकरण डेटा का एक परिवर्तन है जो डेटा के बहाव की आसान तुलना की अनुमति देता है। कई प्रकार के सामान्यीकरण हैं। उनमें से एक होने के नाते स्केलिंग। आप डेटा भी लॉग इन कर सकते हैं, या कुछ और भी कर सकते हैं। आपके द्वारा उपयोग किए जाने वाले सामान्यकरण का प्रकार आपके इच्छित परिणाम पर निर्भर करेगा, क्योंकि सभी सामान्यीकरण डेटा को किसी और चीज़ में बदल देते हैं।

यहां मैं सामान्यीकरण के उदाहरणों में से कुछ पर विचार करता हूं। स्केलिंग नॉर्मलाइजेशन क्वांटाइल नॉर्मलाइजेशन

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.