हम पीसीए करने से पहले मानक विचलन और कुछ अन्य मानकीकरण कारक से क्यों विभाजित होते हैं?


17

मैं निम्नलिखित औचित्य (सीएस 229 कोर्स नोट्स से) पढ़ रहा था कि हम कच्चे डेटा को उसके मानक विचलन द्वारा क्यों विभाजित करते हैं:

यहाँ छवि विवरण दर्ज करें

हालांकि मैं समझता हूं कि स्पष्टीकरण क्या कह रहा है, यह मेरे लिए स्पष्ट नहीं है कि मानक विचलन द्वारा विभाजित करने से ऐसा लक्ष्य क्यों प्राप्त होगा। यह कहता है कि हर कोई एक ही "पैमाने" पर अधिक है। हालांकि, इसका पूरी तरह से स्पष्ट नहीं है कि मानक विचलन द्वारा विभाजित क्यों प्राप्त होता है। जैसे, विचरण से विभाजित होने में क्या गलत है? कुछ अन्य मात्रा क्यों नहीं? जैसे ... पूर्ण मूल्यों का योग? या कुछ अन्य मानक ... क्या एसटीडी चुनने का गणितीय औचित्य है?

क्या इस दावे में एक सैद्धांतिक कथन है जो गणित (और / या सांख्यिकी) के माध्यम से व्युत्पन्न / सिद्ध किया जा सकता है या क्या यह उन बयानों में से एक है जो हम करते हैं क्योंकि यह "अभ्यास" में काम आता है?

मूलतः, क्या कोई या तो एक कठोर गणितीय स्पष्टीकरण प्रदान कर सकता है कि अंतर्ज्ञान सत्य क्यों है? या अगर यह सिर्फ एक अनुभवजन्य अवलोकन है, तो हमें क्यों लगता है कि पीसीए करने से पहले सामान्य रूप से काम करता है?

इसके अलावा, पीसीए के संदर्भ में, क्या यह मानकीकरण या सामान्यीकरण की प्रक्रिया है?


कुछ अन्य विचार जो मेरे पास थे, "एसटीडी क्यों" समझा सकते हैं:

चूंकि पीसीए को विचरण को अधिकतम करने से प्राप्त किया जा सकता है, इसलिए मैंने अनुमान लगाया कि एसटीडी जैसे संबंधित मात्रा से विभाजित करना, एसटीडी द्वारा विभाजित किए गए कारणों में से एक हो सकता है। लेकिन तब मैंने विचार किया कि शायद अगर हम किसी अन्य मानक के साथ शायद "विचरण" को परिभाषित करते हैं, , तो हम (PTH जड़ या कुछ लेने के द्वारा) है कि आदर्श की एसटीडी से विभाजित होगा। हालांकि, यह सिर्फ एक अनुमान था और मैं इस बारे में 100% नहीं हूं, इसलिए सवाल। मैं सोच रहा था कि क्या किसी को इससे संबंधित कुछ भी पता था।1ni=1n(xiμ)p


मैंने देखा कि शायद संबंधित प्रश्न था:

सहसंबंध या सहवास पर पीसीए?

लेकिन ऐसा लगता है कि "सहसंबंध" या "सहसंयोजक" का उपयोग करने के बारे में अधिक बात की गई थी, लेकिन कठोर या ठोस या विस्तृत औचित्य का अभाव था, जो कि मुझे मुख्य रूप से दिलचस्पी है।

उसी के लिए:

हमें विश्लेषण से पहले डेटा को सामान्य करने की आवश्यकता क्यों है

सम्बंधित:

एसवीडी / पीसीए के लिए "सामान्यीकरण" चर


1
एक गणितीय कारण है - प्रत्येक चर के लिए एसडी द्वारा (केंद्रित) डेटा को विभाजित करना एक परिवर्तित डेटा सेट उत्पन्न करता है जिसका सहसंयोजक मैट्रिक्स मूल (केंद्रित) डेटा का सहसंबंध मैट्रिक्स है। उसके बाद, हम सहसंबंध बनाम सहसंयोजक मैट्रिक्स क्षेत्र पर फिर से हैं। क्या आप इस बात का सबूत मांग रहे हैं कि डेटा को सामान्य करने से सहसंबंध मैट्रिक्स को सहसंबंध मैट्रिक्स में कैसे बदल जाता है?
सिल्वर फिश

आपका शीर्षक प्रश्न पढ़ता है जैसे कि आप पूछ रहे हैं कि इसे सामान्य करने का उद्देश्य क्या है (सामान्यीकरण के विपरीत नहीं)। यह "पीसीए पर सहसंबंध या सहसंयोजक" का एक डुप्लिकेट होगा। हालांकि, जो आप वास्तव में पूछ रहे हैं, वह यह है कि एसटीडी द्वारा विभाजन के माध्यम से सामान्यीकरण क्यों किया जाता है (जैसा कि विचरण, या सीमा, आदि द्वारा विभाजित करने का विरोध किया जाता है)। यदि हां, तो क्या आप शायद शीर्षक प्रश्न को अधिक सटीक बनाने के लिए संपादित करना चाहते हैं?
अमीबा का कहना है कि

3
शब्दावली के बारे में, "सामान्यीकरण" एक सटीक शब्द नहीं है और विभिन्न चीजों को संदर्भित कर सकता है। जबकि "मानकीकरण" का अर्थ है घटाना और मानक विचलन द्वारा विभाजित करना, जिसे आप संदर्भित कर रहे हैं।
अमीबा का कहना है कि मोनिका

2
मुझे यह जोड़ना चाहिए कि मुझे लगता है कि आपका प्रश्न बहुत अच्छा है (+1)। वास्तव में कुछ और करके विभाजित करके सामान्य कर सकते हैं; उदाहरण के लिए, मानक विचलन एक बहुत ही गैर-मजबूत उपाय है और मजबूत आउटलेर्स की उपस्थिति में भ्रामक हो सकता है। तो कोई इसके बजाय प्रसार के कुछ मजबूत माप से विभाजित करना चुन सकता है (उदाहरण के लिए "औसत निरपेक्ष विचलन")। एसटीडी का उपयोग सामान्य करने का सबसे अच्छा तरीका क्यों है इसका कोई "कठोर गणितीय स्पष्टीकरण" नहीं है, और आप इस निशान पर सही हैं कि यह "सिर्फ एक अनुभवजन्य अवलोकन" है कि यह अक्सर अच्छा काम करता है।
अमीबा का कहना है कि

2
"इसके बजाय विचरण द्वारा विभाजित क्यों नहीं" - जो कि आयामी असंगति द्वारा काफी आसानी से समझाया जा सकता है। उदाहरण के लिए, यदि आप इकाइयों को एक चर में बदल देते हैं तो यह आपको अजीब परिणाम देगा। पुन: "MAD द्वारा विभाजित क्यों नहीं" - यदि डेटा सामान्य रूप से वितरित किया गया था, तो चूंकि (जनसंख्या में) MAD SD के लिए आनुपातिक है, इसलिए MAD के एक उपयुक्त मल्टीपल द्वारा विभाजित करना और एक अक्षम (संभवत: मजबूत) करना संभव होगा? ) सहसंबंध का अनुमान। यह और दिलचस्प है।
सिल्वरफिश

जवाबों:


11

यह आंशिक उत्तर में है "मेरे लिए यह स्पष्ट नहीं है कि मानक विचलन द्वारा विभाजित करने से ऐसा लक्ष्य क्यों प्राप्त होगा"। विशेष रूप से, यह रूपांतरित (मानकीकृत) डेटा को "समान पैमाने" पर क्यों रखता है। प्रश्न गहरे मुद्दों पर संकेत देता है (और क्या हो सकता है "काम किया", जो कि "काम" से जुड़ा हुआ है, गणितीय रूप से भी इसका मतलब हो सकता है?), लेकिन यह कम से कम समझ में आता था कि यह प्रक्रिया "काम करता है" के अधिक सरल पहलुओं को क्यों संबोधित करती है? - अर्थात्, पाठ में इसके लिए किए गए दावों को प्राप्त करता है।

एक सहसंयोजक मैट्रिक्स की पंक्ति और स्तंभ j पर प्रविष्टि i t h और j t h चर के बीच सहसंयोजक है । ध्यान दें कि एक विकर्ण, पंक्ति i और स्तंभ i पर , यह i t h चर और स्वयं के बीच सहसंयोजक बन जाता है - जो कि i t h का केवल प्रसरण हैijithjthiiithith चर।

आइए वेरिएबल X i और j को कॉल करते हैंithXi चर एक्स जे ; मुझे लगता है कि ये पहले से ही केंद्रित हैं ताकि उनका मतलब शून्य हो। याद रखें किसीवी( एक्स मैं , एक्स जे )= σ एक्स मैंjthXj

Cov(Xi,Xj)=σXiσXjCor(Xi,Xj)

Zi=XiσXi

Var(Zi)=Var(XiσXi)=1σXi2Var(Xi)=1σXi2σXi2=1

Zjij

Cov(Zi,Zj)=σZiσZjCor(Zi,Zj)=Cor(Zi,Zj)

Cor(Zi,Zj)Cor(Xi,Xj) मूल डेटा के बीच संबंध।

Cov(Zi,Zi)=Var(Zi)=1इसलिए पूरा विकर्ण लोगों से भरा हुआ है, जैसा कि हम उम्मीद करेंगे। यह इस अर्थ में है कि डेटा अब "एक ही पैमाने पर" हैं - उनके सीमांत वितरण बहुत समान दिखना चाहिए, कम से कम अगर वे सामान्य रूप से शून्य के साथ और विचरण (और मानक विचलन) के साथ शुरू करने के लिए वितरित किए गए थे। अब ऐसा नहीं है कि एक चर की परिवर्तनशीलता दूसरों को निगल जाती है। आप निश्चित रूप से प्रसार के एक अलग उपाय से विभाजित हो सकते थे। डायनामिक असंगति के कारण विचरण एक विशेष रूप से बुरा विकल्प होता (इस बारे में सोचें कि क्या होगा यदि आप इकाइयों को बदल देंगे, जो कि आपके किसी एक चर को मीटर से किलोमीटर तक बदल देगा)। माध्य पूर्ण विचलन (या MAD का उपयुक्तयदि आप इसे मानक विचलन के मजबूत अनुमानक के रूप में उपयोग करने का प्रयास कर रहे हैं) तो अधिक उपयुक्त हो सकता है। लेकिन यह अभी भी उस विकर्ण को एक विकर्ण में नहीं बदल देगा।

अपशॉट यह है कि एक विधि जो मानकीकृत डेटा के सहसंयोजक मैट्रिक्स पर काम करती है, मूल रूप से मूल डेटा के सहसंबंध मैट्रिक्स का उपयोग कर रही है। जिसके लिए आप पीसीए पर उपयोग करना पसंद करेंगे, पीसीए को सहसंबंध या सहसंयोजकता पर देखें ?


2
मुझे लगता है कि इस सवाल का जवाब वास्तव में स्पर्श नहीं करता है वास्तविक कारण है कि मानक विचलन प्रसार का एक उपाय के रूप में लिया और सामान्यीकरण के लिए प्रयोग किया जाता है की (और गैर तुच्छ) प्रश्न। इसके बजाय माध्य निरपेक्ष विचलन क्यों नहीं लिया जा रहा है? दी गई, परिणामी सहसंयोजक मैट्रिक्स "डिफ़ॉल्ट" सहसंबंध मैट्रिक्स नहीं होगी, लेकिन शायद यह बेहतर होगा, उदाहरण के लिए सहसंबंध मैट्रिक्स का अधिक मजबूत अनुमान। ओपी को मेरी आखिरी टिप्पणी भी देखें
अमीबा का कहना है कि मोनिका

2
@ameoba "मध्यम गहरे" बिंदु पर, यह तथ्य कि हमें नए सहसंयोजक मैट्रिक्स के विकर्ण के नीचे एक के भिन्न रूप मिलते हैं, अनिवार्य रूप से पीसीए के दृष्टिकोण से "समान पैमाने पर चर" होने के लिए रूपांतरित डेटा प्राप्त करने से हमारा मतलब है। इस प्रश्न द्वारा उठाए गए "बहुत गहरे" मुद्दों पर, मुझे यकीन नहीं है कि यह पूछने में बहुत अंतर है कि "हम पीसीए में माप के पैमाने के रूप में वेरिएंस का उपयोग क्यों करते हैं?" और पूछ रहा है "पीसीए स्वयं (सह) संस्करण के साथ चिंता क्यों करता है?" - या कम से कम, कि दोनों मुद्दे अंतरंग रूप से संबंधित होंगे।
सिल्वरफिश

1
@amoeba, MAD द्वारा या SD के बजाय विचरण द्वारा विभाजित क्यों नहीं किया गया है, अनिवार्य रूप से, एक ही सवाल है कि आखिर अंतर क्यों किया जाए: अर्थात, बजाय Covariances पर PCA क्यों नहीं किया जाता है? मैं इस विचार का पूर्ववर्ती टिप्पणी में समर्थन करता हूं।
tnnphns

1
@ttnphns: यदि विभिन्न चर पूरी तरह से अतुलनीय पैमाने (तापमान, लंबाई, वजन, आदि) हैं, तो किसी भी तरह से चर को सामान्य करने की इच्छा काफी समझ में आती है। सहसंयोजक मैट्रिक्स के बजाय सहसंबंध मैट्रिक्स का उपयोग करने के लिए यह सामान्य तर्क है। लेकिन अगर कोई आउटलेयर के बारे में चिंतित है, तो मुझे माध्य के बजाय माध्य को घटाने और एसवीडी के बजाय एमएडी द्वारा विभाजित करने में कुछ भी गलत नहीं दिख रहा है ... मैंने खुद ऐसा कभी नहीं किया, लेकिन मुझे लगता है कि यह एक उचित चीज की तरह लगता है।
अमीबा का कहना है कि मोनिका

1
@amoeba, रैखिक PCA को SSCP- प्रकार मैट्रिक्स होने के लिए मैट्रिक्स की आवश्यकता होती है । मूल चर का कोई भी रैखिक परिवर्तन इस प्रकार को संरक्षित करता है। बेशक, आप स्पीयरमैन आरएच मैट्रिक्स प्राप्त करने के लिए (जैसे, उदाहरण के लिए, रैंकिंग) कोई भी गैर-रेखीय परिवर्तन कर सकते हैं, लेकिन फिर घटक स्कोर और लोडिंग उनके प्रत्यक्ष (कम से कम वर्गों को कम करने के अर्थ में) डेटा के साथ कनेक्शन को ढीला कर देते हैं: अब बदले हुए डेटा का प्रतिनिधित्व करें!
ttnphns

5

हम विचलन द्वारा विभाजित होने के साथ मानक विचलन से
गलत क्यों विभाजित करते हैं ?

जैसा कि @Silverfish ने पहले ही एक टिप्पणी में बताया है, मानक विचलन में माप के समान इकाई है। इस प्रकार, विचलन के विपरीत मानक विचलन द्वारा विभाजित करते हुए, आप एक सादे संख्या के साथ समाप्त होते हैं जो आपको बताता है कि आपका मामला औसत और मानक विचलन द्वारा मापा के रूप में फैला हुआ है। यह विचार के बहुत करीब हैz

इसलिए: मानकीकरण (मतलब मानक विचलन से केंद्र + स्केलिंग) समझ में आता है अगर आप मानक सामान्य वितरण को अपने डेटा के लिए समझदार मानते हैं।

कुछ अन्य मात्रा क्यों नहीं? जैसे ... पूर्ण मूल्यों का योग? या कुछ अन्य मानदंड ...

अन्य मात्राओं को स्केल करने के लिए उपयोग किया जाता हैडेटा , लेकिन प्रक्रिया को मानकीकरण कहा जाता है, यदि यह मानक विचलन द्वारा मध्य केंद्रित और विभाजन का उपयोग करता है। स्केलिंग जेनेरिक शब्द है।

उदाहरण के लिए, मैं स्पेक्ट्रोस्कोपिक डेटा के साथ काम करता हूं और जानता हूं कि मेरे डिटेक्टर में एक तरंग दैर्ध्य-निर्भर संवेदनशीलता और (इलेक्ट्रॉनिक) पूर्वाग्रह है। इस प्रकार मैं ऑफसेट (रिक्त) सिग्नल को घटाकर और अंशांकन कारक द्वारा गुणा (विभाजित) करके अंशांकन करता हूं ।

इसके अलावा, मैं मतलब के लिए नहीं बल्कि कुछ अन्य आधारभूत मूल्य के लिए केंद्रित हो सकता हूं, जैसे कि ग्रैंड मतलब के बजाय नियंत्रण समूह का मतलब। (व्यक्तिगत रूप से, मैं लगभग कभी भी मानकीकृत नहीं करता हूं क्योंकि मेरे संस्करण पहले से ही एक ही भौतिक इकाई हैं और परिमाण के समान क्रम में हैं)

यह भी देखें: मॉडल बनाने से पहले चर को अक्सर समायोजित किया जाता है (जैसे मानकीकृत) - यह एक अच्छा विचार कब है, और यह एक बुरा कब है?


+1। स्पेक्ट्रोस्कोपिक डेटा के साथ अच्छा उदाहरण। वैसे, 10k प्रतिनिधि तक पहुंचने के लिए बधाई!
अमीबा का कहना है कि

0

यह लिंक आपके प्रश्न का स्पष्ट रूप से उत्तर देता है, मुझे लगता है: http://sebastianraschka.com/Articles/2014_about_feature_scaling.html

मैं एक छोटा सा टुकड़ा उद्धृत करता हूं:

जेड-स्कोर मानकीकरण या मिन-मैक्स स्केलिंग?

"मानकीकरण या न्यूनतम-अधिकतम स्केलिंग?" - इस सवाल का कोई स्पष्ट जवाब नहीं है: यह वास्तव में आवेदन पर निर्भर करता है।

उदाहरण के लिए, क्लस्टरिंग विश्लेषणों में, कुछ दूरी के उपायों के आधार पर विशेषताओं के बीच समानता की तुलना करने के लिए मानकीकरण विशेष रूप से महत्वपूर्ण हो सकता है। एक अन्य प्रमुख उदाहरण प्रिंसिपल कंपोनेंट एनालिसिस है, जहाँ हम आमतौर पर मिन-मैक्स स्केलिंग पर मानकीकरण पसंद करते हैं, क्योंकि हम उन घटकों में रुचि रखते हैं जो भिन्नता को अधिकतम करते हैं (प्रश्न के आधार पर और अगर PCA सहसंबंध मैट्रिक्स के बजाय घटकों की गणना करता है सहसंयोजक मैट्रिक्स; लेकिन मेरे पिछले लेख में पीसीए के बारे में अधिक)।

हालांकि, इसका मतलब यह नहीं है कि मिन-मैक्स स्केलिंग उपयोगी नहीं है! एक लोकप्रिय अनुप्रयोग छवि प्रसंस्करण है, जहां पिक्सेल तीव्रता को एक निश्चित सीमा (यानी, RGB रंग सीमा के लिए 0 से 255) के भीतर फिट होने के लिए सामान्यीकृत किया जाना है। इसके अलावा, ठेठ तंत्रिका नेटवर्क एल्गोरिथ्म को 0-1 पैमाने पर डेटा की आवश्यकता होती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.