मैं निम्नलिखित औचित्य (सीएस 229 कोर्स नोट्स से) पढ़ रहा था कि हम कच्चे डेटा को उसके मानक विचलन द्वारा क्यों विभाजित करते हैं:
हालांकि मैं समझता हूं कि स्पष्टीकरण क्या कह रहा है, यह मेरे लिए स्पष्ट नहीं है कि मानक विचलन द्वारा विभाजित करने से ऐसा लक्ष्य क्यों प्राप्त होगा। यह कहता है कि हर कोई एक ही "पैमाने" पर अधिक है। हालांकि, इसका पूरी तरह से स्पष्ट नहीं है कि मानक विचलन द्वारा विभाजित क्यों प्राप्त होता है। जैसे, विचरण से विभाजित होने में क्या गलत है? कुछ अन्य मात्रा क्यों नहीं? जैसे ... पूर्ण मूल्यों का योग? या कुछ अन्य मानक ... क्या एसटीडी चुनने का गणितीय औचित्य है?
क्या इस दावे में एक सैद्धांतिक कथन है जो गणित (और / या सांख्यिकी) के माध्यम से व्युत्पन्न / सिद्ध किया जा सकता है या क्या यह उन बयानों में से एक है जो हम करते हैं क्योंकि यह "अभ्यास" में काम आता है?
मूलतः, क्या कोई या तो एक कठोर गणितीय स्पष्टीकरण प्रदान कर सकता है कि अंतर्ज्ञान सत्य क्यों है? या अगर यह सिर्फ एक अनुभवजन्य अवलोकन है, तो हमें क्यों लगता है कि पीसीए करने से पहले सामान्य रूप से काम करता है?
इसके अलावा, पीसीए के संदर्भ में, क्या यह मानकीकरण या सामान्यीकरण की प्रक्रिया है?
कुछ अन्य विचार जो मेरे पास थे, "एसटीडी क्यों" समझा सकते हैं:
चूंकि पीसीए को विचरण को अधिकतम करने से प्राप्त किया जा सकता है, इसलिए मैंने अनुमान लगाया कि एसटीडी जैसे संबंधित मात्रा से विभाजित करना, एसटीडी द्वारा विभाजित किए गए कारणों में से एक हो सकता है। लेकिन तब मैंने विचार किया कि शायद अगर हम किसी अन्य मानक के साथ शायद "विचरण" को परिभाषित करते हैं, , तो हम (PTH जड़ या कुछ लेने के द्वारा) है कि आदर्श की एसटीडी से विभाजित होगा। हालांकि, यह सिर्फ एक अनुमान था और मैं इस बारे में 100% नहीं हूं, इसलिए सवाल। मैं सोच रहा था कि क्या किसी को इससे संबंधित कुछ भी पता था।
मैंने देखा कि शायद संबंधित प्रश्न था:
लेकिन ऐसा लगता है कि "सहसंबंध" या "सहसंयोजक" का उपयोग करने के बारे में अधिक बात की गई थी, लेकिन कठोर या ठोस या विस्तृत औचित्य का अभाव था, जो कि मुझे मुख्य रूप से दिलचस्पी है।
उसी के लिए:
हमें विश्लेषण से पहले डेटा को सामान्य करने की आवश्यकता क्यों है
सम्बंधित: