शीर्ष प्रमुख घटक एक आश्रित चर पर भविष्य कहनेवाला शक्ति को कैसे बनाए रख सकते हैं (या बेहतर पूर्वानुमान की ओर भी ले जा सकते हैं)?


25

मान लीजिए कि मैं एक प्रतिगमन चला रहा हूं । शीर्ष सिद्धांत घटकों का चयन करके , क्या मॉडल पर अपनी भविष्य कहनेवाला शक्ति बरकरार रखता है ?कश्मीर एक्स वाईYXkXY

मैं समझता हूं कि यदि शीर्ष eigenvalues ​​के साथ के सहसंयोजक मैट्रिक्स के eigenvectors हैं, तो शीर्ष प्रमुख घटक हैं अधिकतम भिन्नताओं के साथ। हम इस तरह के लिए सुविधाओं की संख्या को कम कर सकते हैं , और भविष्यवाणी करने की शक्ति का सबसे बनाए रखने के रूप में मैं इसे समझते हैं। एक्स के एक्स वी , एक्स वी एक्स वी कश्मीर कश्मीर कश्मीरv1,v2,...vkXkXv1,Xv2...Xvkकश्मीरकश्मीर

लेकिन क्यों शीर्ष घटक पर भविष्य कहनेवाला शक्ति बनाए रखते हैं ?वाईकश्मीरY

यदि हम एक सामान्य OLS बारे में बात करते हैं , तो यह सुझाव देने का कोई कारण नहीं है कि यदि फीचर में अधिकतम विचरण है, तो में पर सबसे अधिक पूर्वानुमान लगाने वाली शक्ति है ।जेड मैं जेड मैं YY~जेडजेडमैंजेडमैंY

टिप्पणियों को देखने के बाद अपडेट करें: मुझे लगता है कि मैंने आयामीता में कमी के लिए पीसीए का उपयोग करने के कई उदाहरण देखे हैं। मैं यह मान रहा हूं कि जिन आयामों के साथ हम बचे हैं उनमें सबसे अधिक अनुमानित शक्ति है। अन्यथा आयामीता में कमी की क्या बात है?


3
आप सही कर रहे हैं: कोई गणितीय कारण शीर्ष लगता है का पीसी किसी भी भविष्यवाणी करने की शक्ति है - बस के रूप में वहाँ कोई गणितीय कारण है कि आम तौर पर covariates के किसी सेट है कि लगता है कि करने के लिए एक दिया करने के लिए कोई भी संबंध नहीं है । ऐसा लगता है कि आप कुछ बयानों का जिक्र कर रहे हैं जो आपके सामने हैं: वास्तव में यह क्या कहता है और किसने कहा है? एक्स एक्स वाईकश्मीरएक्सएक्सY
whuber

@ जब भी मुझे लगता है कि मुझे आयाम में कमी के लिए पीसीए का उपयोग करने के उदाहरण के बहुत सारे लग रहे हैं। मैं यह मान रहा हूं कि जिन आयामों के साथ हम बचे हैं उनमें सबसे अधिक अनुमानित शक्तियां हैं। अन्यथा यह आयामों को कम करने की बात है?
वेंडेटा

जवाबों:


43

वास्तव में, इस बात की कोई गारंटी नहीं है कि शीर्ष प्रमुख घटकों (पीसी) में कम विचरण वाले लोगों की तुलना में अधिक भविष्य कहनेवाला शक्ति है।

वास्तविक दुनिया के उदाहरण मिल सकते हैं जहां यह मामला नहीं है, और एक कृत्रिम उदाहरण का निर्माण करना आसान है जहां उदाहरण के लिए केवल सबसे छोटे पीसी का से कोई संबंध है ।y

इस विषय पर हमारे मंच पर बहुत चर्चा हुई, और (दुर्भाग्यपूर्ण) एक स्पष्ट रूप से विहित धागे की अनुपस्थिति में, मैं केवल कई लिंक दे सकता हूं जो एक साथ विभिन्न वास्तविक जीवन के साथ-साथ कृत्रिम उदाहरण भी प्रदान करते हैं:

और एक ही विषय, लेकिन वर्गीकरण के संदर्भ में:


हालाँकि, व्यवहार में, शीर्ष पीसी अक्सर करते अक्सर कम विचरण की तुलना में अधिक भविष्यवाणी करने की शक्ति, और इसके अलावा केवल शीर्ष पीसी का उपयोग कर सभी पीसी का उपयोग कर की तुलना में बेहतर भविष्यवाणी करने की शक्ति प्राप्त हो सकते हैं है।

बहुत से भविष्यवाणियों के साथ स्थितियों में और अपेक्षाकृत कुछ डेटा बिंदु (उदाहरण के लिए जब या यहां तक ​​कि ), साधारण प्रतिगमन ओवरफिट हो जाएगा और इसे नियमित करने की आवश्यकता होगी। प्रिंसिपल कंपोनेंट रिग्रेशन (पीसीआर) को रिग्रेशन को नियमित करने के एक तरीके के रूप में देखा जा सकता है और यह बेहतर परिणाम देगा। इसके अलावा, यह रिज प्रतिगमन से निकटता से संबंधित है, जो संकोचन नियमितीकरण का एक मानक तरीका है। जबकि रिज प्रतिगमन का उपयोग करना आमतौर पर एक बेहतर विचार है, पीसीआर अक्सर यथोचित व्यवहार करेगा। देखें कि संकोचन क्यों काम करता है? पूर्वाग्रह-विचरण व्यापार के बारे में सामान्य चर्चा के लिए और कैसे संकोचन फायदेमंद हो सकता है।एन पी एन पी > nपीnपीnपी>n

एक तरह से, कोई यह कह सकता है कि रिज रिग्रेशन और पीसीआर दोनों मानते हैं कि बारे में अधिकांश जानकारी के बड़े पीसी में निहित है , और यह धारणा अक्सर वारंटेड होती है।एक्सyएक्स

कुछ चर्चा के लिए @cbeleites (+1) द्वारा बाद के उत्तर को देखें कि क्यों इस धारणा को अक्सर वारंट किया जाता है (और यह भी नया सूत्र: क्या वर्गीकरण के लिए आयामीता की कमी लगभग हमेशा उपयोगी होती है? कुछ और टिप्पणियों के लिए)।

हस्ती एट अल। में सांख्यिकीय लर्निंग के तत्वों (खंड 3.4.1) रिज प्रतिगमन के संदर्भ में इस पर टिप्पणी:

[टी] वह छोटे एकवचन मान [...] के स्तंभ अंतरिक्ष में दिशाओं के अनुरूप होते हैं में छोटे संस्करण होते हैं, और रिज प्रतिगमन इन दिशाओं को सबसे अधिक सिकुड़ता है। [...] रिज प्रतिगमन शॉर्ट दिशाओं में अनुमानित ग्रेडिएंट्स के संभावित उच्च विचरण से बचाता है। निहित धारणा यह है कि प्रतिक्रिया इनपुट के उच्च विचरण की दिशा में सबसे भिन्न होगी। यह अक्सर एक उचित धारणा है, क्योंकि अक्सर भविष्यवक्ताओं को अध्ययन के लिए चुना जाता है क्योंकि वे प्रतिक्रिया चर के साथ भिन्न होते हैं, लेकिन सामान्य रूप से पकड़ की आवश्यकता नहीं होती है।एक्स

विवरण के लिए निम्नलिखित सूत्र में मेरे उत्तर देखें:


जमीनी स्तर

उच्च-आयामी समस्याओं के लिए, पीसीए के साथ पूर्व-प्रसंस्करण (जिसका अर्थ है आयामीता को कम करना और केवल शीर्ष पीसी रखना) को नियमितीकरण के एक तरीके के रूप में देखा जा सकता है और अक्सर किसी भी बाद के विश्लेषण के परिणामों में सुधार होगा, यह एक प्रतिगमन या एक वर्गीकरण विधि हो। लेकिन इसकी कोई गारंटी नहीं है कि यह काम करेगा, और अक्सर बेहतर नियमितीकरण दृष्टिकोण होते हैं।


आपके उत्तर में संदर्भ एकत्र करने के लिए धन्यवाद। यहाँ हाल ही में एक और है । आगे के लिंक के साथ एक उत्तर है।
tnnphns

धन्यवाद, @ttnphns! मैंने उस पोस्ट को नहीं देखा है, क्योंकि इसमें एक [pca] टैग नहीं था (मैं केवल कुछ विशिष्ट टैग का अनुसरण कर रहा हूं)। वास्तव में, मैं इस बात से दुखी हूं कि 5-10 करीबी संबंधित थ्रेड्स का एक ढीला संग्रह है, जिसमें कोई सवाल नहीं है और कोई जवाब वास्तव में सही नहीं है और उनके बीच कोई वास्तविक डुप्लिकेट नहीं है। मुझे लगता है कि भविष्य के संदर्भों के लिए इस्तेमाल किया जा सकता है एक कैनोनिकल धागा है ...
अमीबा का कहना है कि मोनिका

मैंने उस प्रश्न का टैग जोड़ दिया है। उस दिलचस्प विषय पर "सही" विश्वकोश का जवाब उसके लेखक की प्रतीक्षा कर रहा है। :-) आप एक बनने का फैसला कर सकते हैं।
ttnphns

इसके अलावा प्रासंगिक: आँकड़ों के लिए उत्तर। सांख्यिकी.स्टैकएक्सचेंज.com
kjetil b halvorsen

11

पहले से ही गणितीय गुणों पर ध्यान केंद्रित करने वाले उत्तरों के अलावा, मैं एक प्रयोगात्मक दृष्टिकोण से टिप्पणी करना चाहता हूं।

सारांश: डेटा जेनरेशन प्रक्रियाओं को अक्सर ऐसे तरीके से अनुकूलित किया जाता है जो डेटा को प्रमुख घटक (पीसीआर) या आंशिक रूप से कम से कम वर्ग (पीएलएस) प्रतिगमन के लिए उपयुक्त बनाता है।


मैं विश्लेषणात्मक रसायनज्ञ हूं। जब मैं किसी चीज़ (रिग्रेशन या वर्गीकरण) को मापने के लिए एक प्रयोग / विधि तैयार करता हूं, तो मैं डेटा प्राप्त करने के लिए एप्लिकेशन और उपलब्ध उपकरणों के बारे में अपने ज्ञान का उपयोग करता हूं जो हाथ में कार्य के संबंध में शोर अनुपात के लिए एक अच्छा संकेत करता है। इसका मतलब है कि, जो डेटा मैं जनरेट करता हूं, वह ब्याज की संपत्ति के साथ बड़े सहसंयोजन के लिए बनाया गया है।
यह एक विचरण संरचना की ओर जाता है जहां दिलचस्प विचरण बड़ा है, और बाद के पीसी केवल (छोटे) शोर को ले जाएंगे।

मैं उन तरीकों को भी प्राथमिकता दूंगा, जो अधिक मजबूत या अधिक सटीक परिणाम देने के लिए, हाथ में कार्य के बारे में अनावश्यक जानकारी देते हैं। पीसीए निरर्थक माप चैनलों को एक पीसी में केंद्रित करता है, जो तब बहुत अधिक विचरण करता है और इसलिए पहले पीसी में से एक है।

यदि ज्ञात कन्फ़्यूडर हैं, जो बड़े भिन्नता को जन्म देगा, जो कि ब्याज की संपत्ति के साथ संबद्ध नहीं है, तो मैं आमतौर पर डेटा के प्रीप्रोसेसिंग के दौरान जितना संभव हो उतना सही करने की कोशिश करूंगा: कई मामलों में ये कन्फ़्यूडर एक ज्ञात व्यक्ति हैं भौतिक या रासायनिक प्रकृति, और यह ज्ञान कन्फ्यूजर्स के लिए सही तरीके का सुझाव देता है। उदाहरण के लिए, मैं माइक्रोस्कोप के तहत रमन स्पेक्ट्रा को मापता हूं। उनकी तीव्रता लेजर प्रकाश की तीव्रता के साथ-साथ माइक्रोस्कोप को कितनी अच्छी तरह से केंद्रित कर सकती है, पर निर्भर करती है। दोनों उन परिवर्तनों को जन्म देते हैं जिन्हें उदाहरण के लिए स्थिर करके ठीक किया जा सकता है जिसे स्थिर कहा जाता है।
इस प्रकार, विचरण के बड़े योगदानकर्ताओं जो समाधान में योगदान नहीं करते हैं, पीसीए में डेटा के प्रवेश करने से पहले ही समाप्त हो सकते हैं, पहले पीसी में ज्यादातर सार्थक विचरण को छोड़कर।


अंतिम लेकिन कम से कम, यहां एक स्व-पूर्ण भविष्यवाणी का एक सा है: स्पष्ट रूप से पीसीआर डेटा के साथ किया जाता है जहां धारणा यह है कि विचरण को ले जाने वाली जानकारी बड़ी है, इससे कोई मतलब नहीं है। अगर उदाहरण के लिए, मुझे लगता है कि महत्वपूर्ण कन्फ़्यूडर हो सकते हैं कि मुझे पता नहीं है कि मुझे कैसे ठीक करना है, तो मैं तुरंत पीएलएस के लिए जाऊंगा जो बड़े योगदानों की अनदेखी करने में बेहतर है जो भविष्यवाणी कार्य के साथ मदद नहीं करते हैं।


+1। यह एक उत्कृष्ट जोड़ है, चर्चा में शामिल होने के लिए धन्यवाद।
अमीबा का कहना है कि मोनिका

@amoeba: दयालु शब्दों के लिए धन्यवाद। हमेशा की तरह, आपका जवाब भी पूरी तरह से। मैं वास्तव में आप [pca] की देखभाल पर भरोसा करता हूँ!
सेल्याइट्स

6

पीसीए का उपयोग कभी-कभी कोलियर चर के कारण होने वाली समस्याओं को ठीक करने के लिए किया जाता है ताकि एक्स स्पेस में अधिकांश बदलाव के प्रमुख घटकों द्वारा कब्जा कर लिया जाए।

लेकिन यह गणितीय समस्या बेशक एक्स, वाई दोनों में अधिकांश भिन्नता को कैप्चर करने के समान नहीं है, इस तरह से अस्पष्टीकृत भिन्नता यथासंभव छोटी है।

आंशिक न्यूनतम वर्ग बाद के अर्थों में ऐसा करने की कोशिश करता है:

http://en.wikipedia.org/wiki/Partial_least_squares_regression


3

जैसा कि अन्य ने बताया है, शीर्ष k eigenvectors और भविष्य कहनेवाला शक्ति के बीच कोई सीधा संबंध नहीं है। शीर्ष को चुनने और उन्हें आधार के रूप में उपयोग करके, आप कुछ शीर्ष ऊर्जा (या उन अक्षों के साथ विचरण) को बरकरार रख रहे हैं।

यह हो सकता है कि सबसे अधिक विचरण को समझाने वाली धुरी वास्तव में भविष्यवाणी के लिए उपयोगी हो लेकिन सामान्य रूप से ऐसा नहीं है।


जब आप "सामान्य रूप से" कहते हैं, तो क्या आप सामान्य रूप से व्यवहार में या सामान्य रूप से सिद्धांत में हैं?
अमीबा का कहना है कि

@amoeba सामान्य तौर पर एक डेटासेट का निर्माण करना आसान होता है, जहां शीर्ष k अधिकतम प्रसरण अक्ष पर डेटा प्रोजेक्ट करना भविष्य कहनेवाला / भेदभावपूर्ण नहीं होता है।
व्लादिस्लाव्स डोवलगेक्स

-1

मुझे एक सरल व्याख्या की पेशकश करते हैं।

PCA कुछ सुविधाओं को सहज रूप से हटाने के लिए राशि। इससे ओवर-फिटिंग की संभावना कम हो जाती है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.