वास्तव में, इस बात की कोई गारंटी नहीं है कि शीर्ष प्रमुख घटकों (पीसी) में कम विचरण वाले लोगों की तुलना में अधिक भविष्य कहनेवाला शक्ति है।
वास्तविक दुनिया के उदाहरण मिल सकते हैं जहां यह मामला नहीं है, और एक कृत्रिम उदाहरण का निर्माण करना आसान है जहां उदाहरण के लिए केवल सबसे छोटे पीसी का से कोई संबंध है ।y
इस विषय पर हमारे मंच पर बहुत चर्चा हुई, और (दुर्भाग्यपूर्ण) एक स्पष्ट रूप से विहित धागे की अनुपस्थिति में, मैं केवल कई लिंक दे सकता हूं जो एक साथ विभिन्न वास्तविक जीवन के साथ-साथ कृत्रिम उदाहरण भी प्रदान करते हैं:
और एक ही विषय, लेकिन वर्गीकरण के संदर्भ में:
हालाँकि, व्यवहार में, शीर्ष पीसी अक्सर करते अक्सर कम विचरण की तुलना में अधिक भविष्यवाणी करने की शक्ति, और इसके अलावा केवल शीर्ष पीसी का उपयोग कर सभी पीसी का उपयोग कर की तुलना में बेहतर भविष्यवाणी करने की शक्ति प्राप्त हो सकते हैं है।
बहुत से भविष्यवाणियों के साथ स्थितियों में और अपेक्षाकृत कुछ डेटा बिंदु (उदाहरण के लिए जब या यहां तक कि ), साधारण प्रतिगमन ओवरफिट हो जाएगा और इसे नियमित करने की आवश्यकता होगी। प्रिंसिपल कंपोनेंट रिग्रेशन (पीसीआर) को रिग्रेशन को नियमित करने के एक तरीके के रूप में देखा जा सकता है और यह बेहतर परिणाम देगा। इसके अलावा, यह रिज प्रतिगमन से निकटता से संबंधित है, जो संकोचन नियमितीकरण का एक मानक तरीका है। जबकि रिज प्रतिगमन का उपयोग करना आमतौर पर एक बेहतर विचार है, पीसीआर अक्सर यथोचित व्यवहार करेगा। देखें कि संकोचन क्यों काम करता है? पूर्वाग्रह-विचरण व्यापार के बारे में सामान्य चर्चा के लिए और कैसे संकोचन फायदेमंद हो सकता है।एन पी ≈ एन पी > nपीnपी ≈ np > n
एक तरह से, कोई यह कह सकता है कि रिज रिग्रेशन और पीसीआर दोनों मानते हैं कि बारे में अधिकांश जानकारी के बड़े पीसी में निहित है , और यह धारणा अक्सर वारंटेड होती है।एक्सyएक्स
कुछ चर्चा के लिए @cbeleites (+1) द्वारा बाद के उत्तर को देखें कि क्यों इस धारणा को अक्सर वारंट किया जाता है (और यह भी नया सूत्र: क्या वर्गीकरण के लिए आयामीता की कमी लगभग हमेशा उपयोगी होती है? कुछ और टिप्पणियों के लिए)।
हस्ती एट अल। में सांख्यिकीय लर्निंग के तत्वों (खंड 3.4.1) रिज प्रतिगमन के संदर्भ में इस पर टिप्पणी:
[टी] वह छोटे एकवचन मान [...] के स्तंभ अंतरिक्ष में दिशाओं के अनुरूप होते हैं में छोटे संस्करण होते हैं, और रिज प्रतिगमन इन दिशाओं को सबसे अधिक सिकुड़ता है। [...] रिज प्रतिगमन शॉर्ट दिशाओं में अनुमानित ग्रेडिएंट्स के संभावित उच्च विचरण से बचाता है। निहित धारणा यह है कि प्रतिक्रिया इनपुट के उच्च विचरण की दिशा में सबसे भिन्न होगी। यह अक्सर एक उचित धारणा है, क्योंकि अक्सर भविष्यवक्ताओं को अध्ययन के लिए चुना जाता है क्योंकि वे प्रतिक्रिया चर के साथ भिन्न होते हैं, लेकिन सामान्य रूप से पकड़ की आवश्यकता नहीं होती है।एक्स
विवरण के लिए निम्नलिखित सूत्र में मेरे उत्तर देखें:
जमीनी स्तर
उच्च-आयामी समस्याओं के लिए, पीसीए के साथ पूर्व-प्रसंस्करण (जिसका अर्थ है आयामीता को कम करना और केवल शीर्ष पीसी रखना) को नियमितीकरण के एक तरीके के रूप में देखा जा सकता है और अक्सर किसी भी बाद के विश्लेषण के परिणामों में सुधार होगा, यह एक प्रतिगमन या एक वर्गीकरण विधि हो। लेकिन इसकी कोई गारंटी नहीं है कि यह काम करेगा, और अक्सर बेहतर नियमितीकरण दृष्टिकोण होते हैं।