डैनियल विल्क्स (2011) का कहना है कि प्रमुख घटक प्रतिगमन "पक्षपातपूर्ण" होगा?


13

में वायुमंडलीय विज्ञान में सांख्यिकीय तरीकों , डैनियल विल्क्स नोट एकाधिक रेखीय प्रतीपगमन समस्याओं को जन्म दे सकता है कि अगर वहाँ भविष्यवक्ताओं के बीच बहुत मजबूत intercorrelations (3 संस्करण, पेज 559-560) कर रहे हैं:

एक पैथोलॉजी जो कई रेखीय प्रतिगमन में हो सकती है, यह है कि मजबूत पारस्परिक संबंध वाले भविष्यवक्ता चर का एक परिणाम अस्थिर प्रतिगमन संबंध की गणना में परिणाम कर सकता है।

(...)

वह फिर प्रमुख घटक प्रतिगमन का परिचय देता है:

इस समस्या को दूर करने का एक तरीका यह है कि पहले भविष्यवक्ताओं को उनके प्रमुख घटकों में बदल दिया जाए, जिनके बीच संबंध शून्य हैं।

अब तक सब ठीक है। लेकिन इसके बाद, वह कुछ ऐसे बयान देता है जो वह नहीं समझाता (या कम से कम मेरे लिए पर्याप्त विवरण में नहीं है):

यदि सभी प्रमुख घटकों को एक प्रमुख घटक प्रतिगमन में रखा जाता है, तो पूर्ण भविष्यवक्ता सेट के लिए पारंपरिक न्यूनतम-वर्ग से अधिक कुछ भी प्राप्त नहीं होता है।

(..) तथा:

मूल भविष्यवक्ताओं के संदर्भ में प्रमुख-घटक प्रतिगमन को फिर से जोड़ना संभव है, लेकिन परिणाम सामान्य रूप से सभी मूल भविष्यवाणियों को शामिल करेगा भले ही केवल एक या कुछ प्रमुख घटक भविष्यवाणियों का उपयोग किया गया हो। इस पुनर्गठित प्रतिगमन को पक्षपाती किया जाएगा, हालांकि अक्सर विचरण बहुत छोटा होता है, जिसके परिणामस्वरूप एक छोटा एमएसई होता है।

मैं इन दो बिंदुओं को नहीं समझता।

बेशक, यदि सभी प्रमुख घटकों को बरकरार रखा जाता है, तो हम उसी जानकारी का उपयोग करते हैं जब हम अपने मूल स्थान में भविष्यवक्ताओं का उपयोग कर रहे थे। हालांकि, प्रमुख घटक स्थान में काम करने से आपसी सहसंबंधों की समस्या दूर हो जाती है। हम अभी भी ओवरफिट कर सकते हैं, लेकिन क्या यह एकमात्र समस्या है? क्यों कुछ हासिल नहीं हुआ?

दूसरे, भले ही हम मुख्य घटकों (शायद शोर में कमी और / या ओवरफिटिंग को रोकने के लिए) को काटते हैं, यह क्यों और कैसे एक पक्षपाती पुनर्गठित प्रतिगमन को जन्म देता है? किस तरह से बायस्ड?


पुस्तक का स्रोत: डैनियल एस। विलक्स, वायुमंडलीय विज्ञान में सांख्यिकीय तरीके, तीसरा संस्करण, 2011। अंतर्राष्ट्रीय भूभौतिकी श्रृंखला खंड 100, शैक्षणिक प्रेस।


4
(+1) दूसरे उद्धरण में, "पक्षपाती होगा" तार्किक रूप से अनुसरण नहीं करता है: बेहतर "एक पक्षपातपूर्ण होने की संभावना" जैसे एक आपराधिक बयान होगा। मुझे संदेह है कि इसके पीछे तर्क कुछ ऐसा हो सकता है "क्योंकि पीसीआर पैरामीटर अनुमानों के बीच रैखिक संबंध स्थापित करता है, उन अनुमानों में ओएलएस अनुमानों से भिन्नता होगी, और क्योंकि ओएलएस अनुमान निष्पक्ष हैं, इसका मतलब है कि पीसीआर अनुमान पक्षपाती होंगे।" सहज रूप से यह एक अच्छा अनुमान है, लेकिन यह काफी सही नहीं है।
whuber

क्या यह कहा जा सकता है कि "(पीसीआर को बायस्ड किया जाएगा") यदि (ए) डेटा पॉइंट्स में पीसी की चुनी हुई संख्या की तुलना में रैखिक कम या बराबर आयामी मैनिफ़ेस्ट नहीं होता है और (बी) डेटा पॉइंट पूरी तरह से असंबंधित नहीं हैं? या कैसे?
सोरेन हवेलुंड वेलिंग

जवाबों:


15

क्या होता है जब सभी पीसी का उपयोग किया जाता है?

यदि सभी पीसी का उपयोग किया जाता है, तो परिणामी प्रतिगमन गुणांक ओएलएस प्रतिगमन के साथ प्राप्त लोगों के समान होंगे, और इसलिए इस प्रक्रिया को "प्रमुख घटक प्रतिगमन" नहीं कहा जाना चाहिए। यह मानक प्रतिगमन है, केवल एक राउंडअबाउट तरीके से किया जाता है।

आप पूछ रहे हैं कि यह कैसे संभव है कि कुछ भी प्राप्त न हो, यह देखते हुए कि पीसीए के बाद भविष्यवक्ता ऑर्थोगोनल हो जाते हैं। शैतान पीसीए अंतरिक्ष से मूल स्थान पर प्रतिगमन गुणांक के पीछे-परिवर्तन में छिप जाता है। आपको यह जानने की जरूरत है कि अनुमानित प्रतिगमन गुणांकों का विचरण पूर्ववर्तियों के सहसंयोजक मैट्रिक्स पर निर्भर करता है। पीसीए-रूपांतरित भविष्यवक्ता, उन्हें कहते हैं , विकर्ण सहसंयोजक मैट्रिक्स है (क्योंकि वे असंबंधित हैं)। तो लिए सभी प्रतिगमन गुणांकZ X X iZZअसंबद्ध भी हैं; उच्च-विचरण वाले PC के संगत वाले संस्करण कम विचरण करते हैं (अर्थात विश्वसनीय रूप से अनुमानित किए जाते हैं) और कम-प्रसरण PC के अनुरुप उच्च विचरण होते हैं (अर्थात अविश्वसनीय रूप से अनुमानित)। जब ये गुणांक मूल भविष्यवक्ताओं लिए वापस रूपांतरित हो जाते हैं , तो प्रत्येक भविष्यवक्ता को अविश्वसनीय अनुमानों का कुछ हिस्सा मिलेगा, और इसलिए सभी गुणांक अविश्वसनीय हो सकते हैंXXi

तो कुछ भी हासिल नहीं हुआ।

क्या होता है जब केवल कुछ पीसी का उपयोग किया जाता है?

जब पीसीआर में सभी पीसी को बरकरार नहीं रखा जाता है, तो परिणामस्वरूप समाधान आमतौर पर मानक साधारण कम से कम वर्गों के समाधान के बराबर नहीं होगा । यह एक मानक परिणाम है कि ओएलएस समाधान निष्पक्ष है : गॉस-मार्कोव प्रमेय देखें । "निष्पक्ष" का अर्थ है कि औसत पर सही है , भले ही यह बहुत शोर हो सकता है। चूंकि पीसीआर समाधान इससे भिन्न होता है, इसलिए यह पक्षपाती होगा , जिसका अर्थ है कि यह औसत रूप से गलत होगा। हालांकि, अक्सर ऐसा होता है कि यह काफी कम शोर होता है, जिससे समग्र अधिक सटीक भविष्यवाणियां होती हैं। β हेएलएस ββ^PCRβ^OLSβ^

यह पूर्वाग्रह-विचरण व्यापार-बंद का एक उदाहरण है । देखें कि संकोचन क्यों काम करता है? कुछ और सामान्य चर्चा के लिए।

टिप्पणी में, @whuber ने बताया कि पीसीआर समाधान नहीं करता है OLS एक से अलग है और इसलिए नहीं करता है पक्षपाती किया जाना है। वास्तव में, यदि आश्रित चर सभी कम-भिन्नता वाले पीसीआर मॉडल में शामिल नहीं है (जनसंख्या में, नमूने में नहीं) में असंबंधित है, तो इन पीसी को छोड़ने से निष्पक्षता प्रभावित नहीं होगी। यह, हालांकि, व्यवहार में मामला होने की संभावना नहीं है: पीसीए को को ध्यान में रखते हुए आयोजित किया जाता है, इसलिए यह इस कारण से खड़ा होता है कि सभी पीसी के साथ कुछ हद तक सहसंबद्ध होगा।y yyy

उच्च-विचरण पीसी का उपयोग करना एक अच्छा विचार क्यों है?

यह सवाल का हिस्सा नहीं था, लेकिन आगे पढ़ने के लिए आपको निम्नलिखित सूत्र में रुचि हो सकती है: शीर्ष प्रमुख घटक एक आश्रित चर पर भविष्य कहनेवाला शक्ति को कैसे बनाए रख सकते हैं (या बेहतर पूर्वानुमान भी पैदा कर सकते हैं)?


आपके अंतिम पैराग्राफ में टिप्पणियां डेटासेट में के मान के साथ (रिग्रेसर्स पर) के सशर्त वितरण को भ्रमित करती हैं । Y यYY
whuber

@ शुभंकर, वास्तव में। मैंने उस पैराग्राफ को फिर से लिखा है, उम्मीद है कि अब यह अधिक समझ में आता है। धन्यवाद।
अमीबा का कहना है कि मोनिका

हम्म, ठीक है। बायस्ड का अर्थ है कि कुछ बिंदु दूसरों की तुलना में अधिक समान हैं, जो कि वास्तव में हम चाहते हैं यदि हम शोर और आउटलेर्स के प्रभाव को कम करना चाहते हैं (जो कि मुझे अभी तक यकीन नहीं है कि पीसीए सबसे अच्छा उपकरण है)।
जेरिट

@gerrit आप लिखते हैं जैसे कि पूर्वाग्रह वजन करने के लिए समान थे, लेकिन वे अलग चीजें हैं। इस संदर्भ में पूर्वाग्रह गुणांक अनुमानों के अपेक्षित मूल्यों और उनके वास्तविक मूल्यों के बीच किसी भी अंतर को संदर्भित करता है।
whuber

1
मॉडल का मानना ​​है कि प्रतिक्रियाएं यादृच्छिक चर हैं। यह अनुमानित गुणांक बनाता है - किसी भी प्रक्रिया का उपयोग करते हुए - यादृच्छिक चर भी। उनके अपेक्षित मूल्यों को किसी भी यादृच्छिक चर के रूप में परिभाषित किया गया है। परिभाषा के अनुसार, पूर्वाग्रह अपेक्षित मूल्य और वास्तविक मूल्य के बीच का अंतर है। ओएलएस गुणांक अनुमानों में शून्य के पूर्वाग्रह हैं। कुछ अन्य प्रक्रिया का पूर्वाग्रह अभी भी शून्य हो सकता है। उद्धरण का तर्क यह है कि एक प्रक्रिया जो रैखिक है, ओएलएस की तरह, लेकिन गुणांक के बीच संबंध स्थापित करती है, आवश्यक रूप से पक्षपाती होगी। यह निष्कर्ष कई मामलों में सही है, लेकिन सभी में नहीं।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.