डेटा रेंज के बाहर प्रोजेक्ट करने के लिए प्रतिगमन का उपयोग करना ठीक है? कभी ठीक नहीं? कभी-कभी ठीक है?


10

डेटा श्रेणी के बाहर प्रतिगमन का उपयोग करने के बारे में आपके विचार क्या हैं? अगर हमें यकीन है कि यह एक रैखिक या पावर मॉडल आकार का अनुसरण करता है, तो क्या मॉडल डेटा रेंज से परे उपयोगी नहीं हो सकता है? उदाहरण के लिए मेरे पास मूल्य द्वारा संचालित मात्रा है। मुझे लगता है कि डेटा रेंज के बाहर की कीमतों के लिए प्रोजेक्ट करने में सक्षम होना चाहिए। तुम्हारे विचार?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92

1
इस बात पर निर्भर करता है कि डेटा रेंज के बाहर आपकी धारणा कितनी अच्छी है। भविष्यवाणीyबिना पढ़े के लिए xपूरे कारण आप पहली जगह में प्रतिगमन करते हैं।
बेन

3
यहां तक ​​कि जब आप वास्तव में, वास्तव में, सुनिश्चित करें कि रैखिक संबंध भविष्यवाणियों की सीमा से परे जारी है x1,,xn के अपने नमूने में n अवलोकन, एक नए अवलोकन के लिए अनुमानित प्रतिक्रिया के विचरण में एक शब्द है x - अर्थात (xx¯)2in(xix¯)2- जो आपको चिंता करना चाहिए।
Scortchi - को पुनः स्थापित मोनिका

बेन मैं सहमत हूं, क्या एक्स के पूरे बिंदु के लिए y की भविष्यवाणी नहीं है? क्यों एक प्रतिगमन भी करते हैं? हो सकता है कि इस सीमा को निर्धारित करना कि मैं अपने आप को प्रेक्षित डेटा श्रेणी से दूर जाने की अनुमति कैसे दे सकता हूं। निश्चित रूप से 10% सुरक्षित होगा .. नहीं?
जॉनसन जेसन

इस विषय पर मेरी पसंदीदा याद्दाश्त bmj.com/content/317/7155/409 है
कार्लो लेज़ारो

@ बेन, @ जॉनसन - शायद एक वक्रोक्ति। प्रतिगमन के लिए एक और उपयोग है। इसका उपयोग भविष्यवाणी के बजाय समझाने के लिए किया जा सकता है। मुझे लगता है, विशेष रूप से सामाजिक विज्ञानों में यह प्रतिगमन का एक प्रमुख उपयोग है। मैंने बहुत सारी दलीलें पढ़ी हैं जैसे हमें लगता है कि (चर) एक प्रभाव परिणाम B, हम एक प्रतिगमन चलाते हैं, पाते हैं कि A के गुणांक (s) का 95% विश्वास अंतराल 0 नहीं है और हम निष्कर्ष निकालते हैं कि वहाँ है प्रपत्र ए का एक संबंध बी का कारण बनता है। संयोग से, यह ऐसा कुछ नहीं है जो मैं कभी करता हूं!
मेहर

जवाबों:


13

लगभग सभी जवाब और टिप्पणियां अतिरिक्तकरण के खतरों के खिलाफ चेतावनी देते हैं। मैं यह देखने का अधिक औपचारिक तरीका प्रस्तुत करना चाहूंगा कि क्या भविष्यवाणी विवेकपूर्ण है। विधि प्रोजेक्शन मैट्रिक्स पर आधारित कॉलम के स्पैन द्वारा स्पेस पर आधारित हैXजिसे हम पूर्ण रैंक मान लेते हैं, अर्थात हम मान लेते हैं कि कॉलम स्पेस पी-डायमेंशनल है। जैसा कि आपको याद होगा,

H=X(XTX)1X

यह दिखाया जा सकता है कि विकर्ण तत्व H बदला देना 0<Hii<1, i=1,,n, यह एक तरह से आलस्य का परिणाम है, और उन्हें भविष्यवक्ता अंतरिक्ष के केंद्रक से दूरी के रूप में व्याख्या किया जा सकता है। यह सच है क्योंकि लीवर के बीच एक-से-एक पत्राचार होता हैHiiऔर चौड़ी महालनोबिस दूरियां। छिपे हुए एक्सट्रपलेशन को स्पॉट करने का एक तरीका तो यह देखना होगा कि सेंट्रो से नया ऑब्सेक्शन कितना दूर है? यह नए विकर्ण तत्व की गणना करके किया जा सकता है। मैट्रिक्स गुणन के कुछ बुनियादी नियमों को याद करते हुए, हमारे पास है

Hnew,new=xnewT(XTX)1xnew

अगर Hnew,newबाकी विकर्ण तत्वों की तुलना में बहुत बड़ा है, तो यह आपको बताता है कि आपका नया अवलोकन केन्द्रक से काफी दूर है और भविष्यवाणी शायद एक जोखिम भरा कदम है। यह निर्णय लेने के लिए कुछ निर्णय लेते हैं कि तकनीक कितनी बड़ी है, इतनी बड़ी नहीं है। इसकी सुंदरता यह है कि यह सभी आयामों में काम करता है, जब आप एक साधारण स्कैटर प्लॉट को नहीं देख सकते।

मुझे यकीन नहीं है कि आप किस सॉफ्टवेयर का उपयोग कर रहे हैं, लेकिन उनमें से लगभग सभी सही कमांड के साथ हैट मैट्रिक्स वापस कर देंगे। इसलिए मेरा सुझाव है कि आप अपना मन बनाने से पहले एक नज़र डालें।


अच्छी तरह से किया जॉनके, यह बहुत मददगार है। FYI करें मैं एक्सेल रिग्रेशन का उपयोग कर रहा हूं।
जॉनसन जेसन

9

माध्य से दूरी के साथ भविष्यवाणी की त्रुटि द्विघात बढ़ जाती है। प्रतिगमन समीकरण और परिणाम आपको डेटा की देखी गई सीमा पर त्रुटि के आकार का अनुमान लगाने की अनुमति देते हैं, और मॉडल केवल उसी सीमा पर पर्याप्त है।

उस सीमा के बाहर बहुत सारी चीजें हो सकती हैं। सबसे पहले, भविष्यवाणी त्रुटि के बढ़ने के कारण पूर्वानुमान और बदतर हो जाता है।

दूसरा, मॉडल पूरी तरह से टूट सकता है। यह देखने का सबसे आसान तरीका है कि समय से संबंधित मॉडल से संबंधित प्रोजेक्ट करने का प्रयास करें: आप नकारात्मक समय के लिए भविष्यवाणियां नहीं कर सकते।

तीसरा, रैखिक संबंध अपर्याप्त हो सकता है। आपके उदाहरण में, लगभग निश्चित रूप से पैमाने की अर्थव्यवस्थाएं हैं, जो बहुत ही ध्यान देने योग्य बन जाती हैं यदि आप मनाया मूल्यों की सीमा के बाहर की भविष्यवाणी करने की कोशिश करते हैं।

इसी प्रभाव का एक विनोदी उदाहरण मार्क ट्वेन के कार्यों में से एक में दिखाई देता है , जहां वह समय के साथ मिसिसिपी नदी की लंबाई को मॉडल करने का प्रयास करता है --- यह काफी हवादार था और कुछ के क्षरण के कारण हर साल छोटा / एड हो गया था झुकता है और साथ ही मानव निर्मित शॉर्टकट --- और "भविष्यवाणी" है कि इतने सालों में काहिरा, इलिनोइस और न्यू ऑरलियन्स के बीच की दूरी लगभग एक मील और तीन चौथाई तक सिकुड़ गई होगी)।

अंत में, ध्यान दें कि यदि आपके पास एक से अधिक भविष्यवाणियां हैं, तो देखे गए मानों की सीमा काफी जटिल हो सकती है। (भविष्यवक्ताओं के बीच सहसंबंधों के कारण आप अक्सर प्रत्येक भविष्यवक्ता में अधिकतम और मिनिमा द्वारा परिभाषित बॉक्स नहीं ले सकते हैं।)


1
(+1) हालांकि यह कहना कि मॉडल केवल देखे गए डेटा की सीमा पर पर्याप्त है, थोड़ा मजबूत है - यह है कि आपके द्वारा बताई गई समस्याएं इससे दूर होने के संबंध में अधिक और अधिक हो जाती हैं।
Scortchi - को पुनः स्थापित मोनिका

तो क्या देखा गया डेटा रेंज से दूर जाने के लिए एक सुरक्षित दूरी के आसपास कोई काम है? 1 मानक से कम विचलन ठीक है?
जॉनसन जेसन

1
@Scortchi। मुद्दा लेना। ज्यादातर स्थितियों में मॉडल का क्षरण धीरे-धीरे होता है। हालांकि, कभी-कभी हैं कठिन सीमाओं, और उन कारण दु: ख हो रहा है से परे जाने की कोशिश कर रहा।
user3697176

1
@ जॉनसनसन: अंगूठे के नियम की तलाश करने में कोई समझदारी नहीं है। आप आसानी से भविष्यवाणी अंतराल की गणना कर सकते हैं, यह मानते हुए कि आपका मॉडल अतिरिक्त हो सकता है; जिस हद तक आप एक्सट्रपलेशन पर भरोसा कर सकते हैं वह विषय वस्तु ज्ञान पर निर्भर करता है: जो स्वीकार्य है वह केस से मामले में भिन्न होता है।
Scortchi - को पुनः स्थापित मोनिका

1
उत्कृष्ट अंक (+1)। लेकिन नकारात्मक समय के लिए कीमत की भविष्यवाणी करने में कोई तार्किक समस्या नहीं है। असली समस्या यह है कि यदि आप कुछ समय के लिए नकारात्मक मूल्य की भविष्यवाणी करते हैं (आमतौर पर अतीत में, व्यवहार में)। अक्सर इसका मतलब है कि मॉडल गुणात्मक रूप से गलत है जितना कि एक्सट्रपलेशन एक लाइन (या वक्र) को बहुत दूर खींच रहा है। उदाहरण के लिए एक लॉगरिदमिक लिंक फ़ंक्शन हमेशा सकारात्मक भविष्यवाणियों का अर्थ है।
निक कॉक्स

4

आप उन क्षेत्रों के लिए डेटा चालित निर्णय नहीं कर सकते, जहाँ आपके पास डेटा नहीं है। कहानी का अंत। डेटा बहुत अच्छी तरह से एक रेखीय आकार का समर्थन कर सकता है जिसके लिए आपका डेटा एकत्र किया जाता है लेकिन आपके पास डेटा-चालित कारण नहीं हैं यह मानने के लिए कि यह आकार आपकी सीमा के बाहर रैखिक होना जारी है। यह सूर्य के नीचे कोई भी आकार हो सकता है!

आप मान सकते हैं कि आपकी डेटा श्रेणी के बाहर रैखिक आकार जारी है लेकिन यह एक व्यक्तिपरक धारणा है जो आपके द्वारा एकत्र किए गए डेटा द्वारा समर्थित नहीं है। मैं उनके विषय वस्तु विशेषज्ञता के आधार पर यह देखने के लिए विषय विशेषज्ञ से परामर्श करने का सुझाव दूंगा कि यह धारणा कितनी सुरक्षित है।


2
तो क्या हम वास्तव में प्रतिगमन करने की बात कर रहे हैं यदि हम Y की अनिर्दिष्ट X के लिए भविष्यवाणी नहीं कर सकते हैं
जॉनसन जेसन

2
मुझे लगता है कि बिंदु यह है कि आप अभी भी सीमा के अंदर की भविष्यवाणी कर सकते हैं, यह सीमा के बाहर की भविष्यवाणी करना उचित नहीं है। संभवत: सबसे नए डेटा पॉइंट रेंज के अंदर होंगे, इसलिए मॉडल उस समय के विशाल बहुमत के लिए उपयोगी रहेगा
रयान जोटी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.