क्या हम भविष्यवाणी अंतराल के साथ संभाव्य बयान कर सकते हैं?


12

मैंने विश्वास अंतराल और भविष्यवाणी अंतराल की व्याख्या के बारे में साइट पर कई उत्कृष्ट चर्चाओं के माध्यम से पढ़ा है, लेकिन एक अवधारणा अभी भी थोड़ी उलझन में है:

OLS ढांचे पर विचार करें और हम फिट मॉडल प्राप्त कर लिया है y = एक्स β । हमें एक x दिया गया है और इसकी प्रतिक्रिया की भविष्यवाणी करने के लिए कहा गया है। हम गणना एक्स * टी β और, एक बोनस के रूप में, हम भी हमारे भविष्यवाणी के चारों ओर एक 95% भविष्यवाणी अंतराल प्रदान करते हैं एक ला एक रेखीय मॉडल में भविष्यवाणी की सीमा के लिए एक सूत्र प्राप्त करने । आइए इस भविष्यवाणी को अंतराल पीआई कहते हैं।y^=Xβ^xxTβ^

अब, पीआई की सही व्याख्या निम्नलिखित में से कौन सी (या न ही) है?

  1. के लिए विशेष रूप से, y ( एक्स * ) झूठ 95% संभावना के साथ पीआई के भीतर।xy(x)
  2. यदि हमें बड़ी संख्या में s दिया जाता है , तो PI की गणना करने की यह प्रक्रिया 95% समय तक सही प्रतिक्रियाओं को कवर करेगी।x

रेखीय प्रतिगमन पूर्वधारणा अंतराल में @ गंग के शब्दांकन से , ऐसा लगता है कि पूर्व सच है (हालांकि मैं बहुत अच्छी तरह से गलत व्याख्या कर सकता हूं।) व्याख्या 1 मुझे प्रतिवादपूर्ण लगता है (इस अर्थ में कि हम बार-बार विश्लेषण से बेवियन निष्कर्ष निकाल रहे हैं)। अगर यह सही है, यह है क्योंकि हम कर रहे हैं की भविष्यवाणी एक की प्राप्ति यादृच्छिक चर बनाम का आकलन एक पैरामीटर ?

(संपादित करें) बोनस प्रश्न: मान लीजिए कि हमें पता था कि सच क्या , प्रक्रिया डेटा उत्पन्न कर रहा है यानी, तो हम, किसी विशेष भविष्यवाणी के बारे में संभावनाओं के बारे में बात करते हैं सक्षम हो जाएगा के बाद से हम सिर्फ देख रहे हैं ε ?βϵ

इस पर मेरा नवीनतम प्रयास: हम "वैचारिक रूप से विघटित" (बहुत शिथिल शब्द का उपयोग करते हुए) एक पूर्वानुमान अंतराल को दो भागों में कर सकते हैं: (ए) पूर्वानुमानित प्रतिक्रिया प्रतिक्रिया के आसपास एक विश्वास अंतराल, और (बी) अंतरालों का एक संग्रह जो केवल मात्रात्मक है। त्रुटि अवधि की श्रेणियाँ। (बी) हम वास्तविक पूर्वानुमानित अर्थ जानने पर सशर्त बयान कर सकते हैं, लेकिन समग्र रूप से, हम केवल पूर्वानुमान अंतरालों का अनुमान लगा सकते हैं क्योंकि पूर्वानुमानित मूल्यों के आसपास लगातार सीआईएस होते हैं। क्या यह कुछ हद तक सही है?


मैंने जो जवाब दिया है, वह आँकड़े .stackexchange.com / a / 26704 पर लिखा है कि ऐसा कुछ (2) मामला है (बड़ी संख्या के नियमों के अनुसार) लेकिन निश्चित रूप से नहीं (1)।
whuber

जवाबों:


5

सबसे पहले, प्रायिकता शब्द के उपयोग पर, फ़्रीवेटर्स के पास प्रायिकता शब्द का उपयोग करने में कोई समस्या नहीं होती है जब किसी चीज़ की भविष्यवाणी की जाती है जहां यादृच्छिक टुकड़ा अभी तक नहीं हुआ है। हम एक विश्वास अंतराल के लिए शब्द संभावना को पसंद नहीं करते हैं क्योंकि सच्चा पैरामीटर नहीं बदल रहा है (हम मान रहे हैं कि यह एक निश्चित, हालांकि अज्ञात, मूल्य है) और अंतराल तय हो गया है क्योंकि यह डेटा पर आधारित है जिसे हमने पहले ही एकत्र किया है। उदाहरण के लिए यदि हमारा डेटा वयस्क पुरुष मनुष्यों के यादृच्छिक नमूने से आता है और x उनकी ऊंचाई है और y उनका वजन है और हम सामान्य प्रतिगमन मॉडल फिट करते हैं तो हम आत्मविश्वास के अंतराल के बारे में बात करते समय संभाव्यता का उपयोग नहीं करते हैं। लेकिन अगर मैं इस बारे में बात करना चाहता हूं कि 65 इंच लम्बे पुरुष को सभी 65 इंच लम्बे पुरुषों में से एक निश्चित अंतराल के भीतर वजन होने पर यादृच्छिक रूप से चुने जाने की संभावना क्या है,

इसलिए मैं कहूंगा कि बोनस प्रश्न का उत्तर "हां" है। यदि हम पर्याप्त जानकारी जानते थे, तो हम एक अंतराल के भीतर आयु मान को देखने की संभावना की गणना कर सकते हैं (या वांछित संभावना के साथ एक अंतराल पाते हैं)।

"1." लेबल वाले आपके कथन के लिए मैं कहूंगा कि जब आप अंतराल या संभाव्यता के बारे में बात करते हैं तो यह "अनुमानित" जैसे शब्द का उपयोग करना ठीक है। जैसा कि आप बोनस प्रश्न में उल्लेख करते हैं, हम भविष्यवाणी के केंद्र के बारे में अनिश्चितता और सही अर्थ के आसपास यादृच्छिकता के बारे में एक टुकड़े में विघटित कर सकते हैं। जब हम अपनी सभी अनिश्चितता को कवर करने के लिए इन्हें जोड़ते हैं (और यह मानते हुए कि हमारे पास मॉडल / सामान्यता सही है) तो हमारे पास एक अंतराल है जो बहुत अधिक चौड़ा हो जाएगा (हालांकि बहुत संकीर्ण भी हो सकता है), इसलिए नए यादृच्छिक रूप से चुने गए बिंदु की संभावना भविष्यवाणी अंतराल में गिरना ठीक 95% नहीं है। आप इसे सिमुलेशन द्वारा देख सकते हैं। सभी ज्ञात मापदंडों के साथ एक ज्ञात प्रतिगमन मॉडल के साथ शुरू करें। इस संबंध से एक नमूना (कई x मानों में) चुनें, एक प्रतिगमन फिट करें, और पूर्वानुमान अंतराल की गणना करें। अब सच्चे मॉडल से फिर से बड़ी संख्या में नए डेटा बिंदु उत्पन्न करते हैं और उनकी तुलना भविष्यवाणी अंतराल से करते हैं। मैंने निम्न R कोड का उपयोग करते हुए यह कुछ बार किया:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

मैंने उपरोक्त कोड कुछ बार (लगभग 10 के आसपास, लेकिन मैंने सावधानीपूर्वक गिनती नहीं रखी) और अधिकांश समय अंतराल में गिरने वाले नए मूल्यों का अनुपात 96% से 98% सीमा तक था। मेरे पास एक मामला था जहां अनुमानित मानक विचलन बहुत कम था कि अनुपात 93% से 94% सीमा में थे, लेकिन बाकी सभी 95% से ऊपर थे। इसलिए मैं आपके कथन 1 से "लगभग 95%" परिवर्तन के साथ खुश रहूंगा (सभी मान्यताओं को सही मानते हुए, या लगभग कवर होने के लिए पर्याप्त है)।

इसी तरह, स्टेटमेंट 2 को "लगभग" या समान होने की आवश्यकता है, क्योंकि हमारी अनिश्चितता को कवर करने के लिए हम 95% से अधिक औसत पर कब्जा कर रहे हैं।


0

दूसरा बेहतर है। पहला इस बात पर निर्भर करता है कि अन्य जानकारी क्या है।

एक यादृच्छिक उदाहरण का उपयोग करना, यह सच है कि "95% अंतराल (95% आत्मविश्वास पर) में [सम्मिलित चर] का सही अर्थ शामिल होगा"।

दूसरी ओर, यदि परिणाम स्पष्ट रूप से प्रति-सहज है, तो हम (1) जोर नहीं दे सकते।

जैसे, "95% आत्मविश्वास में मेरा महत्व परीक्षण दर्शाता है कि ऊंचाई और वजन नकारात्मक रूप से सहसंबद्ध हैं"। खैर यह स्पष्ट रूप से गलत है, और हम यह नहीं कह सकते कि "95% संभावना है कि यह सच है"। वास्तव में, पूर्व ज्ञान को ध्यान में रखते हुए, बहुत कम संभावना है कि यह सच है। हालाँकि, यह कहना मान्य है कि "ऐसे परीक्षणों में से 95% ने सही परिणाम प्राप्त किया होगा ।"


1
यह उत्तर भविष्यवाणी अंतराल के बजाय आत्मविश्वास अंतराल पर चर्चा करने के लिए लगता है।
whuber

@whuber वही सिद्धांत लागू होता है। हम अनिवार्य रूप से एक निश्चित चर ("अनुमानित" चर) के लिए आत्मविश्वास अंतराल से निपट रहे हैं।

2
एक निश्चित मान (एक पैरामीटर की तरह) और एक यादृच्छिक चर के मूल्य के बीच एक महत्वपूर्ण अंतर है। इसके अलावा, वर्तमान प्रश्न का दिल इस अंतर के लिए मिलता है: उस ("भविष्य") की यादृच्छिक परिणाम की संभावना के बारे में क्या कहा जा सकता है? इसलिए यह अपर्याप्त प्रतीत होता है - और संभवतः भ्रामक - इस प्रश्न को केवल विश्वास के अर्थ के रूप में एक होने के लिए।
whuber

@whuber पोस्ट में कथन (2) अभी भी स्टेटमेंट नहीं देता है (1)। मेरे उदाहरण के रूप में, एक भविष्यवाणी जो स्पष्ट अंतर्ज्ञान / पृष्ठभूमि ज्ञान के खिलाफ गई थी, यह अनुमान नहीं लगाएगा कि भविष्य के परिणामों में पीआई में गिरने की 95% संभावना है। यह सच है कि प्रक्रिया, 95% समय, पीआई को भविष्य के परिणाम देगा। लेकिन कभी-कभी यह पता लगाना संभव है कि यह कब हुआ है या नहीं हुआ है।

आप सही हैं, लेकिन अगर मैं आपकी टिप्पणी को सही ढंग से पढ़ रहा हूं तो मुझे संदेह है कि यह बात याद आती है। मुद्दा यह नहीं है कि (डिजाइन द्वारा) एक पीआई के पास भविष्य के मूल्य को कवर करने का केवल 95% मौका है या अतिरिक्त डेटा (या अंतर्ज्ञान) अधिक जानकारी दे सकता है। हमारे सामने मामला यह है कि क्या पीआई को भविष्य के मूल्य (प्रतिगमन मूल्यों के आधार पर) के लिए एक सशर्त संभावना के रूप में व्याख्या की जा सकती है। यही कारण है कि वास्तव में एक की व्याख्या है Bayes पीआई, ओपी नोटों के रूप में, लेकिन यह एक frequentist पीआई के लिए अमान्य है।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.