मिसकैरेज के तहत सांख्यिकीय इंजेक्शन


14

सांख्यिकीय अनुमान के शास्त्रीय उपचार इस धारणा पर निर्भर करते हैं कि सही ढंग से निर्दिष्ट सांख्यिकीय का उपयोग किया जाता है। यह है कि, वितरण कि मनाया डेटा उत्पन्न सांख्यिकीय मॉडल का हिस्सा है एम : पी * ( Y ) एम = { पी θ ( वाई ) : θ Θ } हालांकि, ज्यादातर स्थितियों में हम यह नहीं मान सकते कि यह वास्तव में सच है। मुझे आश्चर्य है कि अगर हम सही ढंग से निर्दिष्ट धारणा को छोड़ते हैं तो सांख्यिकीय निष्कर्ष प्रक्रियाओं के साथ क्या होता है।P(Y)yM

P(Y)M={Pθ(Y):θΘ}

पी *

Pθ1=argminPθMKL(P,Pθ)
P

क्या होता है आत्मविश्वास सेट अनुमानक? विश्वास सेट अनुमानकर्ताओं को पुन: निर्धारित करें। Let एक निर्धारित अनुमानक है, जहां नमूना स्थान है और 2 ^ \ Theta पैरामीटर स्पेस \ Theta पर सेट शक्ति है । हम यह जानना चाहेंगे कि इस घटना की संभावना क्या है कि \ डेल्टा द्वारा निर्मित सेटों में वास्तविक वितरण \ _ मैथ्यू {{}} ^ शामिल है , वह है \ _ \ {P_ \ theta: \ theta \ in \ delta (Y) \}): = ए।Ω वाई 2 Θ Θ δ पी * पी * ( पी *{ पी θ : θ δ ( वाई ) } ) : = एक δ:ΩY2ΘΩY2ΘΘδP

P(P{Pθ:θδ(Y)}):=A.

हालांकि, हम निश्चित रूप से सही वितरण नहीं जानते हैं । सही ढंग से निर्दिष्ट धारणा हमें बताती है कि । हालाँकि, हम अभी भी नहीं जानते कि यह किस मॉडल का वितरण है। लेकिन, संभाव्यता लिए एक कम बाध्य है । समीकरण एक विश्वास सेट अनुमानक के लिए विश्वास स्तर का शास्त्रीय बचाव है।पी * एमPPM

infθΘPθ(θδ(Y)):=B
AB

यदि हम सही ढंग से निर्दिष्ट धारणा को छोड़ देते हैं, तो आवश्यक रूप से के लिए कम बाध्य नहीं है , जिस शब्द में हम वास्तव में रुचि रखते हैं, अब और नहीं। वास्तव में, यदि हम मानते हैं कि मॉडल गलत है, जो कि अधिकांश यथार्थवादी स्थितियों के लिए निश्चित रूप से मामला है, तो 0 है, क्योंकि सही वितरण सांख्यिकीय मॉडल भीतर निहित नहीं है ।BAAPM

दूसरे दृष्टिकोण से कोई सोच सकता है कि मॉडल के गलत होने पर क्या संबंध है। यह एक अधिक विशिष्ट प्रश्न है। क्या अभी भी एक अर्थ है, अगर मॉडल गलत है। यदि नहीं, तो हम पैरामीट्रिक आँकड़ों से भी क्यों परेशान हैं?BB

मुझे लगता है कि व्हाइट 1982 में इन मुद्दों पर कुछ परिणाम हैं। दुर्भाग्य से, गणितीय पृष्ठभूमि की मेरी कमी मुझे बहुत कुछ समझने से रोकती है जो वहां लिखा गया है।


1
मुझे यह प्रश्न + उत्तर आँकड़े.स्टैकएक्सचेंज . com /questions/ 149773 /… मिला । यह बहुत समान है। इन पुस्तकों को पढ़ने से शायद इस प्रश्न का उत्तर मिल जाएगा। हालाँकि, मुझे अभी भी लगता है कि किसी ऐसे व्यक्ति का सारांश जो पहले ही ऐसा कर चुका है, बहुत मददगार होगा।
जूलियन कार्ल्स

2
यह शर्म की बात है कि इस सवाल ने अधिक रुचि उत्पन्न नहीं की है - जूलियन द्वारा लिंक में कुछ अच्छी सामग्री है, लेकिन मैं इस मामले पर अधिक विचार सुनना चाहूंगा।
फ्लोरियन हार्टिग

1
आम तौर पर जो किया जाता है वह यह है कि परीक्षण सांख्यिकीय के वितरण की गणना शून्य परिकल्पना के तहत की जाती है, यह मानते हुए कि सांख्यिकीय मॉडल सही है। यदि पी - मान काफी कम है तो यह निष्कर्ष निकाला जाता है कि या तो यह संयोग के कारण है या कि अशक्त है। यदि मॉडल गलत है, लेकिन यह भी एक निष्कर्ष है कि तार्किक रूप से तैयार किया जा सकता है। एक ही सभी अन्य inferences के लिए रखती है: तथ्य यह है कि मॉडल गलत-निर्दिष्ट है एक वैकल्पिक निष्कर्ष प्रदान करता है। स्पानोस के काम को पढ़ने के आधार पर इसके बारे में मैं यही सोचता हूं।
टॉबी

अनिवार्य रूप से, सभी मॉडल गलत हैं। यह मात्रात्मक रूप से प्रक्षेपन को विकसित करने में मदद करता है। एक छवि के लिए, गलत वर्तनी गलत है। उदाहरण के लिए, गिनती की त्रुटि के लिए (जैसे, रेडियोधर्मी क्षय से) पर्याप्त संख्या में गिनती के लिए, त्रुटि पॉसों को वितरित की जाती है। उस स्थिति में, टाइम सीरीज़ का गलत चित्रण छवि के वर्गमूल की y- अक्ष त्रुटि है, और शोर उन्हीं इकाइयों में है। यहाँ उदाहरण है
कार्ल

जवाबों:


2

आज्ञा मनाया गया डेटा है जिसे iid यादृच्छिक चर अनुक्रम का अहसास दिया जाता है सामान्य संभावना घनत्व फ़ंक्शन के साथ एक सिग्मा-परिमित माप संबंध में परिभाषित किया गया है । घनत्व को डेटा जनरेटिंग प्रक्रिया (DGP) घनत्व कहा जाता है।y1,,ynY1,,Ynpeνpe

शोधकर्ता की संभाव्यता मॉडल में संभावना घनत्व कार्यों का एक संग्रह है जो एक पैरामीटर वेक्टर द्वारा अनुक्रमित किया जाता है । मान लें कि प्रत्येक घनत्व में एक सामान्य सिग्मा-परिमित माप संबंध में परिभाषित किया गया है (उदाहरण के लिए, प्रत्येक घनत्व समान नमूना स्थान साथ एक संभाव्यता द्रव्यमान समारोह हो सकता है )।M{p(y;θ):θΘ}θMνS

घनत्व रखना महत्वपूर्ण है जो वास्तव में डेटा की संभावना मॉडल से वैचारिक रूप से अलग डेटा उत्पन्न करता है। क्लासिक सांख्यिकीय उपचारों में इन अवधारणाओं का सावधानीपूर्वक पृथक्करण या तो अनदेखा किया जाता है, बनाया नहीं जाता है, या यह शुरुआत से ही सही माना जाता है कि संभावना मॉडल को सही ढंग से निर्दिष्ट किया गया है।pe

संबंध में एक सही ढंग से निर्दिष्ट मॉडल को एक ऐसे मॉडल के रूप में परिभाषित किया गया है जहां -almost हर जगह है। जब को p_e के संबंध में यह उस मामले से मेल खाता है जहां संभावना मॉडल सही ढंग से निर्दिष्ट नहीं है।MpepeM νMpe

यदि संभाव्यता मॉडल को सही ढंग से निर्दिष्ट किया गया है, तो पैरामीटर स्पेस में एक मौजूद है जैसे कि -almost हर जगह। इस तरह के एक पैरामीटर वेक्टर को "सही पैरामीटर वेक्टर" कहा जाता है। यदि संभावना मॉडल गलत है, तो सही पैरामीटर वेक्टर मौजूद नहीं है।θΘpe(y)=p(y;θ) ν

व्हाइट के मॉडल गलत निर्धारण ढांचे के भीतर लक्ष्य को पैरामीटर अनुमान लगता है, जो कुछ कॉम्पैक्ट पैरामीटर space । यह माना जाता है कि एक अद्वितीय सख्त वैश्विक minimizer, , की उम्मीद मूल्य के पर के भीतरी इलाकों में स्थित है । भाग्यशाली मामले में जहां संभावना मॉडल को सही ढंग से निर्दिष्ट किया गया है, " की व्याख्या "सच्चे पैरामीटर मान" के रूप में की जा सकती है।θ^n n(θ)(1/n)Σ n मैं = 1 लॉगपी(yमैं;θ)Θθ * nΘΘθ*^n(θ)(1/n)i=1nlogp(yi;θ)Θθ^nΘΘθ

विशेष मामले में जहां संभावना मॉडल को सही ढंग से निर्दिष्ट किया गया है, तो परिचित अधिकतम संभावना अनुमान है। यदि हमें पूर्ण ज्ञान नहीं है कि संभाव्यता मॉडल को सही ढंग से निर्दिष्ट किया गया है, तो को अर्ध-अधिकतम संभावना अनुमान कहा जाता है और लक्ष्य का अनुमान लगाना है । यदि हम भाग्यशाली हो जाते हैं और संभावना मॉडल को सही ढंग से निर्दिष्ट किया जाता है, तो अर्ध-अधिकतम संभावना अनुमान कम हो जाता है एक विशेष मामले के रूप में परिचित अधिकतम संभावना अनुमान और सही पैरामीटर मान बन जाता है।θ^n θ एनθ*θ*θ^nθθ

व्हाइट (1982) के ढांचे के भीतर संगति अभिसरण से मेल खाती है, जो कि उस को आवश्यक किए बिना आवश्यक रूप से सही पैरामीटर वेक्टर है। व्हाइट के ढांचे के भीतर, हम कभी भी इस घटना की संभावना का अनुमान नहीं लगा सकते हैं कि produced द्वारा उत्पादित सेट में TRUE वितरण P * शामिल है। इसके बजाय, हम हमेशा संभावना वितरण P ** का अनुमान लगाएंगे जो कि इस घटना की संभावना है कि would द्वारा निर्मित सेटों में घनत्व द्वारा निर्दिष्ट वितरण शामिल है ।θθp(y;θ)

अंत में, मॉडल मिसकैपिफिकेशन के बारे में कुछ टिप्पणियां। ऐसे उदाहरणों को ढूंढना आसान है जहां एक गलत ढंग से बनाया गया मॉडल बेहद उपयोगी और बहुत भविष्य कहनेवाला हो। उदाहरण के लिए, गॉसियन अवशिष्ट त्रुटि शब्द के साथ एक ग़ैर-रेखीय (या एक रेखीय) प्रतिगमन मॉडल पर विचार करें, जिसका विचरण अत्यंत छोटा है फिर भी वातावरण में वास्तविक अवशिष्ट त्रुटि गौसियन नहीं है।

ऐसे उदाहरणों को ढूंढना भी आसान है जहां एक सही ढंग से निर्दिष्ट मॉडल उपयोगी नहीं है और पूर्वानुमान नहीं है। उदाहरण के लिए, स्टॉक की कीमतों की भविष्यवाणी करने के लिए एक यादृच्छिक वॉक मॉडल पर विचार करें, जो कल के समापन मूल्य की भविष्यवाणी करता है, आज के समापन मूल्य का एक भारित योग है और एक बहुत बड़े विचरण के साथ कुछ गॉसियन शोर है।

मॉडल प्रक्षेपी ढांचे का उद्देश्य मॉडल वैधता सुनिश्चित करने के लिए नहीं है, बल्कि विश्वसनीयता सुनिश्चित करने के लिए है। यही है, यह सुनिश्चित करें कि आपके पैरामीटर अनुमान, आत्मविश्वास अंतराल, परिकल्पना परीक्षण, और इसी तरह से जुड़े नमूना त्रुटि त्रुटि या तो मॉडल प्रक्षेपन की एक छोटी या बड़ी मात्रा की उपस्थिति के बावजूद सही ढंग से अनुमान लगाया गया है। अर्ध-अधिकतम संभावना अनुमान समान रूप से सामान्य रूप से पर केंद्रित होते हैं, एक सहसंयोजक मैट्रिक्स अनुमानक के साथ, जो नकारात्मक लॉग-लिबिलिटी फ़ंक्शन के पहले और दूसरे दोनों डेरिवेटिव पर निर्भर करता है। विशेष मामले में जहां आप भाग्यशाली हैं और मॉडल सही है तो सभी सूत्र परिचित शास्त्रीय सांख्यिकीय ढांचे में कम हो जाते हैं जहां लक्ष्य "सच्चे" पैरामीटर मानों का अनुमान लगाना है।θ


3

ΘMPθ1PMPθ1

Aबीपी*A=0

AA(Y)P(Pθ1{Pθ|θδ(Y)}).

PMPMPθ1M

Pθ1δAn। यदि आप एक (पॉजिटिव) लोअर बाउंड या पॉजिटिव (पॉजिटिव) कंवर्जन रिजल्ट स्थापित कर सकते हैं, तो यह आपको गारंटी देता है कि मिसकैरेज होने पर भी आप कुछ संभावना स्तर के साथ निकटतम प्रॉक्सी का सही अनुमान लगाते हैं। मैं अनुशंसा करूंगा कि आप व्हाइट द्वारा किए गए विश्लेषण के बाद उन मुद्दों का पता लगाएं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.