मॉडल प्रक्षेपन के तहत सांख्यिकीय निष्कर्ष


9

मेरे पास एक सामान्य कार्यप्रणाली है। इसका उत्तर पहले दिया जा सकता था, लेकिन मैं संबंधित सूत्र का पता लगाने में सक्षम नहीं हूं। मैं संभावित डुप्लिकेट के लिए संकेत की सराहना करूंगा।

( यहाँ एक उत्कृष्ट एक है, लेकिन बिना उत्तर के। यह भी आत्मा में समान है, एक उत्तर के साथ भी, लेकिन उत्तरार्द्ध मेरे दृष्टिकोण से बहुत विशिष्ट है। यह भी करीब है, प्रश्न पोस्ट करने के बाद पता चला।)


विषय यह है कि डेटा को पर्याप्त रूप से वर्णन करने की प्रक्रिया को विफल करने से पहले मॉडल तैयार होने पर मान्य सांख्यिकीय निष्कर्ष कैसे करें । प्रश्न बहुत सामान्य है, लेकिन मैं इस बिंदु को स्पष्ट करने के लिए एक विशेष उदाहरण प्रस्तुत करूंगा। हालाँकि, मुझे उम्मीद है कि विशेष उदाहरण के विवरणों पर नाइटपिटिंग के बजाय सामान्य कार्यप्रणाली पर ध्यान केंद्रित करने के उत्तर।


एक ठोस उदाहरण पर विचार करें: एक समय श्रृंखला सेटिंग में, मैं डेटा बनाने की प्रक्रिया को साथ । मैं विषय-वस्तु की परिकल्पना का परीक्षण करने का लक्ष्य रखता हूं कि । मैंने इसे अपने विषय-वस्तु की परिकल्पना के एक व्यावहारिक सांख्यिकीय प्रतिरूप को प्राप्त करने के लिए मॉडल संदर्भ में लिया है, और यह अब तक सब ठीक है। लेकिन जब मैं डेटा का निरीक्षण करता हूं, तो मुझे पता चलता है कि मॉडल डेटा का पर्याप्त वर्णन नहीं करता है। आइए हम कहते हैं, एक रेखीय प्रवृत्ति होती है, ताकि सही डेटा पैदा करने की प्रक्रिया है के साथ

(1)yt=β0+β1xt+ut
uti.i.N(0,σu2)dydx=1(1)
H0: β1=1.
(2)yt=γ0+γ1xt+γ2t+vt
vti.i.N(0,σv2)

मैं अपनी विषय-वस्तु परिकल्पना पर वैध सांख्यिकीय निष्कर्ष कैसे कर सकता हूं ?dydx=1

  • यदि मैं मूल मॉडल का उपयोग करता हूं, तो इसकी धारणाओं का उल्लंघन होता है और के अनुमानक के पास इसका अच्छा वितरण नहीं होता है अन्यथा यह होता। इसलिए, मैं - टेस्ट का उपयोग करके परिकल्पना का परीक्षण नहीं कर सकता ।β1t

  • यदि डेटा देखा है, तो मैं मॉडल से स्विच करता हूं और अपनी सांख्यिकीय परिकल्पना को से , मॉडल धारणाएं संतुष्ट होती हैं और मैं की एक अच्छी तरह से व्यवहार आकलनकर्ता मिल और परीक्षण कर सकते हैं का उपयोग कर कोई कठिनाई के साथ -Test। हालाँकि, से स्विच करें(1)(2)H0: β1=1H0: γ1=1γ1H0t
    (1)(2)उस डेटा सेट से सूचित किया जाता है जिस पर मैं परिकल्पना का परीक्षण करना चाहता हूं। यह अंतर्निहित मॉडल में परिवर्तन पर अनुमानक वितरण (और इस प्रकार भी निष्कर्ष) सशर्त बनाता है, जो कि देखे गए डेटा के कारण होता है। स्पष्ट रूप से, ऐसे कंडीशनिंग की शुरूआत संतोषजनक नहीं है।

वहाँ एक अच्छा तरीका है? (यदि लगातार नहीं, तो शायद कुछ बायेसियन विकल्प?)


3
आपकी बेचैनी पीएचडी को पुरस्कृत करने के लिए क्लासिक दृष्टिकोण के लिए स्थानिक है: सावधान परिकल्पना विनिर्देश, एक अनुभवजन्य परीक्षण के बाद और वर्णनात्मक कारण निष्कर्ष के साथ समाप्त होता है। इस दुनिया में, संक्षिप्त जवाब है, "नहीं," कोई रास्ता नहीं है। हालाँकि, दुनिया उस सख्त प्रतिमान से दूर हो रही है। उदाहरण के लिए, एईआर में पिछले साल एक पेपर में , क्लेनबर्ग द्वारा भविष्यवाणी नीति की समस्याओं का शीर्षक , एट अल, वे डेटा माइनिंग और भविष्यवाणी के मामले को आर्थिक नीति बनाने में उपयोगी उपकरण के रूप में बनाते हैं, उदाहरणों का हवाला देते हुए जहां "कारण निष्कर्ष केंद्रीय नहीं है, या यहां तक ​​कि। ज़रूरी।" यह देखने लायक है।
माइक हंटर

2
मेरे विचार में, इसका सीधा उत्तर यह होगा कि कोई रास्ता नहीं है। अन्यथा, आप डेटा माइनिंग के सबसे खराब प्रकार के दोषी होंगे - डेटा को फिट करने के लिए परिकल्पना को फिर से भरना - एक सख्त, प्रतिमान दुनिया में एक पूंजी अपराध।
माइक हंटर

3
अगर मैं सही तरीके से समझूं, तो आप डेटा एकत्र कर रहे हैं, फिर एक मॉडल का चयन करें और फिर परिकल्पना का परीक्षण करें। मैं गलत हो सकता हूं, लेकिन यह मुझे लगता है कि टेलर और टिब्शीरानी (अन्य लोगों के बीच) द्वारा चयनित चयनात्मक प्रतिमान प्रतिमान आपकी समस्या से संबंधित हो सकते हैं। अन्यथा, इस प्रश्न के टिप्पणियाँ, उत्तर और लिंक किए गए उत्तर रूचि के हो सकते हैं।
डेल्टिव

3
@DeltaIV, अर्थात्, जब हम निष्कर्ष निकाल रहे हैं, मैं पी-संगति के तहत कम से कम झूठे मापदंडों में दिलचस्पी नहीं रखता हूं , बल्कि मैं सच्चे लोगों में दिलचस्पी रखता हूं ( wrt का सही आंशिक व्युत्पन्न )। yx
रिचर्ड हार्डी

3
@RichardHardy, निश्चित रूप से, एक स्टैंट्स ग्रेड छात्र होने के बावजूद मैं वास्तव में अब और विश्वास नहीं करता हूं। यह कार्डों का घर इतना नाजुक है कि यह स्पष्ट नहीं है कि यह बहुत सख्त और नियंत्रित परिस्थितियों को छोड़कर सभी पर सार्थक है या नहीं। क्या मज़ेदार है यह सभी को पता है, लेकिन कोई भी (अच्छी तरह से) परवाह नहीं करता है।
हेजसेब

जवाबों:


3

बाहर का रास्ता वस्तुतः नमूना परीक्षण से बाहर है, एक सच्चा। वह नहीं जहां आप नमूना को प्रशिक्षण में विभाजित करते हैं और क्रॉसवैलिडेशन की तरह पकड़ते हैं, लेकिन सही भविष्यवाणी। यह प्राकृतिक विज्ञानों में बहुत अच्छा काम करता है। वास्तव में यह एकमात्र तरीका है जिससे यह काम करता है। आप कुछ डेटा पर एक सिद्धांत का निर्माण करते हैं, फिर आपको कुछ ऐसी भविष्यवाणी के साथ आने की उम्मीद है जो अभी तक नहीं देखी गई थी। जाहिर है, यह अधिकांश सामाजिक (तथाकथित) विज्ञान जैसे अर्थशास्त्र में काम नहीं करता है।

उद्योग में यह विज्ञान के रूप में काम करता है। उदाहरण के लिए, यदि ट्रेडिंग एल्गोरिथ्म काम नहीं करता है, तो आप पैसे खोने जा रहे हैं, अंततः, और फिर आप इसे छोड़ देते हैं। क्रॉस सत्यापन और प्रशिक्षण डेटा सेट का उपयोग बड़े पैमाने पर विकास में किया जाता है और एल्गोरिथ्म को तैनात करने का निर्णय लिया जाता है, लेकिन उत्पादन के बाद यह पैसा बनाने या खोने के बारे में है। बहुत ही सरल नमूना परीक्षण से बाहर।


क्या वह अनुमान लगाने में मदद करता है ? yx
रिचर्ड हार्डी

@ रिचर्डहार्डी, हाँ, आप नए डेटा पर उसी परिकल्पना का परीक्षण करते हैं। अगर यह धारण करता है तो आप अच्छे हैं। यदि आपका मॉडल गलत है, तो यह अंततः विफल होना चाहिए, मेरा मतलब है कि अन्य निदान भी हैं। आपको यह देखना चाहिए कि मॉडल नए डेटा के साथ काम नहीं कर रहा है।
अक्कल

ठीक है, तो यह मॉडल भवन के लिए एक नमूना में एक और नमूना परिकल्पना परीक्षण के लिए नमूना को विभाजित करने के अच्छे पुराने नुस्खे की तरह लगता है। मुझे उस विचार को पहले से ही ओपी में शामिल करना चाहिए था। किसी भी मामले में, यह एक ध्वनि रणनीति की तरह लगता है। उदाहरण के लिए, मैक्रोइकॉनॉमिक्स के साथ समस्या यह होगी कि एक ही मॉडल लगभग अनदेखी डेटा को अच्छी तरह से फिट नहीं करेगा (जैसा कि समय के साथ डेटा उत्पन्न करने की प्रक्रिया बदल रही है), इसलिए सटीक वही समस्या जो हम शुरू करते हैं वह बनी रहेगी। लेकिन यह एक उदाहरण है जहां मूल रूप से कोई भी विधि विफल हो जाती है, इसलिए यह उचित आलोचना नहीं है।
रिचर्ड हार्डी

इस बीच, पार के अनुभागीय डेटा सेटिंग में माइक्रोइकॉनॉमिक्स में यह काम कर सकता है। अभी के लिए +1। दूसरी ओर, एक बार जब कोई मॉडल सभी उपलब्ध डेटा के लिए फिट हो जाता है, तो यह समाधान काम नहीं करेगा। मुझे लगता है कि जब मैं सवाल लिख रहा था तो मैं यही सोच रहा था, और मैं उन उत्तरों की तलाश कर रहा हूं जो शीर्षक प्रश्न को संबोधित करते हैं: प्रक्षेपीकृत मॉडल से अनुमान।
रिचर्ड हार्डी

2
मुझे आपके विचार से सहानुभूति है। लेकिन चूंकि नमूना "पुराने" और "नए" में विभाजित होकर नए डेटा एकत्र करने के बराबर है, मुझे समझ नहीं आता कि आप दोनों के बीच बड़ा अंतर कहां है।
रिचर्ड हार्डी

1

आप एक "संयुक्त प्रक्रिया" को परिभाषित कर सकते हैं और इसकी विशेषताओं की जांच कर सकते हैं। मान लीजिए कि आप एक साधारण मॉडल से शुरू करते हैं और एक, दो या तीन से अधिक जटिल (या नॉनपैरेमेट्रिक) मॉडल के लिए अनुमति देते हैं ताकि साधारण मॉडल फिट न हो। आपको एक औपचारिक नियम निर्दिष्ट करने की आवश्यकता है जिसके अनुसार आप साधारण मॉडल को नहीं बल्कि दूसरों में से एक (और जो एक) को फिट करने का निर्णय लेते हैं। आपको सभी सम्मिलित मॉडल (पैरामीट्रिक या नॉनपैरेमेट्रिक) के तहत लागू की जाने वाली ब्याज की अपनी परिकल्पना के लिए परीक्षण करने की आवश्यकता है।

इस तरह के एक सेटअप के साथ आप विशेषताओं का अनुकरण कर सकते हैं, अर्थात, आपकी अशक्त परिकल्पना कितने प्रतिशत के साथ अंत में खारिज कर दी जाती है, यह सच है, और ब्याज के कई विचलन के मामले में। इसके अलावा, आप सभी शामिल मॉडलों से अनुकरण कर सकते हैं, और सशर्त स्तर और सशर्त शक्ति जैसी चीजों को देख सकते हैं, जो कि डेटा मॉडल X, Y, या Z से आया है, या यह देखते हुए कि मॉडल misspecification परीक्षण प्रक्रिया चयनित मॉडल X, Y, या Z है।

आप पा सकते हैं कि मॉडल का चयन इस मायने में बहुत नुकसान नहीं करता है कि प्राप्त स्तर अभी भी उस स्तर के बहुत करीब है जो आप बाद में थे, और शक्ति उत्कृष्ट नहीं है तो ठीक है। या आपको लग सकता है कि डेटा-निर्भर मॉडल चयन वास्तव में चीजों को खराब कर देता है; यह विवरण पर निर्भर करेगा (यदि आपकी मॉडल चयन प्रक्रिया बहुत विश्वसनीय है, तो संभावनाएं स्तर हैं और शक्ति बहुत दृढ़ता से प्रभावित नहीं होगी)।

अब यह एक मॉडल को निर्दिष्ट करने और फिर डेटा को देखने और "ओह, मुझे कोई और चाहिए" तय करने के समान नहीं है, लेकिन यह संभवतः उतना ही करीब है जितना आप जांच कर सकते हैं कि इस तरह के दृष्टिकोण की विशेषताएं क्या होंगी। यह तुच्छ नहीं है क्योंकि आपको इसे प्राप्त करने के लिए कई विकल्प बनाने की आवश्यकता है।

सामान्य टिप्पणी: मुझे लगता है कि लागू सांख्यिकीय पद्धति को "मान्य" और "अमान्य" में वर्गीकृत करना भ्रामक है। कुछ भी कभी भी 100% मान्य नहीं है क्योंकि मॉडल की धारणाएं कभी भी व्यवहार में ठीक नहीं होती हैं। दूसरी ओर, हालांकि आप कुछ "अमान्य" कहने के लिए वैध (!) कारण पा सकते हैं, यदि कोई गहराई से कथित अमान्य दृष्टिकोण की विशेषताओं की जांच करता है, तो कोई यह पता लगा सकता है कि यह अभी भी काफी अच्छी तरह से काम करता है।


मुझे आश्चर्य है कि अगर यह समस्याओं के सरलतम से अलग व्यवहार में यथार्थवादी है। सिमुलेशन की कम्प्यूटेशनल लागत ज्यादातर मामलों में हमारी क्षमताओं से अधिक होगी, क्या आपको ऐसा नहीं लगता है? वैधता पर आपकी टिप्पणी निश्चित रूप से तार्किक है। हालांकि, इस सरल अभी तक उपयोगी (हमारे तर्क का समर्थन करने के लिए) धारणा के बिना हम इससे कहीं अधिक खो जाएंगे, जितना कि हम इसके साथ हैं - यह मेरा दृष्टिकोण है।
रिचर्ड हार्डी

मैं यह नहीं कह रहा हूं कि यह हर बार किया जाना चाहिए जब ऐसी स्थिति व्यवहार में मिलती है। बल्कि यह एक शोध परियोजना है; हालांकि एक संदेश दूर ले जाता है कि मेरी राय में, दिए गए कारणों के लिए, डेटा आश्रित मॉडल का चयन बिल्कुल अमान्य नहीं है जो अन्यथा मान्य होता। इस तरह की संयुक्त प्रक्रिया कई स्थितियों में अच्छी तरह से काम कर सकती है, हालांकि वर्तमान में इसकी ठीक से जांच नहीं की गई है।
लेविन

मुझे लगता है कि अगर यह संभव था, तो यह पहले से ही उपयोग में होगा। बड़ी समस्या मॉडलिंग विकल्पों की बड़ी मात्रा के कारण हो सकती है जो डेटा पर निर्भर हैं (मेरी पहली टिप्पणी पर वापस)। या आपको वहां कोई समस्या नहीं दिख रही है?
रिचर्ड हार्डी

साहित्‍य परीक्षण / मॉडल चयन की खोज करने वाले साहित्य में पहले से विषम अनुकरण है और उसके परिणाम पर पैरामीट्रिक अनुमान। जहाँ तक मुझे पता है परिणाम मिश्रित हैं। एक "शास्त्रीय" उदाहरण यहाँ है: tandfonline.com/doi/abs/10.1080/…
Lewian

लेकिन तुम सही हो; सभी प्रकार के संभावित मॉडलिंग विकल्पों के साथ पूरी प्रक्रिया को मॉडलिंग करने के लिए बहुत सारे विकल्पों की आवश्यकता होगी। मुझे अभी भी लगता है कि यह एक सार्थक परियोजना होगी, हालांकि ऐसा कुछ नहीं है जो किसी से भी मांग कर सकता है जब मॉडल को उसी डेटा से चुना जाता है जिसमें वे फिट होते हैं। Aris Spanos जिस तरह से इस विचार के खिलाफ तर्क देता है कि डेटा पर गलत परीक्षण या मॉडल की जांच, अनुमान को अमान्य बना देती है। onlinelibrary.wiley.com/doi/abs/10.1111/joes.12200
लेविन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.