क्या मॉडल सही नहीं है, भले ही MLE का आकलन समान रूप से सामान्य और कुशल हो?


13

परिसर: यह एक मूर्खतापूर्ण प्रश्न हो सकता है। मैं केवल MLE असममित गुणों के बारे में कथन जानता हूं, लेकिन मैंने कभी प्रमाणों का अध्ययन नहीं किया। अगर मैंने किया, तो शायद मैं ये सवाल पूछ रहा हूँ, या शायद मुझे एहसास होगा कि इन सवालों से कोई मतलब नहीं है ... तो कृपया मेरे लिए आसान करें :)

मैंने अक्सर ऐसे बयान देखे हैं जो कहते हैं कि एक मॉडल के मापदंडों का MLE अनुमानक असमान रूप से सामान्य और कुशल है। बयान आमतौर पर के रूप में लिखा जाता है

एनθ^dN(θ0,I(θ0)1) कोN

जहाँ नमूनों की संख्या है, फिशर जानकारी है और पैरामीटर (वेक्टर) सही मूल्य है । अब, चूंकि एक सच्चे मॉडल का संदर्भ है, तो क्या इसका मतलब यह है कि परिणाम सही नहीं होगा यदि मॉडल सही नहीं है?I θ 0NIθ0

उदाहरण: मान लीजिए कि मैं एक पवन टरबाइन से हवा की गति प्लस योज्य गाऊसी शोर के एक मॉडल के रूप में मॉडल उत्पादन करता हूं वीPV

P=β0+β1V+β2V2+ϵ

मुझे पता है कि मॉडल गलत है, कम से कम दो कारणों से: 1) वास्तव में और 2 की तीसरी शक्ति के आनुपातिक है ) त्रुटि एडिटिव नहीं है, क्योंकि मैंने अन्य भविष्यवक्ताओं की उपेक्षा की है जो हवा की गति के साथ असंबंधित नहीं हैं (मुझे नहीं पता है) वह 0 होना चाहिए क्योंकि 0 हवा की गति पर कोई शक्ति उत्पन्न नहीं होती है, लेकिन यह यहां प्रासंगिक नहीं है)। अब, मान लीजिए कि मेरे पास पवन टरबाइन से बिजली और हवा की गति डेटा का एक अनंत डेटाबेस है। मैं जितने भी आकार के, जितने भी नमूने ले सकता हूं, उन्हें आकर्षित कर सकता हूं। मान लीजिए कि मैं 1000 नमूने खींचता हूं, प्रत्येक का आकार 100 है, और गणना \ _ {सुनार {{बीटा}}} {{100} , \ _ \ _ \ _ \ _ } = (\ बीटा_0, \ बीटा_1, \ बीटा_2) का MLE अनुमानवी β 0PVβ0β^100β=(β0,β1,β2)(जो मेरे मॉडल के तहत सिर्फ ओएलएस अनुमान होगा)। इस प्रकार मेरे पास \ _ {सुनार {{बीटा}} _ {100} के वितरण से 1000 नमूने हैं β^100। मैं एन = 500,1000,1500, डॉट्स के साथ अभ्यास दोहरा सकता हूं N=500,1000,1500,। के रूप में N , \ _ \ _ सुनार {\ Beta}} का वितरण होना चाहिए, _ {N}β^N बताए गए माध्य और विचरण के साथ असमान रूप से सामान्य होते हैं? या क्या यह तथ्य कि मॉडल गलत है इस परिणाम को अमान्य करता है?

कारण मैं पूछ रहा हूँ कि शायद ही कभी (यदि कभी) मॉडल अनुप्रयोगों में "सच" हैं। यदि मॉडल के सत्य नहीं होने पर MLE की स्पर्शोन्मुख गुण खो जाते हैं, तो यह अलग-अलग अनुमान सिद्धांतों का उपयोग करने के लिए समझ में आता है, जो कि सेटिंग में कम शक्तिशाली होता है जहां मॉडल सही होता है, अन्य मामलों में MLE से बेहतर प्रदर्शन कर सकता है।

EDIT : टिप्पणियों में यह नोट किया गया था कि सच्चे मॉडल की धारणा समस्याग्रस्त हो सकती है। मेरे मन में निम्नलिखित परिभाषा थी: मॉडल का एक परिवार दिया गया पैरामीटर वेक्टर द्वारा , परिवार में प्रत्येक मॉडल के लिए आप हमेशा लिख ​​सकते हैं fθ(x)θ

Y=fθ(X)+ϵ

बस रूप में को परिभाषित करके । हालांकि, सामान्य तौर पर त्रुटि लिए ओर्थोगोनल नहीं होगी , इसका मतलब 0 है, और यह आवश्यक रूप से वितरण को मॉडल की व्युत्पत्ति में ग्रहण नहीं करेगा। यदि कोई मान मौजूद है, तो उस में ये दो गुण हैं, साथ ही मान लिया गया वितरण, मैं कहूंगा कि मॉडल सत्य है। मुझे लगता है कि यह सीधे तौर पर यह कहने से संबंधित है कि , क्योंकि अपघटन में त्रुटि शब्द है।ϵYfθ(X)Xθ0ϵfθ0(X)=E[Y|X]

Y=E[Y|X]+ϵ

ऊपर उल्लिखित दो गुण हैं।


3
MLE आकलन अक्सर asymptotically सामान्य होता है भले ही मॉडल सही न हो, उदाहरण के लिए, यह "कम से कम झूठे" पैरामीटर मान के अनुरूप हो सकता है। लेकिन ऐसे मामलों में क्षमता या अन्य इष्टतमता गुणों को दिखाना मुश्किल होगा।
kjetil b halvorsen 13

1
दक्षता से पहले हमें स्थिरता को देखना चाहिए। ऐसे परिदृश्य में जब सत्य आपके खोज स्थान में नहीं होता है, तो हमें एक अलग परिभाषा की आवश्यकता होती है जैसे: d (P *, P), जहां d एक विचलन है P * d के संदर्भ में निकटतम मॉडल है, और P सत्य है। जब d केएल डाइवर्जेंस होता है (उदाहरण के लिए MLE क्या कम कर रहा है) यह ज्ञात है कि बायेसियन प्रक्रियाएं असंगत हैं (निकटतम मॉडल तक नहीं पहुंच सकती हैं) जब तक कि मॉडल उत्तल न हो। इसलिए मुझे लगता है कि MLE असंगत भी होगा। इसलिए दक्षता बीमार परिभाषित हो जाती है। होमपेज.
tudelft.nl/19j49/benelearn/paper/Paper_Grunwald.pdf

1
@ कागदास ओज़ेगेंक: कई मामलों में (जैसे लॉजिस्टिक रिग्रेशन) एमएलई अभी भी "कम से कम झूठे" मापदंडों के अनुरूप है। क्या आपके पास नॉनवॉन्क्स मामले में असंगति के बारे में आपके दावे का संदर्भ है? बहुत दिलचस्पी होगी? (लॉजिस्टिक रिग्रेशन का संभावना समारोह उत्तल है)
kjetil b halvorsen

@kjetilbhalvorsen homepages.cwi.nl/~pdg/ftp/inconsistency.pdf यह मेरे सिर पर है, लेकिन यह वही है जो मैं समझता हूं। अगर मेरी समझ झूठी है तो कृपया मुझे सुधारें। मैं सिर्फ एक शौक़ीन हूँ।
कागदस ओजेंक

4
मुझे लगता है कि हम मुसीबत में पड़ जाते हैं जब हम "मॉडल सच है" या "कम से कम झूठ" जैसे शब्दों का उपयोग करते हैं। व्यवहार में मॉडल के साथ काम करते समय वे लगभग अनुमानित होते हैं। यदि हम कुछ धारणाएँ बनाते हैं तो हम गणित का उपयोग सांख्यिकीय गुणों को दिखाने के लिए कर सकते हैं। संभावना और व्यावहारिक डेटा विश्लेषण के गणित के बीच यहां हमेशा संघर्ष होता है।
माइकल आर। चेरिक

जवाबों:


4

मेरा मानना ​​है कि इस सवाल का एक भी जवाब नहीं है।

जब हम अधिकतम संभावना आकलन को लागू करते समय संभावित वितरण की गड़बड़ी पर विचार करते हैं, तो हमें वह मिलता है जिसे "क्वैसी-मैक्सिमम लाइकैलिटी" अनुमानक (क्यूएमएलई) कहा जाता है। कुछ मामलों में QMLE सुसंगत और asymptotically दोनों सामान्य है।

यह निश्चितता के साथ खो देता है असममित दक्षता है। इसका कारण यह है कि का स्पर्शोन्मुख विचरण (यह एक मात्रा है जिसमें एक विषम वितरण है, न कि सिर्फ the ), सभी मामलों में,n(θ^θ)θ^

(1)Avar[n(θ^θ)]=plim([H^]1[S^S^T][H^]1)

जहां लॉग-लाइबिलिटी का Hessian मैट्रिक्स है और ग्रेडिएंट है, और हैट नमूना अनुमान दर्शाता है।HS

अब, यदि हमारे पास सही विनिर्देश हैं, तो हमें पहले, यह मिलता है

(2)Avar[n(θ^θ)]=(E[H0])1E[S0S0T](E[H0])1

जहां " " सबस्क्रिप्ट सही मापदंडों पर मूल्यांकन को दर्शाता है (और ध्यान दें कि मध्य शब्द फिशर सूचना की परिभाषा है), और दूसरा, कि " सूचना मैट्रिक्स समानता " रखती है और बताती है कि , जिसका अर्थ है कि विचरण अंत में होगा0E[H0]=E[S0S0T]

(3)Avar[n(θ^θ)]=(E[H0])1

जो फिशर जानकारी का विलोम है।

लेकिन अगर हमारे पास गलत वर्तनी है, तो अभिव्यक्ति अभिव्यक्ति ओर नहीं ले जाती है (क्योंकि में पहला और दूसरा व्युत्पन्न गलत संभावना के आधार पर व्युत्पन्न हुआ है)। यह बदले में यह बताता है कि सूचना मैट्रिक्स असमानता पकड़ में नहीं आती है, कि हम अभिव्यक्ति में समाप्त नहीं होते हैं , और यह कि (क्यू) MLE पूर्ण स्पर्शोन्मुख दक्षता प्राप्त नहीं करता है।(1)(2)(1)(3)


Avar यादृच्छिक चर का विचरण है, और प्रायिकता में अभिसरण के लिए है, है ना? आपका उत्तर बहुत दिलचस्प लगता है, लेकिन मुझे समझ नहीं आता कि आपके संदर्भ में क्या है। मैं एक मामले में जहां की सही मूल्य की चर्चा करते हुए किया गया था बस मौजूद नहीं है: मेरी पवन टरबाइन उदाहरण के लिए, को देखने का मूल्य जो कुछ भी है, जहां , वहाँ कोई है मान जो मॉडल को सही बनाता है, क्योंकि कोई शब्द नहीं है, और क्योंकि साथ सहसंबद्ध अन्य भविष्यवक्ता गायब हैं। इस संदर्भ में क्या अर्थ होगा ? plimθθβ=(β0,β1,β2)β3Vθ
डेल्टा

क्षमा करें, मेरी टिप्पणी का पहला संस्करण समझ से बाहर था: अब मेरी बात स्पष्ट होनी चाहिए। दूसरे शब्दों में, अगर कोई "सत्य" " " नहीं है, तो हमें अभिव्यक्ति में रूप में क्या करना चाहिए ? θθn(θ^θ)
डेल्फीव

1
@ डेल्टिव ज़ीरो। क्या QMLE इसे "पकड़" सकेगा? यह whetehr यह लगातार या नहीं होगा पर -और फिर से निर्भर करता है, इस प्रश्न का कोई भी जवाब नहीं है
Alecos पापाडोपौलोस

1
मै समझ गया। तो QMLE (यदि सुसंगत) को में कनवर्ट करना चाहिए : मैंने सोचा होगा कि यह कुछ "कम से कम झूठे" पैरामीटर मान में परिवर्तित होगा, जैसा कि @kjetilbhalvorsen द्वारा सुझाया गया है। क्या आप QMLE और आपके द्वारा लिखे गए समीकरणों पर कोई संदर्भ सुझा सकते हैं? धन्यवादθ=0
DeltaIV

1
@ डेल्हाटी मैं हयाशी ch में प्रदर्शनी का सुझाव दूंगा। एक्स्ट्रीमम एस्टिमेटर्स के बारे में 7, जैसा कि MLE स्थिरता, सामान्यता आदि के संबंध में है। QMLE के संबंध में विषय व्यापक है। उदाहरण के लिए, "क्यूएमएलई" के तहत हमारे पास वास्तव में ऐसी परिस्थितियां भी हो सकती हैं, जहां हम शुरू से ही स्वीकार करते हैं कि जिन मापदंडों का हम अनुमान लगा रहे हैं, उनका किसी भी "सच्चे पैरामीटर" के लिए स्पष्ट संबंध नहीं हो सकता है (लेकिन अभ्यास अभी भी एक सन्निकटन के रूप में मान्य है)। और इसलिए सुझाए गए अनुसार "कम से कम गलत" वेक्टर प्राप्त करें।
एलेकोस पापादोपोलोस 18
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.