फिशर की जानकारी किस प्रकार की है?


29

मान लें कि हमारे पास एक यादृच्छिक चर । यदि सही पैरामीटर था, तो संभावना फ़ंक्शन को अधिकतम और शून्य के बराबर व्युत्पन्न होना चाहिए। यह अधिकतम संभावना अनुमानक के पीछे मूल सिद्धांत है।Xf(x|θ)θ0

जैसा कि मैंने इसे समझा, फिशर जानकारी के रूप में परिभाषित किया गया है

I(θ)=E[(θf(X|θ))2]

इस प्रकार, अगर सही पैरामीटर है, तो । लेकिन अगर यह सही पैरामीटर नहीं है, तो हमारे पास फिशर जानकारी की एक बड़ी मात्रा होगी।θ0I(θ)=0θ0

मेरे सवाल

  1. क्या फिशर जानकारी किसी दिए गए MLE की "त्रुटि" को मापता है? दूसरे शब्दों में, सकारात्मक फिशर जानकारी का अस्तित्व मेरे MLE आदर्श नहीं हो सकता है?
  2. शैनन द्वारा प्रयुक्त "सूचना" की यह परिभाषा कैसे भिन्न है? हम इसे जानकारी क्यों कहते हैं?

आप इसे क्यों लिखते हैं ? उम्मीद वितरित मूल्यों से अधिक है जैसे कि वे आपके वितरण से आए थे पैरामीटर । एक्स θEθXθ
नील जी

3
इसके अलावा, सच्चे पैरामीटर पर शून्य नहीं है। I(θ)
नील जी

ई (एस) शून्य है (यानी: स्कोर फ़ंक्शन की उम्मीद), लेकिन जैसा कि नील जी ने लिखा है - फिशर जानकारी (वी (एस)) शून्य (आमतौर पर) नहीं है।
ताल गैली

जवाबों:


15

अन्य उत्तरों पर पूरक करने की कोशिश कर रहा है ... फिशर जानकारी किस तरह की है? Loglikelihood फ़ंक्शन साथ प्रारंभ करें , जो पैरामीटर स्थान लिए फ़ंक्शन के रूप है। कुछ नियमितता स्थितियों की चर्चा करते हुए, हम यहाँ चर्चा नहीं करते हैं, हमारे पास (हम यहां पैरामीटर के रूप में डॉट के रूप में पैरामीटर के संबंध में डेरिवेटिव लिखेंगे)। विचरण है फिशर जानकारी θ θ Θ मैं ( θ ) = θ ( ˙ ( θ ) ) 2 = - θ ¨ ( θ ) θ ˙ ( θ ) = 0 ˙ ( θ )

(θ)=logf(x;θ)
θθΘEθ(θ)=Eθ˙(θ)=0
I(θ)=Eθ(˙(θ))2=Eθ¨(θ)
अंतिम सूत्र दिखा रहा है कि यह loglikelihood फ़ंक्शन का (नकारात्मक) वक्रता है। एक प्रायः संभावना के समीकरण _ को हल करके _ की अधिकतम संभावना अनुमानक (mle) पाता है, जब फिशर स्कोर के विचरण के रूप में जानकारी देता है। बड़ी है, तो उस समीकरण का समाधान डेटा के प्रति बहुत संवेदनशील होगा, जिससे mle की उच्च परिशुद्धता की उम्मीद होगी। यह कम से कम asymptotically की पुष्टि की है, मीलों की asymptotic विचरण फिशर जानकारी का उलटा जा रहा है।θ˙(θ)=0˙(θ)

हम इसकी व्याख्या कैसे कर सकते हैं? नमूने से पैरामीटर बारे में संभावना जानकारी है । यह वास्तव में केवल एक सापेक्ष अर्थ में व्याख्या की जा सकती है, जैसे कि जब हम इसका उपयोग दो अलग-अलग संभावित मानों की संभावनाओं की तुलना करने के लिए करते हैं संभावना अनुपात परीक्षण । Loglikelihood के परिवर्तन की दर स्कोर फ़ंक्शन हमें बताती है कि संभावना कितनी तेज़ी से बदलती है, और इसका भिन्नता नमूना से नमूना के लिए, किसी दिए गए पैरामिटर पर कितना भिन्न होता है। मान, । समीकरण (जो वास्तव में आश्चर्यजनक है!) θ ( θ 0 ) - ( θ 1 ) ˙ ( θ ) मैं ( θ ) θ 0 मैं ( θ ) = - θ ¨ ( θ ) θ 0 ˙ ( θ ) | θ = θ 0 θ θ 0(θ)θ(θ0)(θ1)˙(θ)I(θ)θ0

I(θ)=Eθ¨(θ)
हमें बताता है कि किसी दिए गए पैरामीटर मान के लिए सूचना (संभावना) में परिवर्तनशीलता के बीच एक संबंध (समानता) है , उस पैरामीटर मान के लिए और फ़ंक्शन की वक्रता। यह ths स्टैटिस्टिक की परिवर्तनशीलता (विचरण) और एक समानता है जब हम कुछ अंतराल में पैरामीटर भिन्न होते हैं, तो अपेक्षित परिवर्तन (समान डेटा के लिए)। यह वास्तव में अजीब, आश्चर्यजनक और शक्तिशाली दोनों है!θ0˙(θ)θ=θ0θθ0

तो संभावना फ़ंक्शन क्या है? हम आम तौर पर सांख्यिकीय मॉडल के बारे में सोच डेटा के लिए संभाव्यता वितरण के एक परिवार के रूप में , पैरामीटर द्वारा अनुक्रमित कुछ पैरामीटर अंतरिक्ष में तत्व । हम इस मॉडल को सच होने के रूप में सोचते हैं यदि कुछ मान जैसे कि डेटा वास्तव में प्रायिकता वितरण । तो हम एक सच मॉडल datagenerating प्रायिकता वितरण imbedding द्वारा एक सांख्यिकीय मॉडल प्राप्त करते हैंx θ Θ θ 0Θ x ( एक्स , θ 0 ) ( एक्स , θ 0 ){f(x;θ),θΘ}xθΘθ0Θxf(x;θ0)f(x;θ0)संभावना वितरण के एक परिवार में। लेकिन, यह स्पष्ट है कि इस तरह के एक imbedding कई अलग अलग तरीकों से किया जा सकता है, और इस तरह के प्रत्येक imbedding एक "सच" मॉडल होगा, और वे अलग-अलग संभावना कार्य देंगे। और, इस तरह के एक imbedding के बिना, कोई संभावना समारोह नहीं है। ऐसा लगता है कि हमें वास्तव में कुछ मदद की ज़रूरत है, कुछ सिद्धांतों को बुद्धिमानी से कैसे चुनना है!

अच्छा तो इसका क्या मतलब है? इसका मतलब यह है कि संभावना समारोह की पसंद हमें बताती है कि हम कैसे डेटा को बदलने की उम्मीद करेंगे, अगर सच्चाई थोड़ी बदल गई। लेकिन, यह वास्तव में डेटा द्वारा सत्यापित नहीं किया जा सकता है, क्योंकि डेटा केवल सच्चे मॉडल फ़ंक्शन बारे में जानकारी देता है जो वास्तव में डेटा उत्पन्न करता है, और चुना मॉडल में अन्य सभी तत्वों के बारे में कुछ भी नहीं। इस तरह हम देखते हैं कि संभावना फ़ंक्शन की पसंद बायेसियन विश्लेषण में एक पसंद के विकल्प के समान है, यह विश्लेषण में गैर-डेटा जानकारी को इंजेक्ट करता है। आइए हम इसे एक सरल (कुछ हद तक कृत्रिम) उदाहरण में देखें, और विभिन्न तरीकों से मॉडल में imbedding के प्रभाव को देखें ।( एक्स , θ 0 )f(x;θ0)f(x;θ0)

आइए मान हैं कि रूप में iid हैं । तो, यह सच है, डेटा-जनरेटिंग वितरण। अब, हम इसे एक मॉडल में दो अलग-अलग तरीकों से एम्बेड करते हैं, मॉडल A और मॉडल B. आप इस मेल को लिए जाँच सकते हैं । एन ( μ = 10 , σ 2 = 1 )X1,,XnN(μ=10,σ2=1)μ = 10

A:X1,,Xn iid N(μ,σ2=1),μRB:X1,,Xn iid N(μ,μ/10),μ>0
μ=10

Loglikelihood फ़ंक्शंस

A(μ)=n2log(2π)12i(xiμ)2B(μ)=n2log(2π)n2log(μ/10)102i(xiμ)2μ

स्कोर फ़ंक्शंस: (loglikelihood डेरिवेटिव): और वक्रता तो, फिशर जानकारी वास्तव में इम्बेडिंग पर निर्भर करती है। अब, हम फिशर सूचना की सही मान , तो फिशर पैरामीटर के बारे में जानकारी मॉडल बी में कुछ बड़ा है। ¨ एक(μ)=-n

˙A(μ)=n(x¯μ)˙B(μ)=n2μ102i(xiμ)215n
μ=10IA(μ=10)=n,
¨A(μ)=n¨B(μ)=n2μ2+102i2xi2μ3
μ=10
IA(μ=10)=n,IB(μ=10)=n(1200+20202000)>n

यह दर्शाता है कि, कुछ अर्थों में, फिशर जानकारी हमें बताती है कि मॉडल परिवार में इम्बेडिंग द्वारा पोस्ट किए गए तरीके से गवर्निंग पैरामीटर बदल जाने पर पैरामीटर के बारे में डेटा से सूचना कितनी तेजी से बदल गई होगी । मॉडल बी में उच्च जानकारी की व्याख्या यह है कि हमारा मॉडल परिवार बी यह बताता है कि यदि उम्मीद बढ़ जाती, तो विचरण भी बढ़ जाता । ताकि, मॉडल बी के तहत, नमूना विचलन भी बारे में जानकारी ले जाएगा , जो यह मॉडल ए के तहत नहीं करेगा।μ

साथ ही, यह उदाहरण बताता है कि मॉडल परिवारों के निर्माण में हमारी मदद करने के लिए हमें वास्तव में कुछ सिद्धांत की आवश्यकता है।


1
महान व्याख्या। आप क्यों कहते हैं? यह का एक कार्य है - क्या यह केवल 0 नहीं है जब सच्चे पैरामीटर पर मूल्यांकन किया जाता है ? θ θ 0\Eθ˙(θ)=0θθ0
इहादानी

1
हां, आप जो कहते हैं वह सच है, @idadanny यह शून्य है जब सच्चे पैरामीटर मान पर मूल्यांकन किया जाता है।
kjetil b halvorsen

धन्यवाद फिर से @kjetil - तो बस एक और सवाल: स्कोर के विचरण और हर लिए संभावना की वक्रता के बीच आश्चर्यजनक संबंध है ? या केवल सच्चे पैरामीटर के पड़ोस में ? θ 0θθ0
१।

फिर, वह ट्रॉलरशिप सच्चे पैरामीटर मान के लिए सही है। लेकिन इसके लिए बहुत मदद करने के लिए, निरंतरता होनी चाहिए, ताकि यह कुछ पड़ोस में सच हो, क्योंकि हम इसका उपयोग अनुमानित मूल्य , न कि केवल सच्चे (अज्ञात) मूल्य पर। θ^
kjetil b halvorsen

इसलिए, संबंध सही पैरामीटर , यह लगभग क्योंकि हम मानते हैं कि यह के पड़ोस में है , लेकिन एक सामान्य यह सही नहीं है? θ m l e θ 0 θ 1θ0θmleθ0θ1
इहाडनी

31

आइए नकारात्मक लॉग-लाइक फ़ंक्शन संदर्भ में सोचें । नकारात्मक मान पैरामीटर मान के संबंध में इसकी ढाल है। सही पैरामीटर पर, स्कोर शून्य है। अन्यथा, यह न्यूनतम (या गैर-उत्तल के मामले में , एक काठी बिंदु या स्थानीय न्यूनतम या अधिकतम) की दिशा देता है ।

फिशर जानकारी उपायों की वक्रता चारों ओर डेटा इस प्रकार यदि । दूसरे शब्दों में, यह आपको बताता है कि पैरामीटर को कितना आकर्षक बनाना आपके लॉग-लाइक को प्रभावित करेगा।θ θθθ

गौर कीजिए कि आपके पास लाखों मापदंडों वाला एक बड़ा मॉडल था। और आपके पास एक छोटा अंगूठा ड्राइव था जिस पर अपने मॉडल को स्टोर करना था। आपको कैसे प्राथमिकता देना चाहिए कि स्टोर करने के लिए प्रत्येक पैरामीटर के कितने बिट्स हैं? सही उत्तर फ़िशर जानकारी के अनुसार बिट्स आवंटित करना है (Rissanen ने इस बारे में लिखा है)। यदि किसी पैरामीटर की फिशर जानकारी शून्य है, तो वह पैरामीटर मायने नहीं रखता है।

हम इसे "जानकारी" कहते हैं क्योंकि फिशर जानकारी मापता है कि यह पैरामीटर हमें डेटा के बारे में कितना बताता है।


इसके बारे में सोचने के लिए बोलचाल का तरीका यह है: मान लीजिए कि पैरामीटर एक कार चला रहे हैं, और डेटा ड्राइवर को सही करने वाली पिछली सीट पर है। डेटा की कष्टप्रद जानकारी फिशर है। यदि डेटा ड्राइवर को चलाने देता है, तो फिशर जानकारी शून्य है; यदि डेटा लगातार सुधार कर रहा है, तो यह बड़ा है। इस अर्थ में, फिशर जानकारी डेटा से मापदंडों पर जाने वाली जानकारी की मात्रा है।

गौर करें कि यदि आप स्टीयरिंग व्हील को अधिक संवेदनशील बनाते हैं तो क्या होता है। यह एक पुनर्मूल्यांकन के बराबर है। उस स्थिति में, कार के ओवरस्टेयरिंग के डर से डेटा इतनी जोर से नहीं चाहता है। इस तरह के पुनर्मूल्यांकन में फिशर की जानकारी कम हो जाती है।


20

@ नीलजी के अच्छे उत्तर (+1) के पूरक और अपने विशिष्ट प्रश्नों को संबोधित करने के लिए:

  1. मैं कहूंगा कि यह "त्रुटि" के बजाय "सटीक" को गिना जाता है।

याद रखें कि एमएल अनुमानों पर मूल्यांकन की गई लॉग-हेसियन के हेस्सियन मनाया फिशर जानकारी है। अनुमानित मानक त्रुटियां देखी गई फिशर सूचना मैट्रिक्स के व्युत्क्रम के विकर्ण तत्वों की वर्गमूल हैं। इस फिशर जानकारी से उपजा है फिशर सूचना मैट्रिक्स का पता लगाने। यह देखते हुए कि फिशर सूचना मैट्रिक्स एक हर्मिटियन पॉजिटिव-सेमीफाइनल मैट्रिक्स मैट्रिक्स है, तो इसमें से विकर्ण प्रविष्टियां वास्तविक और गैर-नकारात्मक हैं; प्रत्यक्ष परिणाम के रूप में यह ट्रेस सकारात्मक होना चाहिए। इसका मतलब यह है कि आपके पास आपके दावे के अनुसार केवल "गैर-आदर्श" अनुमानक हो सकते हैं। तो नहीं, एक सकारात्मक फिशर जानकारी से संबंधित नहीं है कि आपका MLE कितना आदर्श है।I j , j t r ( I )IIj,jtr(I)

  1. यह परिभाषा उस तरह से भिन्न है जैसे हम दोनों मामलों में सूचना की धारणा की व्याख्या करते हैं। कहा जाता है कि, दोनों मापों का आपस में गहरा संबंध है।

फिशर जानकारी का उलटा एक निष्पक्ष अनुमानक ( Cramér-Rao बाध्य ) का न्यूनतम विचरण है । उस अर्थ में सूचना मैट्रिक्स इंगित करता है कि अनुमानित गुणांक के बारे में कितनी जानकारी डेटा में निहित है। इसके विपरीत शैनन एन्ट्रापी को थर्मोडायनामिक्स से लिया गया था। यह चर के विशेष मान की जानकारी सामग्री से संबंधित है जैसे जहां मान पर चर लेने की संभावना है। दोनों इस बात का माप हैं कि एक चर कैसे "जानकारीपूर्ण" है। पहले मामले में हालांकि आप इस जानकारी को परिशुद्धता के संदर्भ में आंकते हैं जबकि दूसरे मामले में विकार के संदर्भ में; विभिन्न पक्षों, एक ही सिक्का! : डीपीp·log2(p)p

पुनरावृत्ति करने के लिए: फिशर सूचना मैट्रिक्स जिसका एमएल अनुमानक मानों पर मूल्यांकन किया था, का विलोम एसिम्प्टोटिक या अनुमानित सहसंयोजक मैट्रिक्स है। जैसा कि यह एमएल अनुमानक मान एक स्थानीय न्यूनतम ग्राफ़िकल रूप में पाया जाता है फिशर जानकारी से पता चलता है कि यह न्यूनतम कितना गहरा है और आपके चारों ओर बहुत अधिक झूलता कमरा है। मुझे यह पेपर लुत्वाक एट अल द्वारा मिला। पर फिशर जानकारी और स्टेम की असमानता का एक्सटेंशन इस मामले पर एक जानकारीपूर्ण पढ़ने। फिशर इंफॉर्मेशन मेट्रिक और जेन्सेन-शैनन डायवर्जेंस पर विकिपीडिया लेख भी आपको आरंभ करने के लिए अच्छे हैं।I

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.