आकलन कैसे करें, जब केवल सारांश आँकड़े उपलब्ध हों?


17

यह निम्नलिखित प्रश्न और इसके बाद की चर्चा से प्रेरित है ।

मान लीजिए कि नमूना देखा गया है, । लक्ष्य के लिए का अनुमान लगाना है । लेकिन मूल नमूना उपलब्ध नहीं है। इसके बजाय हमारे पास नमूना कुछ आँकड़े हैं । मान लीजिए कि निश्चित है। हम का अनुमान कैसे लगाते हैं ? इस मामले में अधिकतम संभावना अनुमानक क्या होगा?θ टी 1 , , टी कश्मीर कश्मीर θXiF(x,θ)θT1,...,Tkkθ


1
यदि किसी ज्ञात फ़ंक्शन लिए तो आप के वितरण को लिख सकते हैं और अधिकतम संभावना अनुमानक सामान्य तरीके से प्राप्त होता है। लेकिन आपने यह नहीं कि क्या हैं ? Ti=f(Xi)T i T ifTiTi
स्टीफन लॉरेंट

3
मुझे इस मामले में दिलचस्पी है जब ज्ञात लिए । यह मेरा मतलब था जब मैंने कहा कि नमूना आँकड़े हैं। टी मैंTi=f(X1,...,Xn)fTi
mpiktas

तो और क्या अंतर है ? टी जेTiTj
स्टीफन लॉरेंट

2
क्षमा करें, यह होना चाहिए था , न कि । हमारे पास कई कार्य हैं , जो एक तर्क पूरे नमूने के रूप में लेते हैं। f ififfi
एमपिकेटस

1
क्या यह अधिकतम एन्ट्रापी के लिए डिज़ाइन नहीं किया गया था?
probabilityislogic

जवाबों:


15

इस मामले में, आप निम्नलिखित धारणा / प्रतिबंध के तहत संभावना (और परिणामस्वरूप MLE ) के एबीसी सन्निकटन पर विचार कर सकते हैं :

कल्पना। मूल नमूना आकार n ज्ञात है।

यह एक जंगली धारणा नहीं है कि गुणवत्ता, अभिसरण के संदर्भ में, लगातार मूल्यांकनकर्ताओं के नमूने के आकार पर निर्भर करता है, इसलिए कोई भी मूल नमूना आकार को जाने बिना मनमाने ढंग से अच्छे अनुमानक प्राप्त नहीं कर सकता है।

विचार का पिछला वितरण से एक नमूना उत्पन्न करने के लिए है θ और, आदेश MLE की एक सन्निकटन का उत्पादन करने में , आप के रूप में एक महत्व तकनीक नमूने का उपयोग कर सकते 1 [] या पर एक समान से पहले विचार करने के लिए θ एक उपयुक्त पर समर्थन के साथ के रूप में सेट [2]

मैं विधि का वर्णन करने जा रहा हूँ [२]। सबसे पहले, मुझे एबीसी नमूना का वर्णन करें।

एबीसी सैम्पलर

चलो f(|θ) मॉडल है कि नमूने जहां उत्पन्न हो θΘ एक पैरामीटर है (अनुमान लगाया जा करने के लिए), T एक आंकड़ा (नमूना के एक समारोह) हो सकता है और T0 मनाया आंकड़ा हो, एबीसी शब्दजाल में यह एक कहा जाता है सारांश आंकड़े , ρ एक मीट्रिक, हो π(θ) पर एक पूर्व वितरण θ और ϵ>0 एक सहिष्णुता। फिर, एबीसी-अस्वीकृति नमूना निम्नानुसार लागू किया जा सकता है।

  1. नमूना θ से π()
  2. एक नमूना उत्पन्न x आकार के n मॉडल से f(|θ)
  3. गणना T=T(x)
  4. यदि ρ(T,T0)<ϵ , स्वीकार θ के पीछे से एक सिमुलेशन के रूप में θ

इस एल्गोरिथ्म का पिछला वितरण से एक अनुमानित नमूना उत्पन्न θ दिया T(x)=T0 । इसलिए, सबसे अच्छा परिदृश्य तब होता है जब आँकड़ा T पर्याप्त होता है लेकिन अन्य आँकड़ों का उपयोग किया जा सकता है। इसके बारे में अधिक विस्तृत विवरण के लिए यह पेपर देखें ।

अब, एक सामान्य ढांचे में, यदि कोई एक वर्दी का उपयोग करता है जिसमें उसके समर्थन में MLE शामिल है, तो अधिकतम एक पोस्टवर्दी (MAP) अधिकतम संभावना अनुमानक (MLE) के साथ मेल खाता है। इसलिए, यदि आप एबीसी सैम्पलर में एक उपयुक्त वर्दी से पहले विचार करते हैं, तो आप एक पश्च वितरण का अनुमानित नमूना उत्पन्न कर सकते हैं जिसका एमएपी MLE के साथ मेल खाता है। शेष चरण में इस मोड का आकलन करना शामिल है। उदाहरण के लिए, "बहुभिन्नरूपी मोड के कम्प्यूटेशनल रूप से कुशल अनुमान" में सीवी में इस समस्या पर चर्चा की गई है ।

एक खिलौना उदाहरण

चलो (x1,...,xn) एक से एक नमूना हो N(μ,1) और लगता है कि इस नमूने से केवल जानकारी उपलब्ध है x¯=1nj=1nxj। चलोρमें इयूक्लिडियन मीट्रिक होRऔरϵ=0.001। निम्न आर कोड दिखाता है कि कैसेn=100औरμ=0साथ एक नकली नमूना का उपयोग करके ऊपर वर्णित विधियों का उपयोग करके एक अनुमानित MLE प्राप्त करना है, आकार1000के पीछे वितरण का एक नमूना,μपरμ केलिए एक समान(0.3,0.3), और पीछे के नमूने के मोड (MAP = MLE) के अनुमान के लिए एक कर्नेल घनत्व अनुमानक।

# rm(list=ls())

# Simulated data
set.seed(1)
x = rnorm(100)

# Observed statistic
T0 = mean(x)

# ABC Sampler using a uniform prior 

N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1

while(i < N+1){
  u = runif(1,-0.3,0.3)
  t.samp = rnorm(100,u,1)
  Ts = mean(t.samp)
  if(abs(Ts-T0)<eps){
    ABCsamp[i]=u
    i=i+1
    print(i)
  }
}

# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]

जैसा कि आप देख सकते हैं, एक छोटी सी सहिष्णुता का उपयोग करके हमें MLE का एक बहुत अच्छा अनुमान मिलता है (जो कि इस तुच्छ उदाहरण में दिए गए आंकड़े से गणना की जा सकती है कि यह पर्याप्त है)। यह ध्यान रखना महत्वपूर्ण है कि सारांश सांख्यिकीय का चुनाव महत्वपूर्ण है। क्वांटाइल्स आमतौर पर सारांश सांख्यिकीय के लिए एक अच्छा विकल्प है, लेकिन सभी विकल्प एक अच्छा सन्निकटन पैदा नहीं करते हैं। यह मामला हो सकता है कि सारांश सांख्यिकीय बहुत जानकारीपूर्ण नहीं है और फिर सन्निकटन की गुणवत्ता खराब हो सकती है, जो एबीसी समुदाय में अच्छी तरह से जाना जाता है।

अद्यतन: एक समान दृष्टिकोण हाल ही में फैन एट अल में प्रकाशित किया गया था (2012) । कागज पर चर्चा के लिए इस प्रविष्टि को देखें ।


3
(+1) MLE और MAP के बीच और अंतिम पैराग्राफ (अन्य कारणों के बीच) में चेतावनी के संबंध में सही परिणाम के लिए। उस चेतावनी को और अधिक स्पष्ट करने के लिए, यह (या कोई भी) दृष्टिकोण बुरी तरह से विफल हो जाएगा यदि हाथ में आंकड़े सहायक या लगभग इतने ही हैं। एक अपने खिलौना उदाहरण और विचार कर सकते हैं , के लिए उदाहरण। T=i(XiX¯)2
कार्डिनल

1
+1 @procrastinator मैं सरल कहने जा रहा था हाँ यदि आप अपने मॉडल के लिए उपलब्ध हैं तो आप पर्याप्त आँकड़ों का उपयोग कर सकते हैं। लेकिन आपके व्यापक जवाबों से लगता है कि इसे कवर किया गया है।
माइकल आर। चेरिक

एक साधारण प्रश्न, आप उल्लेख करते हैं कि वर्दी को उसके समर्थन में MLE होना चाहिए। लेकिन MLE एक रैंडम वैरिएबल है जो केवल स्टोचस्टली बाउंड है, यानी यह पॉजिटिव प्रायिकता के साथ किसी भी बाउंड सेट के बाहर हो सकता है।
12

1
@mpiktas एक विशिष्ट नमूने के लिए, आपको पहले से वर्दी का उचित समर्थन चुनना होगा। यदि आप नमूना बदलते हैं तो यह बदल सकता है। यह ध्यान रखना महत्वपूर्ण है कि यह एक बायेसियन प्रक्रिया नहीं है, हम इसे केवल संख्यात्मक पद्धति के रूप में उपयोग कर रहे हैं, इसलिए पूर्व की पसंद के साथ खेलने पर कोई समस्या नहीं है। पूर्व का समर्थन जितना छोटा होगा, उतना बेहतर होगा। इससे एबीसी सैम्पलर की गति बढ़ जाएगी लेकिन जब आपकी जानकारी इस मायने में अस्पष्ट हो जाती है कि आपके पास एमएलई स्थित है, तो आपके पास एक विश्वसनीय सुराग नहीं है, तो आपको एक बड़े समर्थन की आवश्यकता हो सकती है (और कीमत चुकानी होगी)।

@mpiktas खिलौना उदाहरण में, आप, उदाहरण के लिए पहले पर उपयोग कर सकते हैं, समर्थन के साथ एक समान या पर समर्थन के साथ एक समान से पहले ( 0.1 , 0.15 ) एक ही परिणाम प्राप्त करने, लेकिन बहुत अलग स्वीकृति दर के साथ। इस समर्थन का चुनाव तदर्थ है और पहले दिए गए सामान्य उद्देश्य के साथ आना असंभव है, क्योंकि MLE स्टोकैस्टिक रूप से बाध्य नहीं है, जैसा कि आप उल्लेख करते हैं। इस विकल्प को उस विधि के लीवर के रूप में माना जा सकता है जिसे प्रत्येक विशेष मामले में समायोजित किया जाना है। (1000000,1000000)(0.1,0.15)

5

यह सब इस बात पर निर्भर करता है कि उन T i का संयुक्त वितरण है या नहींTi ज्ञात है । अगर ऐसा है, जैसे, तो आप अधिकतम संभावना इस संयुक्त वितरण पर आधारित आकलन का संचालन कर सकते हैं। ध्यान दें, जब तक ( टी 1 , , टी के ) पर्याप्त है, यह कच्चे डेटा का उपयोग करते समय की तुलना में लगभग हमेशा एक अलग अधिकतम संभावना होगी (

(T1,,Tk)g(t1,,tk|θ,n)
(T1,,Tk) । यह आवश्यक रूप से कम कुशल होगा, एक बड़ा स्पर्शोन्मुख विचरण के साथ।(X1,,Xn)

यदि घनत्व साथ उपरोक्त संयुक्त वितरण उपलब्ध नहीं है, तो प्रोक्रास्टिनेटर द्वारा प्रस्तावित समाधान काफी उपयुक्त है।g


1

(लगातार) अधिकतम संभावना अनुमानक इस प्रकार है:

के लिए घातीय परिवार में, और यदि आपकी आंकड़ा पर्याप्त संभावना को बड़ा किया जा करने के लिए हमेशा रूप में लिखा जा सकता है: एल ( θ | टी ) = exp ( - ψ ( θ ) + टी , φ ( θ ) ) , जहां where , ar अदिश उत्पाद है, T द सदिश है। आँकड़े। और ψ ( ) और φ ( )F

l(θ|T)=exp(ψ(θ)+T,ϕ(θ)),
,Tψ()ϕ() लगातार दो बार विभेदित हैं।

जिस तरह से आप वास्तव में संभावना को अधिकतम करते हैं, वह अधिकतर संभावना पर निर्भर करता है कि आप संभावना को विश्लेषणात्मक रूप से लिख सकें। यदि यह संभव है तो आप सामान्य अनुकूलन एल्गोरिदम (न्यूटन-रफसन, सिम्प्लेक्स ...) पर विचार कर पाएंगे। यदि आपके पास एक ट्रैक करने योग्य संभावना नहीं है, तो आपको सशर्त समाप्ति की गणना करना आसान हो सकता है जैसा कि ईएम एल्गोरिथ्म में है, जो कि सस्ती परिकल्पना के तहत अधिकतम संभावना अनुमान लगाएगा।

श्रेष्ठ


जिन समस्याओं में मेरी दिलचस्पी है, उनके लिए विश्लेषणात्मक ट्रैक्टबिलिटी संभव नहीं है।
mpiktas

गैर-ट्रैफिकबिलिटी का कारण तब अनुकूलन योजना की स्थिति है। हालांकि, EM के एक्सटेंशन आमतौर पर इनमें से अधिकांश कारणों से घिरे रहने की अनुमति देते हैं। मुझे नहीं लगता कि मैं अपने सुझावों को बिना मॉडल को देखे ही और अधिक विशिष्ट हो सकता हूं
जुलिएन मेलमनेन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.