दो वितरणों को मिलाने वाले मॉडल में अच्छाई-की-फिट को मापना


9

मेरे पास एक डबल चोटी के साथ डेटा है जिसे मैं मॉडल करने की कोशिश कर रहा हूं, और चोटियों के बीच पर्याप्त ओवरलैप है कि मैं उन्हें स्वतंत्र रूप से इलाज नहीं कर सकता। डेटा का एक हिस्टोग्राम कुछ इस तरह दिख सकता है:

वैकल्पिक शब्द

मैंने इसके लिए दो मॉडल बनाए हैं: एक दो पॉइज़न वितरण का उपयोग करता है, और दूसरा दो नकारात्मक द्विपद वितरण का उपयोग करता है (ओवरडाइस्पोर्ट के लिए खाता है)। यह बताने का उपयुक्त तरीका क्या है कि कौन सा मॉडल डेटा को अधिक सटीक रूप से फिट करता है?

मेरा प्रारंभिक विचार यह है कि मैं प्रत्येक मॉडल की तुलना डेटा से करने के लिए एक कोलमोगोरोव-स्मिर्नोव परीक्षण का उपयोग कर सकता हूं, फिर यह देखने के लिए कि क्या एक काफी बेहतर फिट है, संभावना अनुपात परीक्षण करें। इसका कोई मतलब भी है क्या? यदि हां, तो मुझे बिल्कुल यकीन नहीं है कि संभावना अनुपात परीक्षण कैसे किया जाए। क्या चि-वर्ग उचित है, और मेरे पास स्वतंत्रता की कितनी डिग्री है?

यदि यह मदद करता है, मॉडल के लिए कुछ (बहुत सरलीकृत) आर कोड कुछ इस तरह लग सकता है:

## inital data points
a <- read.table("data")

#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)

#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)

#here's where I'd do some sort of likelihood ratio test
# . . .

संपादित करें: यहां एक छवि है जो डेटा और उन वितरणों की व्याख्या कर सकती है जो मैं बेहतर तरीके से फिटिंग कर रहा हूं। यह विज़ुअलाइज़ेशन से पूरी तरह से स्पष्ट है कि दूसरा मॉडल (अतिविशिष्ट के लिए खाते में नकारात्मक द्विपद डिस्टर्ब का उपयोग करके) एक बेहतर फिट है। मैं इसे मात्रात्मक रूप से दिखाना चाहूंगा, यद्यपि। वैकल्पिक शब्द

(लाल - डेटा, ग्रीन - मॉडल)


क्या आप जानते हैं कि प्रत्येक बिन में मूल्यों का वितरण संभव है ? Y अक्ष लेबल मुझे लगता है कि यह Poissonian या Multinomial हो सकता है? (मान लें कि एक मॉडल आपको प्रत्येक बिन में माध्य देता है)
आंद्रे होल्जनर

डेटा अनिवार्य रूप से दो पॉइसन प्रक्रियाओं से तैयार किया गया है, लेकिन इसमें छिपे हुए चर हैं जिन्हें मैं ठीक नहीं कर सकता, जिसके कारण अतिवृद्धि हो सकती है। इस प्रकार, एक नकारात्मक द्विपद निश्चित रूप से एक बेहतर मॉडल है। (ऊपर मैंने जो नई छवि / पाठ जोड़ा है उसे देखें)। मुझे यह दिखाने की जरूरत है कि मेरा नायब मॉडल बेहतर मात्रात्मक रूप से फिट बैठता है।
क्रिसमिलीर

1
वास्तविक बनाम अनुमानित मूल्यों के बीच मीन चुकता त्रुटि जैसी मीट्रिक के बारे में कैसे?

घंटा - मुझे वह विचार पसंद है, श्रीकांत। यह बहुत आसान है कि मैं क्या सोच रहा था, लेकिन अभी भी समझ में आता है। नीचे एक उत्तर में फेंक दो ताकि मैं इसे श्रेय दूं और अपने तरीके से कुछ प्रतिनिधि भेज सकूं। मुझे अभी भी अन्य तरीकों को सुनने में दिलचस्पी है, लेकिन यह अभी के लिए काम कर सकता है।
क्रिसमिलर

जवाबों:


4

आप दो मॉडलों की तुलना करने के लिए वास्तविक बनाम अनुमानित मूल्यों के बीच एक मीट्रिक जैसे त्रुटि मीन्टेड एरर का उपयोग कर सकते हैं ।


1
यह मेरी विशेष स्थिति के लिए सही उत्तर था, भले ही ग्लेन_ब की प्रतिक्रिया से मुझे और अधिक सीखने में मदद मिली। श्रीकांत के लिए स्वीकार किए जाते हैं, इसलिए उनके लिए अधिक उत्थान। हर कोई जीतता है - सभी को धन्यवाद।
क्रिसमिलर

8

आप उनकी तुलना सीधे नहीं कर सकते हैं क्योंकि नकारात्मक द्विपद में अधिक पैरामीटर हैं। वास्तव में पोइसन इस अर्थ में नकारात्मक द्विपद के भीतर "नेस्टेड" है कि यह एक सीमित मामला है, इसलिए नेगबिन हमेशा पॉइसन से बेहतर फिट होगा । हालाँकि, यह संभावना अनुपात परीक्षण की तरह कुछ पर विचार करना संभव बनाता है, लेकिन यह तथ्य कि पॉइज़न नकारात्मक द्विपद के लिए पैरामीटर स्थान की सीमा पर है, परीक्षण सांख्यिकीय के वितरण को प्रभावित कर सकता है।

किसी भी मामले में, भले ही मापदंडों की संख्या में अंतर एक समस्या नहीं थी, आप केएस परीक्षण सीधे नहीं कर सकते क्योंकि आपके पास अनुमानित पैरामीटर हैं, और केएस विशेष रूप से उस मामले के लिए है जहां सभी पैरामीटर निर्दिष्ट हैं। बूटस्ट्रैप का उपयोग करने का आपका विचार इस मुद्दे से संबंधित है, लेकिन पहले वाला नहीं (मापदंडों की संख्या में अंतर)

मैं फिट की अच्छाई के सुचारू परीक्षणों पर भी विचार करूंगा (उदाहरण के लिए रेनर और बेस्ट की किताब देखें), जो उदाहरण के लिए, ब्याज के घटकों में फिट टेस्ट के ची-स्क्वायर अच्छाई को विभाजित कर सकता है (पॉइसन मॉडल से विचलन को मापता है) इस मामले में) - चौथा आदेश या छठा आदेश कहने के लिए निकाला गया, इससे नेगबिन विकल्प के लिए अच्छी शक्ति के साथ एक परीक्षण होना चाहिए।

(संपादित करें: आप अपने पोइसन और नेगबिन की तुलना ची-स्क्वेर्ड टेस्ट के माध्यम से कर सकते हैं लेकिन इसमें कम शक्ति होगी। ची-स्क्वायर का विभाजन और केवल पहले 4-6 घटकों को देखते हुए, जैसा कि चिकने परीक्षणों के साथ किया जाता है, बेहतर हो सकता है। ।)


धन्यवाद। यह चीजों का एक गुच्छा स्पष्ट करता है और नए प्रश्नों की एक पूरी श्रृंखला को खोलता है, जिन पर मुझे कुछ शोध करना होगा। मुझे लगता है कि मेरा मुख्य प्रश्न यह है कि क्या आप कह रहे हैं कि कुछ और सरल है, जैसे कि रूट माध्य चुकता त्रुटि, इस समस्या से निपटने का एक वैध तरीका नहीं है? मैं यह स्वीकार करूंगा कि यह शायद उतना मजबूत नहीं है और मुझे एक पी-मूल्य नहीं देगा, लेकिन यह कुछ ऐसा है जो मैं जल्दी कर सकता हूं जबकि मैं आपके द्वारा संदर्भित पुस्तक की एक प्रति को ट्रैक करने का प्रयास करता हूं। किसी भी विचार की सराहना की जाएगी।
क्रिसमिलर

2
कल्पना कीजिए कि आपके पास अंक (x, y) का एक सेट था और आप विचार कर रहे थे कि क्या आप एक सीधी रेखा या एक द्विघात में फिट हो सकते हैं। यदि आप RMSE की तुलना करते हैं, तो द्विघात हमेशा सीधी रेखा को हरा देगा , क्योंकि रेखा एक द्विघात है जिसमें एक पैरामीटर शून्य पर सेट है: यदि पैरामीटर का कम से कम वर्ग का अनुमान बिल्कुल शून्य है (जिसमें निरंतर प्रतिक्रिया के लिए शून्य संभावना है), यह है एक टाई, और हर दूसरे मामले में लाइन खो जाती है। यह पॉज़ॉन बनाम नकारात्मक द्विपद के साथ समान है - एक नि: शुल्क नकारात्मक द्विपद हमेशा कम से कम पॉइज़न के साथ-साथ फिट हो सकता है।
Glen_b -Reinstate Monica

अच्छा स्पष्टीकरण - मुझे वही मिल रहा है जो आप अभी कह रहे हैं। मुझे लगता है कि मेरा मामला थोड़ा अलग है, क्योंकि मैं फिट होने के लिए प्रतिगमन नहीं कर रहा हूं, बल्कि, मैं बाहरी जानकारी पर अतिरिक्त NB पैरामीटर को आधार बना रहा हूं (मुझे उम्मीद है कि var / mean अनुपात N होगा)। चूंकि पोइसन एक विशेष मामला है जहां एन = 1, मैं वास्तव में तुलना कर रहा हूं एन की पसंद है। मैं सहमत हूं कि अगर मैं प्रतिगमन कर रहा था, तो एनबी हमेशा एक बेहतर फिट खोजने में सक्षम होगा, क्योंकि यह कम विवश है। मेरे मामले में, जहां मैं एन अप फ्रंट के लिए एक मूल्य चुन रहा हूं, निश्चित रूप से एन के कुछ पागल मूल्य चुनना संभव होगा जो फिट को बदतर बनाता है।
क्रिसमिलर

मैं निश्चित रूप से फिट की सुचारू परीक्षाओं को पढ़ने जा रहा हूं जो आपने हालांकि सुझाव दिए थे। जानकारीपूर्ण उत्तर के लिए धन्यवाद।
क्रिसमिलर

यह एहसास न होने के बारे में क्षमा करें कि डेटा अतिविशिष्ट पैरामीटर के विकल्प में नहीं आया था। इसे अपने तरीके से करने के लिए कुछ तर्क हो सकते हैं, लेकिन अगर बाहरी अनुमान प्रतिबिंबित करने की संभावना है कि आप वास्तव में क्या निरीक्षण करते हैं, तो एनबी को अभी भी परिस्थितियों के आधार पर कुछ लाभ हो सकता है।
Glen_b -Reinstate Monica
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.