मेरे पास एक डबल चोटी के साथ डेटा है जिसे मैं मॉडल करने की कोशिश कर रहा हूं, और चोटियों के बीच पर्याप्त ओवरलैप है कि मैं उन्हें स्वतंत्र रूप से इलाज नहीं कर सकता। डेटा का एक हिस्टोग्राम कुछ इस तरह दिख सकता है:
मैंने इसके लिए दो मॉडल बनाए हैं: एक दो पॉइज़न वितरण का उपयोग करता है, और दूसरा दो नकारात्मक द्विपद वितरण का उपयोग करता है (ओवरडाइस्पोर्ट के लिए खाता है)। यह बताने का उपयुक्त तरीका क्या है कि कौन सा मॉडल डेटा को अधिक सटीक रूप से फिट करता है?
मेरा प्रारंभिक विचार यह है कि मैं प्रत्येक मॉडल की तुलना डेटा से करने के लिए एक कोलमोगोरोव-स्मिर्नोव परीक्षण का उपयोग कर सकता हूं, फिर यह देखने के लिए कि क्या एक काफी बेहतर फिट है, संभावना अनुपात परीक्षण करें। इसका कोई मतलब भी है क्या? यदि हां, तो मुझे बिल्कुल यकीन नहीं है कि संभावना अनुपात परीक्षण कैसे किया जाए। क्या चि-वर्ग उचित है, और मेरे पास स्वतंत्रता की कितनी डिग्री है?
यदि यह मदद करता है, मॉडल के लिए कुछ (बहुत सरलीकृत) आर कोड कुछ इस तरह लग सकता है:
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
संपादित करें: यहां एक छवि है जो डेटा और उन वितरणों की व्याख्या कर सकती है जो मैं बेहतर तरीके से फिटिंग कर रहा हूं। यह विज़ुअलाइज़ेशन से पूरी तरह से स्पष्ट है कि दूसरा मॉडल (अतिविशिष्ट के लिए खाते में नकारात्मक द्विपद डिस्टर्ब का उपयोग करके) एक बेहतर फिट है। मैं इसे मात्रात्मक रूप से दिखाना चाहूंगा, यद्यपि।
(लाल - डेटा, ग्रीन - मॉडल)