मेरे पास सितारों के मापदंडों का प्रतिनिधित्व करने वाले डेटा के दो सेट हैं: एक मनाया हुआ और एक मॉडल वाला। इन सेटों के साथ मैं वह बनाता हूं जिसे टू-कलर-डायग्राम (TCD) कहा जाता है। एक नमूना यहाँ देखा जा सकता है:
एक मनाया गया डेटा और बी मॉडल से निकाले गए डेटा (काली रेखाओं पर कभी भी ध्यान न रखें, डॉट्स डेटा का प्रतिनिधित्व करते हैं) मेरे पास केवल एक ए आरेख है, लेकिन मैं जितना चाहता हूं, उतने अलग-अलग बी आरेख तैयार कर सकते हैं और मुझे क्या चाहिए वह रखने के लिए जो सबसे अच्छा फिट बैठता है ए ।
तो क्या मैं जरूरत आरेख के फिट की अच्छाई की जांच करने के लिए एक विश्वसनीय तरीका है बी आरेख के लिए (मॉडल) ए (मनाया गया)।
अभी मैं जो कुछ भी करता हूं वह एक 2 डी हिस्टोग्राम या ग्रिड बनाता है (जिसे मैं इसे कहता हूं, हो सकता है कि प्रत्येक आरेख के लिए दोनों आरेखों को दूर करके प्रत्येक डायग्राम के लिए अधिक उचित नाम हो) (प्रत्येक के लिए 100 डिब्बे) फिर मैं ग्रिड के प्रत्येक सेल से गुजरता हूं और मुझे उस विशेष सेल के लिए ए और बी के बीच की गिनती में पूर्ण अंतर लगता है । सभी कोशिकाओं के माध्यम से जाने के बाद, मैं प्रत्येक सेल के लिए मानों को योग करता हूं और इसलिए मैं ए और बी के बीच फिट ( जी एफ ) की अच्छाई का प्रतिनिधित्व करने वाले एकल सकारात्मक पैरामीटर के साथ समाप्त होता हूं । शून्य के जितना करीब होगा, उतना ही बेहतर होगा। मूल रूप से, यह वही है जो पैरामीटर दिखता है:
; जहां एक मैं j चित्र में सितारों की संख्या हैएकहै कि विशेष सेल के लिए (द्वारा निर्धारित मैं j ) और ख मैं जे के लिए संख्या हैबी।
यह वही है उन है में की तरह प्रत्येक कोशिका नज़र में गणनाओं में भिन्नताएँ ग्रिड मैं (ध्यान दें कि मैं के निरपेक्ष मानों का उपयोग नहीं कर रहा हूँ बनाने के ( एक मैं j - ख मैं जे ) इस छवि में लेकिन मैं कर जब की गणना उन्हें इस्तेमाल ग्राम च पैरामीटर):
समस्या यह है कि मुझे सलाह दी गई है कि यह एक अच्छा अनुमानक नहीं हो सकता है, मुख्य रूप से यह कहने के अलावा कि यह फिट इस अन्य की तुलना में बेहतर है क्योंकि पैरामीटर कम है , मैं वास्तव में अधिक कुछ नहीं कह सकता।
महत्वपूर्ण :
(साभार @PeterEllis इसे लाने के लिए)
1- बी में अंक ए में अंक के साथ एक-से-एक से संबंधित नहीं हैं । यही कारण है कि जब सबसे उपयुक्त के लिए खोज को ध्यान में रखने के लिए एक महत्वपूर्ण बात है: में अंकों की संख्या एक और बी है नहीं जरूरी एक ही और फिट की अच्छाई परीक्षण भी इस विसंगति के लिए खाते और उसे कम से कम करने के लिए प्रयास करना चाहिए।
2- प्रत्येक बी डेटा सेट (मॉडल आउटपुट) में अंकों की संख्या जो मैं ए से फिट करने की कोशिश करता हूं , वह तय नहीं है।
मैंने कुछ मामलों में ची-स्क्वार्ड परीक्षण का उपयोग किया है:
इसके अलावा, मैंने पढ़ा है कि कुछ लोग इस तरह के मामलों में जहां हिस्टोग्राम शामिल होते हैं, वहां लॉग इन होने की संभावना की जांच करते हैं। यदि यह सही है, तो मैं वास्तव में इसकी सराहना करूंगा यदि कोई मुझे इस विशेष मामले में उस परीक्षण का उपयोग करने का निर्देश दे सकता है (याद रखें, आंकड़ों का मेरा ज्ञान बहुत खराब है, इसलिए कृपया इसे जितना संभव हो उतना सरल रखें :)