ओवर-फिटिंग डेटा के बिना सबसे अच्छा फिट का चयन कैसे करें? एन सामान्य कार्यों, आदि के साथ एक द्विदिश वितरण मॉडलिंग


11

मेरे पास स्पष्ट रूप से मूल्यों का वितरण है, जिसे मैं फिट करना चाहता हूं। डेटा को 2 सामान्य कार्यों (बिमोडल) या 3 सामान्य कार्यों के साथ अच्छी तरह से फिट किया जा सकता है। इसके अतिरिक्त, डेटा को 3 के साथ फिट करने के लिए एक प्रशंसनीय भौतिक कारण है।

जितने अधिक पैरामीटर पेश किए जाते हैं, फिट उतना ही सही होगा, क्योंकि पर्याप्त स्थिरांक के साथ, एक " एक हाथी को फिट कर सकता है "।

यहाँ वितरण, 3 सामान्य (गाऊसी) वक्रों के योग के साथ फिट है:

के साथ वितरण

ये प्रत्येक फिट के लिए डेटा हैं। मुझे यकीन नहीं है कि फिट का निर्धारण करने के लिए मुझे यहां क्या परीक्षण करना चाहिए। डेटा में 91 अंक होते हैं।

1 सामान्य समारोह:

  • RSS: 1.06231
  • एक्स ^ 2: 3.1674
  • F.Test: 0.3092

2 सामान्य कार्य:

  • RSS: 0.010939
  • एक्स ^ 2: 0.053896
  • F.Test: 0.97101

3 सामान्य कार्य:

  • RSS: 0.00536
  • एक्स ^ 2: 0.02794
  • F.Test: 0.99249

सही सांख्यिकीय परीक्षण क्या है जो यह निर्धारित करने के लिए लागू किया जा सकता है कि इन 3 फिट में से कौन सा सबसे अच्छा है? जाहिर है, 1 सामान्य कार्य फिट अपर्याप्त है। तो मैं 2 और 3 के बीच भेदभाव कैसे कर सकता हूं?

जोड़ने के लिए, मैं ज्यादातर एक्सेल और थोड़ा पायथन के साथ ऐसा कर रहा हूं; मेरे पास अभी तक R या अन्य सांख्यिकीय भाषाओं से परिचित नहीं है।


यह सुझाव दिया गया है कि मैं कम ची स्क्वार्ड X ^ 2 / (Nn-1) का उपयोग करता हूं जहां N डेटा बिंदुओं की संख्या है और n फिट किए गए मापदंडों की संख्या है। हालाँकि, डेटा पॉइंट्स (91) की संख्या के सापेक्ष छोटी पैंटीटी (+/- 3) किसी अन्य गॉसियन को जोड़ने के लिए विशेष रूप से खड़ी दंड की तरह नहीं लगती है।
मर्फीसलैब

आप इस उत्तर की जांच करना चाहते हैं (यदि आप Rमार्ग पर जाने का निर्णय लेंगे )। इस उत्तर में कुछ मॉडल चयन मानदंडों का उल्लेख किया गया है । अंत में, आप पहनावे के तरीकों पर विचार करना चाह सकते हैं , जिसे मैंने संक्षेप में इस उत्तर में शामिल किया है , जिसमें पायथन-केंद्रित जानकारी का लिंक भी है। आप इस उत्तर में मॉडल चयन और औसत पर अधिक जानकारी पा सकते हैं ।
१०:३० पर असेम्बली बेलेख

जवाबों:


5

यहां दो तरीके हैं जिनसे आप अपने वितरण का चयन करने में समस्या का सामना कर सकते हैं:

  1. मॉडल तुलना के लिए एक माप का उपयोग करें जो मापदंडों की संख्या के आधार पर मॉडल को दंडित करता है। सूचना मानदंड यह करते हैं। किस मॉडल को बनाए रखना है, यह चुनने के लिए एक सूचना मानदंड का उपयोग करें, सबसे कम सूचना मानदंड के साथ मॉडल चुनें (उदाहरण के लिए एआईसी)। तुलना करने के लिए अंगूठे का नियम यदि AIC में अंतर महत्वपूर्ण है, यदि AIC में अंतर 2 से अधिक है (यह औपचारिक परिकल्पना परीक्षण नहीं है, तो दो गैर-नेस्टेड मॉडल के AIC में अंतर का परीक्षण देखें )।

    AIC = , जहां अनुमानित मापदंडों की संख्या है और अधिकतम संभावना है, और संभावना समारोह है और मनाया डेटा की संभावना है वितरण पैरामीटर पर सशर्त ।2k2ln(L)kLL=maxθL(θ|x)L(θ|x)=Pr(x|θ)Pr(x|θ)xθ

  2. यदि आप एक औपचारिक परिकल्पना परीक्षण चाहते हैं तो आप कम से कम दो तरीकों से आगे बढ़ सकते हैं। यकीनन एक आसान आपके नमूने के हिस्से का उपयोग करके आपके वितरण को फिट करना है और परीक्षण की तुलना में यदि अवशेषों के वितरण बाकी डेटा पर ची-स्क्वेर्ड या कोलगोमोरोव-स्मिरनोव परीक्षण का उपयोग करके काफी अलग हैं। इस तरह से आप अपने मॉडल को फिट और परीक्षण करने के लिए उसी डेटा का उपयोग नहीं कर रहे हैं जैसा कि एंड्रयूएम ने टिप्पणियों में उल्लेख किया है।

    आप अशक्त वितरण के समायोजन के साथ संभावना अनुपात परीक्षण भी कर सकते हैं। इसका एक संस्करण लो वाई एट अल अल में वर्णित है। (2013) "सामान्य मिश्रण में घटकों की संख्या का परीक्षण।" बायोमेट्रिक लेकिन मेरे पास लेख तक पहुंच नहीं है इसलिए मैं आपको अधिक विवरण प्रदान नहीं कर सकता कि यह कैसे करना है।

    किसी भी तरह से, यदि परीक्षण महत्वपूर्ण नहीं है, तो मापदंडों की कम संख्या के साथ वितरण को बनाए रखें, अगर यह महत्वपूर्ण है कि मापदंडों की अधिक संख्या के साथ एक का चयन करें।


@Momo धन्यवाद, कि बदल गया और एआईसी के लिए समीकरण जोड़ा
क्रिस नोवाक

मुझे 100% यकीन नहीं है, लेकिन मानक एआईसी मिश्रण मॉडल में अपेक्षित रूप से काम नहीं कर सकता है क्योंकि मिश्रण के विभिन्न विन्यास एक ही मॉडल का उत्पादन कर सकते हैं।
कागदस ओजेंक

मेरा मतलब था कि आप 2 गॉसियों की अदला-बदली कर सकते हैं (1 से 2 और 2 के माध्य / विचरण को सेट करके और मिक्स वाइट के लिए भी) और फिर भी एक ही मॉडल प्राप्त करें। जहां तक ​​मुझे पता है कि एआईसी ऐसी स्थितियों में अपेक्षित रूप से काम नहीं करता है।
कागदस ओजेंक

1
@ कैगदासओज़गेंक मैं आपकी बात को देख रहा हूं, लेकिन ऐसा लगता है कि मानक एआईसी और बीआईसी को गॉसियन मिश्रण मॉडल में मॉडल के चयन के लिए पर्याप्त दिखाया गया था, उदाहरण के लिए देखें पेपर projecteuclid.org/download/pdf/euclid.aos/1176348772
क्रिस नोवाक

1
@ क्रिसहॉवाक हाँ, एक संभावना अनुपात परीक्षण ( पैरामीटर स्पेस के आयाम में अंतर के बराबर डीओएफ के साथ ठेठ से नल नमूना वितरण के लिए समायोजन के साथ ) एक अच्छा विचार है। मुझे नहीं पता कि समायोजन कितने जटिल हैं, लेकिन इन मामलों में मिश्रण विशिष्ट हैं। समायोजन आवश्यक हैं क्योंकि आप पैरामीटर स्थान की सीमा पर एक बिंदु का परीक्षण कर रहे हैं। χ2χ2
एंड्रयू एम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.