सांख्यिकीय महत्व का उपयोग करके दो अलग-अलग मॉडलों की सटीकता की तुलना कैसे करें

10

मैं समय श्रृंखला भविष्यवाणी पर काम कर रहा हूं। मेरे पास दो डेटा सेट $D1=\{x_1, x_2,....x_n\}$ और $D2=\{x_n+1, x_n+2, x_n+3,...., x_n+k\}$ । मेरे पास तीन भविष्यवाणी मॉडल हैं: $M1, M2, M3$ । उन सभी मॉडलों को डेटा सेट $D1$ में नमूनों का उपयोग करके प्रशिक्षित कियाजाता है, और डेटा सेट $D2$ में नमूनों का उपयोग करके उनके प्रदर्शन को मापा जाता है। मान लें कि प्रदर्शन मीट्रिक MSE (या कुछ और) है। उन मॉडलों जब डेटा सेट के लिए मापा के एमएसई $D2$ हैं $MSE_1, MSE_2,$ और $MSE_3$ । मैं कैसे परीक्षण कर सकता हूं कि एक मॉडल का दूसरे पर सुधार सांख्यिकीय रूप से महत्वपूर्ण है।

उदाहरण के लिए, मान लें कि $MSE_1=200$ , $MSE_2=205$ , $MSE_3=210$ , और डेटा सेट $D2$ में नमूना की कुल संख्या है, जिसके आधार पर उन MSE की गणना 2000 है। मैं कैसे परीक्षण कर सकता हूं कि $MSE_1$ , $MSE_2$ , और $MSE_3$ काफी अलग हैं। मैं बहुत सराहना करूंगा अगर कोई इस समस्या में मेरी मदद कर सकता है।

— मसूद
स्रोत

1

संभावना अनुपात परीक्षण का उपयोग करने के लिए सभी उपर्युक्त लिंक में से एक, हालांकि आपके मॉडल को काम करने के लिए एक दूसरे में घोंसला बनाना पड़ता है (यानी मॉडल में से सभी मापदंडों को उस मॉडल में मौजूद होना चाहिए जिसे आप इसके खिलाफ परीक्षण कर रहे हैं) ।

आरएमएसई स्पष्ट रूप से एक उपाय है कि मॉडल डेटा को कितनी अच्छी तरह फिट करता है। हालाँकि, इसकी संभावना अनुपात है। श्रीमती चेन का कहना है कि श्रीमती चेन की संभावना इस बात की संभावना है कि उनके सभी मापदंडों के साथ एक व्यक्ति का परिणाम उसके पास था। डेटासेट की संयुक्त संभावना श्रीमती चेन की संभावना है * श्रीमती गुंडरसन की संभावना * श्रीमती जॉनसन की संभावना * ... आदि।

एक कोवरिएट, या किसी भी संख्या में सहसंयोजक जोड़ना, वास्तव में संभावना अनुपात को बदतर नहीं बना सकता है, मुझे नहीं लगता। लेकिन यह गैर-महत्वपूर्ण राशि द्वारा संभावना अनुपात में सुधार कर सकता है। जो मॉडल बेहतर फिट होंगे, उनकी संभावना अधिक होगी। आप औपचारिक रूप से परीक्षण कर सकते हैं कि क्या मॉडल ए मॉडल बी से बेहतर है। आपके पास जो भी सॉफ़्टवेयर आप उपयोग करते हैं, उसमें किसी प्रकार का LR परीक्षण फ़ंक्शन उपलब्ध होना चाहिए, लेकिन मूल रूप से, LR परीक्षण आँकड़ा -2 है * संभावना के लॉग के अंतर, और यह df के साथ ची-वर्ग वितरित किया जाता है = संख्या में अंतर मापदंडों के।

इसके अलावा, दो मॉडलों के एआईसी या बीआईसी की तुलना करना और सबसे कम का पता लगाना भी स्वीकार्य है। एआईसी और बीआईसी मूल रूप से पैरामीटर की संख्या के लिए दंडित लॉग संभावनाएं हैं।

मुझे RMSE के लिए एक टी-टेस्ट का उपयोग करने के बारे में निश्चित नहीं है, और मैं वास्तव में इसके खिलाफ झुकूंगा जब तक कि आप कुछ सैद्धांतिक काम नहीं पा सकते हैं जो क्षेत्र में किया गया है। मूल रूप से, क्या आप जानते हैं कि आरएमएसई के मूल्यों को कैसे समान रूप से वितरित किया जाता है? मुझे यकीन नहीं है। कुछ और चर्चा यहाँ:

http://www.stata.com/statalist/archive/2012-11/index.html#01017

— वेइवन एनजी
स्रोत

0

यह जवाब इस तथ्य को ध्यान में नहीं रखता है, कि आपका डेटा एक समय श्रृंखला बनाता है, लेकिन मुझे नहीं लगता कि यह एक समस्या होगी।

आरएमएसई का उपयोग करते समय, यह पोस्ट एक टी-टेस्ट का उपयोग करने का सुझाव देती है: मॉडल के आरएमएसई का परीक्षण महत्व

आप अपने फिट का आकलन करने के लिए पियर्सन के सहसंबंध का भी उपयोग कर सकते हैं। इस पोस्ट के अनुसार, आप इसके लिए वोल्फ के टी-टेस्ट का उपयोग कर सकते हैं: सहसंबंध में वृद्धि का सांख्यिकीय महत्व

मैं वर्तमान में उसी समस्या के बारे में जानने की कोशिश कर रहा हूं। मैं स्वयं अधिक विस्तृत उत्तरों की सराहना करूंगा।

— Buechel
स्रोत

0

ऐसा करने के दो मुख्य तरीके हैं, लेकिन पहले मैं इस विचार को चुनौती दूंगा कि आप केवल एक चुनना चाहते हैं। सबसे अधिक संभावना है, तीन अलग-अलग मॉडल का एक पहनावा मॉडल सभी के सर्वश्रेष्ठ प्रदर्शन को प्राप्त करेगा।

मूल्यांकन मीट्रिक के आसपास आत्मविश्वास अंतराल प्राप्त करने के लिए मॉडल का उपयोग करने के लिए मुख्य, शायद सबसे अच्छा तरीका है। यह आमतौर पर बूटस्ट्रैपिंग ( या पॉइसन बूटस्ट्रैप ) के माध्यम से किया जाता है ।

दूसरा तरीका सांख्यिकीय परीक्षण का उपयोग करना है। प्रत्येक परीक्षण अलग-अलग धारणाएँ बनाता है, और इनका उपयोग अक्सर एकल बिंदु मूल्यांकन के बजाय वितरण से लिए गए मूल्य या नमूने की तुलना करने के लिए किया जाता है। इन सांख्यिकीय परीक्षणों में से कई को औपचारिक रूप से स्वतंत्रता की आवश्यकता होती है, जो आमतौर पर आपके पास समान मॉडल या समय श्रृंखला डेटा के कई मॉडल के कई परिणामों की तुलना करते समय नहीं होती है।

विशेष रूप से टाइम सीरीज़ की भविष्यवाणी के साथ, आपको हर समय क्रॉस-मान्यता और ट्रेन और परीक्षण त्रुटि का मूल्यांकन करने के साथ बैकिंग करना चाहिए ( उदाहरण ) । जब आप ऐसा करते हैं, तो मुझे संदेह है कि आपके मॉडल सभी समान रूप से प्रदर्शन करेंगे ताकि आपको अंतर करने के लिए सांख्यिकीय परीक्षण की आवश्यकता हो; सबसे अधिक संभावना है, आप बड़े अंतर देखेंगे।

यह भी ध्यान दें कि ऐतिहासिक मूल्यांकन मीट्रिक (पूर्वानुमान के लिए वास्तविक तुलना) अकेले भविष्यवाणी मूल्यांकन के लिए अपर्याप्त हैं। ज्ञात दो ऐतिहासिक आंकड़ों को पूरी तरह से फिट करने वाली दो भविष्यवाणियों को देखते हुए, लेकिन एक भविष्य के बारे में पूर्व मान्यताओं से मेल खाता है और दूसरा स्पष्ट रूप से उल्लंघन करता है (उदाहरण के लिए, यदि कोई शून्य पर गायब हो जाता है, लेकिन आपके पास विश्वास करने का कारण है कि ऐसा नहीं हो सकता), तो आप भविष्यवाणी पसंद करेंगे वह बेहतर आपके पूर्व से मेल खाता है।

— माइकल ब्रुंडेज
स्रोत