सांख्यिकीय महत्व का उपयोग करके दो अलग-अलग मॉडलों की सटीकता की तुलना कैसे करें


10

मैं समय श्रृंखला भविष्यवाणी पर काम कर रहा हूं। मेरे पास दो डेटा सेट डी1={एक्स1,एक्स2,एक्सn} और डी2={एक्सn+1,एक्सn+2,एक्सn+3,,एक्सn+} । मेरे पास तीन भविष्यवाणी मॉडल हैं: 1,2,3 । उन सभी मॉडलों को डेटा सेटडी1 में नमूनों का उपयोग करके प्रशिक्षित कियाजाता है, और डेटा सेटडी2 में नमूनों का उपयोग करके उनके प्रदर्शन को मापा जाता है। मान लें कि प्रदर्शन मीट्रिक MSE (या कुछ और) है। उन मॉडलों जब डेटा सेट के लिए मापा के एमएसईडी2 हैंएस1,एस2, औरएस3 । मैं कैसे परीक्षण कर सकता हूं कि एक मॉडल का दूसरे पर सुधार सांख्यिकीय रूप से महत्वपूर्ण है।

उदाहरण के लिए, मान लें कि एस1=200 , एस2=205 , एस3=210 , और डेटा सेट डी2 में नमूना की कुल संख्या है, जिसके आधार पर उन MSE की गणना 2000 है। मैं कैसे परीक्षण कर सकता हूं कि एस1 , एस2 , और एस3 काफी अलग हैं। मैं बहुत सराहना करूंगा अगर कोई इस समस्या में मेरी मदद कर सकता है।

जवाबों:


1

संभावना अनुपात परीक्षण का उपयोग करने के लिए सभी उपर्युक्त लिंक में से एक, हालांकि आपके मॉडल को काम करने के लिए एक दूसरे में घोंसला बनाना पड़ता है (यानी मॉडल में से सभी मापदंडों को उस मॉडल में मौजूद होना चाहिए जिसे आप इसके खिलाफ परीक्षण कर रहे हैं) ।

आरएमएसई स्पष्ट रूप से एक उपाय है कि मॉडल डेटा को कितनी अच्छी तरह फिट करता है। हालाँकि, इसकी संभावना अनुपात है। श्रीमती चेन का कहना है कि श्रीमती चेन की संभावना इस बात की संभावना है कि उनके सभी मापदंडों के साथ एक व्यक्ति का परिणाम उसके पास था। डेटासेट की संयुक्त संभावना श्रीमती चेन की संभावना है * श्रीमती गुंडरसन की संभावना * श्रीमती जॉनसन की संभावना * ... आदि।

एक कोवरिएट, या किसी भी संख्या में सहसंयोजक जोड़ना, वास्तव में संभावना अनुपात को बदतर नहीं बना सकता है, मुझे नहीं लगता। लेकिन यह गैर-महत्वपूर्ण राशि द्वारा संभावना अनुपात में सुधार कर सकता है। जो मॉडल बेहतर फिट होंगे, उनकी संभावना अधिक होगी। आप औपचारिक रूप से परीक्षण कर सकते हैं कि क्या मॉडल ए मॉडल बी से बेहतर है। आपके पास जो भी सॉफ़्टवेयर आप उपयोग करते हैं, उसमें किसी प्रकार का LR परीक्षण फ़ंक्शन उपलब्ध होना चाहिए, लेकिन मूल रूप से, LR परीक्षण आँकड़ा -2 है * संभावना के लॉग के अंतर, और यह df के साथ ची-वर्ग वितरित किया जाता है = संख्या में अंतर मापदंडों के।

इसके अलावा, दो मॉडलों के एआईसी या बीआईसी की तुलना करना और सबसे कम का पता लगाना भी स्वीकार्य है। एआईसी और बीआईसी मूल रूप से पैरामीटर की संख्या के लिए दंडित लॉग संभावनाएं हैं।

मुझे RMSE के लिए एक टी-टेस्ट का उपयोग करने के बारे में निश्चित नहीं है, और मैं वास्तव में इसके खिलाफ झुकूंगा जब तक कि आप कुछ सैद्धांतिक काम नहीं पा सकते हैं जो क्षेत्र में किया गया है। मूल रूप से, क्या आप जानते हैं कि आरएमएसई के मूल्यों को कैसे समान रूप से वितरित किया जाता है? मुझे यकीन नहीं है। कुछ और चर्चा यहाँ:

http://www.stata.com/statalist/archive/2012-11/index.html#01017


0

यह जवाब इस तथ्य को ध्यान में नहीं रखता है, कि आपका डेटा एक समय श्रृंखला बनाता है, लेकिन मुझे नहीं लगता कि यह एक समस्या होगी।

आरएमएसई का उपयोग करते समय, यह पोस्ट एक टी-टेस्ट का उपयोग करने का सुझाव देती है: मॉडल के आरएमएसई का परीक्षण महत्व

आप अपने फिट का आकलन करने के लिए पियर्सन के सहसंबंध का भी उपयोग कर सकते हैं। इस पोस्ट के अनुसार, आप इसके लिए वोल्फ के टी-टेस्ट का उपयोग कर सकते हैं: सहसंबंध में वृद्धि का सांख्यिकीय महत्व

मैं वर्तमान में उसी समस्या के बारे में जानने की कोशिश कर रहा हूं। मैं स्वयं अधिक विस्तृत उत्तरों की सराहना करूंगा।


0

ऐसा करने के दो मुख्य तरीके हैं, लेकिन पहले मैं इस विचार को चुनौती दूंगा कि आप केवल एक चुनना चाहते हैं। सबसे अधिक संभावना है, तीन अलग-अलग मॉडल का एक पहनावा मॉडल सभी के सर्वश्रेष्ठ प्रदर्शन को प्राप्त करेगा।

मूल्यांकन मीट्रिक के आसपास आत्मविश्वास अंतराल प्राप्त करने के लिए मॉडल का उपयोग करने के लिए मुख्य, शायद सबसे अच्छा तरीका है। यह आमतौर पर बूटस्ट्रैपिंग ( या पॉइसन बूटस्ट्रैप ) के माध्यम से किया जाता है ।

दूसरा तरीका सांख्यिकीय परीक्षण का उपयोग करना है। प्रत्येक परीक्षण अलग-अलग धारणाएँ बनाता है, और इनका उपयोग अक्सर एकल बिंदु मूल्यांकन के बजाय वितरण से लिए गए मूल्य या नमूने की तुलना करने के लिए किया जाता है। इन सांख्यिकीय परीक्षणों में से कई को औपचारिक रूप से स्वतंत्रता की आवश्यकता होती है, जो आमतौर पर आपके पास समान मॉडल या समय श्रृंखला डेटा के कई मॉडल के कई परिणामों की तुलना करते समय नहीं होती है।

विशेष रूप से टाइम सीरीज़ की भविष्यवाणी के साथ, आपको हर समय क्रॉस-मान्यता और ट्रेन और परीक्षण त्रुटि का मूल्यांकन करने के साथ बैकिंग करना चाहिए ( उदाहरण ) । जब आप ऐसा करते हैं, तो मुझे संदेह है कि आपके मॉडल सभी समान रूप से प्रदर्शन करेंगे ताकि आपको अंतर करने के लिए सांख्यिकीय परीक्षण की आवश्यकता हो; सबसे अधिक संभावना है, आप बड़े अंतर देखेंगे।

यह भी ध्यान दें कि ऐतिहासिक मूल्यांकन मीट्रिक (पूर्वानुमान के लिए वास्तविक तुलना) अकेले भविष्यवाणी मूल्यांकन के लिए अपर्याप्त हैं। ज्ञात दो ऐतिहासिक आंकड़ों को पूरी तरह से फिट करने वाली दो भविष्यवाणियों को देखते हुए, लेकिन एक भविष्य के बारे में पूर्व मान्यताओं से मेल खाता है और दूसरा स्पष्ट रूप से उल्लंघन करता है (उदाहरण के लिए, यदि कोई शून्य पर गायब हो जाता है, लेकिन आपके पास विश्वास करने का कारण है कि ऐसा नहीं हो सकता), तो आप भविष्यवाणी पसंद करेंगे वह बेहतर आपके पूर्व से मेल खाता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.