हिडन मार्कोव मॉडल में "सर्वश्रेष्ठ" मॉडल का चयन करने के लिए मानदंड


12

मेरे पास एक समय श्रृंखला डेटा सेट है, जिसमें मैं डेटा में अव्यक्त राज्यों की संख्या का अनुमान लगाने के लिए एक छिपे हुए मार्कोव मॉडल (एचएमएम) को फिट करने की कोशिश कर रहा हूं। ऐसा करने के लिए मेरा छद्म कोड निम्नलिखित है:

for( i in 2 : max_number_of_states ){ 
    ...
    calculate HMM with i states
    ...
    optimal_number_of_states = "model with smallest BIC"
    ...
}

अब, सामान्य प्रतिगमन मॉडल में BIC सबसे अधिक पारिश्रमिक मॉडल का पक्ष लेता है, लेकिन HMM के मामले में मुझे यकीन नहीं है कि यह क्या कर रहा है। क्या किसी को वास्तव में पता है कि एचएमएम किस प्रकार का बीआईसी मानदंड है? मैं एआईसी और संभावना मूल्य भी प्राप्त करने में सक्षम हूं। चूंकि मैं राज्यों की वास्तविक कुल संख्या का अनुमान लगाने की कोशिश कर रहा हूं, क्या इस उद्देश्य के लिए इन मानदंडों में से एक "बेहतर" है?

जवाबों:


11

मैं यहाँ मान रहा हूँ कि आपका आउटपुट वेरिएबल श्रेणीबद्ध है, हालाँकि ऐसा नहीं हो सकता है। आमतौर पर, जब मैंने HMM का उपयोग देखा है, तो ट्यूनिंग के माध्यम से चयनित होने के बजाय राज्यों की संख्या पहले से ज्ञात है। आमतौर पर वे कुछ अच्छी तरह से समझे जाने वाले चर के अनुरूप होते हैं जो कि देखा नहीं जाना होता है। लेकिन इसका मतलब यह नहीं है कि आप इसके साथ प्रयोग नहीं कर सकते।

हालांकि BIC (और AIC) का उपयोग करने में खतरा यह है कि मॉडल में नि: शुल्क मापदंडों की संख्या के लिए k मान राज्यों की संख्या के साथ द्विगुणित रूप से बढ़ता है क्योंकि आपके पास Px (P-1) मापदंडों (P राज्यों के लिए) के साथ संक्रमण संभावना मैट्रिक्स है ) और प्रत्येक राज्य को दिए गए आउटपुट की प्रत्येक श्रेणी के लिए आउटपुट संभावनाएं। तो अगर AIC और BIC की सही गणना की जा रही है, तो k को तेजी से ऊपर जाना चाहिए।

यदि आपके पास पर्याप्त डेटा है, तो मैं एक होल्डआउट नमूने पर परीक्षण जैसे राज्यों की संख्या को ट्यून करने की एक नरम विधि की सिफारिश करूंगा। आप भी केवल संभावना को देखना चाहते हैं और यह देखना होगा कि यह किस बिंदु पर है। यदि आपका डेटा बड़ा है, तो यह भी ध्यान रखें कि यह BIC को एक छोटे मॉडल पर धकेल देगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.