स्टेप वाइज एआईसी - क्या इस विषय को लेकर कोई विवाद है?


17

मैंने इस साइट पर अनगिनत पोस्ट पढ़ी हैं जो अविश्वसनीय रूप से किसी भी प्रकार के मानदंड का उपयोग करके चर के चयन के खिलाफ हैं चाहे वह पी-मान आधारित हो, एआईसी, बीआईसी, आदि।

मैं समझता हूं कि ये प्रक्रियाएं सामान्य क्यों हैं, चर के चयन के लिए काफी खराब हैं। गंग की संभवतः प्रसिद्ध पोस्ट यहाँ स्पष्ट रूप से बताती है कि क्यों; अंततः हम उसी डेटासेट पर एक परिकल्पना की पुष्टि कर रहे हैं जिसका उपयोग हम परिकल्पना के साथ करते थे, जो कि केवल डेटा ड्रेजिंग है। इसके अलावा, पी-वैल्यू मात्रा से प्रभावित होते हैं जैसे कि कोलीनियरिटी और आउटलेर, जो भारी तिरछा परिणाम, आदि।

हालाँकि, मैं हाल ही में थोड़ा सा पूर्वानुमान लगाते हुए टाइम सीरीज़ का अध्ययन कर रहा हूं और Hyndman की अच्छी तरह से सम्मानित पाठ्यपुस्तक में आया हूं, जिसमें उन्होंने विशेष रूप से ARIMA मॉडल के इष्टतम क्रम को खोजने के लिए यहां स्टेप वाइज चयन का उपयोग करने का उल्लेख किया है । वास्तव में, forecastआर में पैकेज में auto.arimaडिफ़ॉल्ट रूप से जाना जाने वाला एल्गोरिथ्म स्टेपवाइज़ चयन (एआईसी के साथ, पी-मान नहीं) का उपयोग करता है। वह पी-मूल्य आधारित सुविधा चयन की भी आलोचना करता है जो इस वेबसाइट पर कई पदों के साथ अच्छी तरह से संरेखित करता है।

अंत में, हमें हमेशा किसी तरह से सत्यापन को पार करना चाहिए यदि लक्ष्य पूर्वानुमान / भविष्यवाणी के लिए अच्छे मॉडल विकसित करना है। हालांकि, निश्चित रूप से यह यहाँ कुछ असहमति है जब यह पी-मान के अलावा मूल्यांकन मैट्रिक्स के लिए प्रक्रिया की बात आती है।

क्या कोई इस संदर्भ में सौतेला एआईसी के उपयोग पर कोई राय रखता है, लेकिन इस संदर्भ में सामान्य रूप से भी? मुझे यह मानने के लिए सिखाया गया है कि किसी भी कदम का चयन खराब है, लेकिन ईमानदार होना, auto.arima(stepwise = TRUE)मुझे नमूना परिणामों से बेहतर दे रहा है, auto.arima(stepwise = FALSE)लेकिन शायद यह केवल संयोग है।


पूर्वानुमानकर्ता जिन कुछ चीजों पर सहमत हो सकते हैं, उनमें से एक यह है कि एक "सर्वश्रेष्ठ" मॉडल का चयन आमतौर पर कई अलग-अलग मॉडलों के संयोजन से कम अच्छी तरह से काम करता है।
एस। कोलासा - मोनिका

जवाबों:


20

यहाँ कुछ अलग मुद्दे हैं।

  • संभवतः मुख्य मुद्दा यह है कि मॉडल चयन (चाहे पी-वैल्यू या एआईसीएस, स्टेप वाइज या ऑल-सबसैट या कुछ और) का उपयोग करना मुख्य रूप से अनुमान के लिए समस्याग्रस्त है (जैसे उपयुक्त प्रकार I त्रुटि के साथ पी-मान प्राप्त करना, उपयुक्त कवरेज के साथ आत्मविश्वास अंतराल)। के लिए भविष्यवाणी , मॉडल चयन वास्तव में पूर्वाग्रह-विचरण दुविधा यह धुरी पर एक बेहतर जगह ले सकते हैं और बाहर के नमूने में सुधार त्रुटि कर सकते हैं।
  • कुछ वर्गों के मॉडल के लिए, AIC समान-रूप से सीवी-आउट-आउट CV त्रुटि के बराबर है [उदाहरण के लिए http://www.petrkeil.com/?p=836 देखें ], इसलिए AIC को CV के लिए कम्प्यूटेशनल रूप से कुशल प्रॉक्सी के रूप में उपयोग करना उचित है।
  • स्टेप वाइज चयन अक्सर अन्य मॉडल चयन (या औसत ) विधियों (यदि सब-सब्सेट्स को कम्प्यूटेशनल रूप से व्यवहार्य, या संकोचन विधियों) द्वारा हावी किया जाता है । लेकिन यह सरल और लागू करने में आसान है, और यदि उत्तर पर्याप्त स्पष्ट है (मजबूत संकेतों के अनुरूप कुछ पैरामीटर, अन्य कमजोर, कुछ मध्यवर्ती), तो यह उचित परिणाम देगा। फिर से, अनुमान और भविष्यवाणी के बीच एक बड़ा अंतर है। उदाहरण के लिए यदि आपके पास दृढ़ता से सहसंबद्ध भविष्यवक्ताओं की एक जोड़ी है, तो गलत को चुनना ("सत्य" / कारण के दृष्टिकोण से) अनुमान के लिए एक बड़ी समस्या है, लेकिन जो आपको सबसे अच्छा एआईसी देता है उसे चुनना एक उचित है भविष्यवाणी के लिए रणनीति (यदि आप एक स्थिति का पूर्वानुमान लगाने की कोशिश करते हैं तो असफल हो जाएगा, जहां भविष्यवक्ताओं का सहसंबंध बदल जाता है ...)

नीचे पंक्ति: एक उचित सिग्नल-टू-शोर अनुपात के साथ मध्यम आकार के डेटा के लिए, एआईसी-आधारित स्टेपवाइज़ चयन वास्तव में एक रक्षात्मक भविष्य कहनेवाला मॉडल का उत्पादन कर सकता है ; एक उदाहरण के लिए मुर्तो (2009) देखें।

मुर्तो, पॉल ए। "कई चर applied चयन विधियों का प्रदर्शन वास्तविक पारिस्थितिक डेटा पर लागू होता है।" पारिस्थितिकी पत्र 12, नहीं। 10 (2009): 1061-1068।


पी

कृपया मुझे बर्नहैम और एंडरसन पर शुरू न करें। github.com/bbolker/discretization
बेन बोल्कर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.