एक सामान्य additive Poisson मॉडल समस्या में df चयन चुनें


9

मैं एसएएस का उपयोग करके कुछ समय श्रृंखला डेटा पोइसन सामान्य एडिटिव मॉडल का उपयोग कर रहा हूं PROC GAM। आम तौर पर बोलते हुए, मुझे लगता है कि यह बिलकुल सामान्यीकृत क्रॉस-वैलिडेशन प्रक्रिया है, जो मेरी एकल पंक्ति के लिए कम से कम एक सभ्य "शुरुआती बिंदु" उत्पन्न करता है, जो कि एक एकल पैरामीट्रिक शब्द (एक मैं) के साथ समय का एक गैर-रैखिक कार्य है। वास्तव में दिलचस्पी है)।

अब तक, यह मेरे एक डेटा सेट के अपवाद के साथ, बल्कि तैरकर काम किया है। उस डेटा सेट में 132 अवलोकन हैं, और GCV स्वतंत्रता की 128 डिग्री की एक सीमा का सुझाव देता है। ऐसा लगता है ... गलत। बहुत गलत। इससे भी महत्वपूर्ण बात यह है कि यह बिल्कुल भी स्थिर नहीं है। मैंने एक दूसरे दृष्टिकोण की कोशिश की, स्वतंत्रता की डिग्री जोड़ने से रोकने के लिए "एस्टीमेट में बदलाव" मानदंड का उपयोग करते हुए जब पैरामीट्रिक शब्द का अनुमान बदलना बंद हो जाता है क्योंकि कुछ भी अलग नहीं होने पर नियंत्रण क्यों जोड़ना जारी रहता है?

समस्या यह है कि अनुमान बिल्कुल स्थिर नहीं है। मैंने स्वतंत्रता की निम्न डिग्री की कोशिश की, और जैसा कि आप देख सकते हैं, पैरामीट्रिक शब्द बेतहाशा उछलता है:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

मुझे इस बात की बिल्कुल भी जानकारी नहीं है कि इस विशेष बिट डेटा के लिए df के संदर्भ में मुझे क्या उपयोग करना चाहिए। डीएफ कैसे चुनें के लिए कोई अन्य विचार? क्या मुझे तख़्ती के महत्व को देखना चाहिए?

Df = 10 और df = 15 के बीच कुछ और तलाश करना, ऐसा लगता है जैसे df = 12 निकटतम है जो आप 128 द्वारा उत्पन्न अनुमान के पास आ सकते हैं और फिर भी "स्वतंत्रता की उचित डिग्री" श्रेणी में हो सकते हैं। रैखिक शब्द, अवरोधन और एकल पैरामीट्रिक शब्द के साथ, यह एक बहुत भारी संतृप्त मॉडल की तरह लगता है। क्या सिर्फ 12 के साथ जाना उचित है?

एक दूसरे अद्यतन के रूप में, से समरेखण को बदलने spline(t)के लिए loess(t)मैं सिर्फ लेस समरेखण करने के लिए स्विच करना चाहिए - और अधिक अनुमान df अच्छी तरह से व्यवहार में जिसके परिणामस्वरूप है?


132 टिप्पणियों के साथ आपके डेटासेट में, क्या कोई संबद्ध संख्या और ऑफसेट शब्द है, जिसका अर्थ है कि यह वास्तव में 132 से अधिक प्रस्तुतियों के साथ एक भारित डेटासेट है? पोइसन आरवी में माध्य विचरण संबंध के कारण, बड़ी गणना "मॉडल चयन" गुणों को जन्म दे सकती है जो "बड़े नमूना आकार" के कारण प्रतिकूल हैं।
एडमो

डेटासेट 132 सप्ताह का डेटा है, जिसे ऑफसेट के रूप में गिना जाता है = मॉडल शब्द + लॉग (व्यक्ति-समय)। गिनती कभी भी विशेष रूप से अधिक नहीं होती है - लेकिन उचित संख्या में शून्य होते हैं।
फोमाइट

जवाबों:


5

जैसा कि @ M.Berk का उल्लेख है, जीसीवी को मुख्य रूप से जाना जाता है, क्योंकि यह मानदंड कमजोर रूप से ओवरफिटिंग को दंडित करता है, जिसके परिणामस्वरूप जीसीवी मानदंड में एक बहुत उथले न्यूनतम परिणाम होता है λ, चिकनाई पैरामीटर। जैसा कि न्यूनतम बहुत उथला है, इष्टतम जीसीवी की एक विस्तृत श्रृंखला पर हो सकता हैλअनुमान। इसके अलावा, GCV मानदंड, के एक समारोह के रूप मेंλकई मिनीमा है, जो आपके द्वारा वर्णित अस्थिरता को जन्म दे सकती है। साइमन वुड (2011) ने अपने चित्र 1 में इसका अच्छा चित्रण किया है।

वुड (2011) यह भी बताता है कि एआईसीसी जीसीवी से कम इंटरमीडिएट रैंक के आधार पर सुचारू कार्यों के लिए उपयोग किए जाने वाले अतिरिक्त लाभ प्रदान नहीं करता है ।

इसके विपरीत, REML (और ML) चिकनाई चयन भी GCV की तुलना में अधिक दृढ़ता से दंडित करता है, और इसके परिणामस्वरूप बहुत अधिक स्पष्ट रूप से परिभाषित इष्टतम है। यह अधिक स्थिर अनुमानों की ओर जाता हैλ और बहुत कम जोखिम के नीचे।

वुड (2011) ने REML और ML आकलन प्रक्रियाओं का वर्णन किया है जो तेज और स्थिर दोनों हैं, जो कि वह अभिसरण के संदर्भ में मौजूदा REML (ML) दृष्टिकोणों में सुधार दिखाता है। ये विचार आर के लिए साइमन के mgcv पैकेज में उपलब्ध हैं ।

जैसा कि वुड (2011) एक पेवल के पीछे है, मैं एक समान छवि की एक प्रति शामिल करता हूं (एआईसीसी के परिणाम यहां नहीं दिखाए गए हैं) साइमन की स्लाइड्स के एक सेट से लिया गया है, जो उनकी वेबसाइट पर उपलब्ध है , चिकनाई के चयन के तरीकों {पीडीएफ} पर। स्लाइड 10 से, आंकड़ा नीचे दिखाया गया है

यहाँ छवि विवरण दर्ज करें

दो पंक्तियाँ सिम्युलेटेड डेटा को दर्शाती हैं जहाँ क्रमशः एक मजबूत (ऊपरी) या कोई (निचला) संकेत नहीं होता है। बाएं-सबसे पैनल प्रत्येक मॉडल से एक अहसास दिखाते हैं। शेष पैनल दिखाते हैं कि GCV (मध्य स्तंभ) और REML मानदंड किस तरह के कार्य के रूप में भिन्न होते हैंλ10 के लिए डेटा वास्तविक मॉडल से प्रत्येक नकली सेट करता है। ऊपरी पंक्ति के मामले में, नोटिस करें कि इष्टतम के बाईं ओर जीसीवी कितना सपाट है। इन पैनलों में गलीचा भूखंड इष्टतम दर्शाता हैλ10 में से प्रत्येक अहसास के लिए। REML मानदंड में अधिक स्पष्ट इष्टतम और चुने हुए मूल्यों में कम विचरण हैλ

इसलिए मैं अपने mgcv पैकेज के लिए साइमन वुड द्वारा वकालत किए गए दृष्टिकोण का सुझाव दूंगा , जो कि आधार आयाम के रूप में चुना जाना चाहिए, जो उस संबंध में प्रत्याशित लचीलेपन को शामिल करने के लिए पर्याप्त रूप से बड़ा है।y=f(x)+ε, लेकिन इतना बड़ा नहीं। फिर REML चिकनाई चयन का उपयोग करके मॉडल को फिट करें। यदि स्वतंत्रता का चुना हुआ मॉडल डिग्री शुरू में निर्दिष्ट आयाम के करीब है, तो आधार आयाम बढ़ाएं और रिफिट करें।

जैसा कि @ M.Berk और @BrendenDufault दोनों ने उल्लेख किया है कि, उचित आधार आयाम का चयन करने के संदर्भ में, जिस पर GAM को फिट करने के संदर्भ में, आधार रेखा की स्थापना करते समय विषय की डिग्री की आवश्यकता हो सकती है। लेकिन रेम की चिकनाई का चयन वुड के तरीकों का उपयोग करते हुए GAM अनुप्रयोगों की एक श्रृंखला में मेरे अनुभव में काफी मजबूत साबित हुआ है।

वुड, एसएन (2011) तेजी से स्थिर अधिकतम संभावना और अर्धवृत्ताकार सीमांत मॉडल को सीमांत संभावना का अनुमान हैजे। रॉयल स्टैटिस्टिकल सोसायटी बी 73 (भाग 1), 3--6।


@EpiGrad में आपका स्वागत है। क्षमा करें, मुझे उस समय प्रश्न याद आया; पिछले एक या दो वर्षों में मैं आपके जैसी स्थितियों से जूझ रहा हूं और इस पर साइमन वुड के कागजात पढ़े हैं और कई अवसरों पर चयन किया गया है। खुशी है कि मैं मदद करने के लिए कुछ विवरण याद करने में सक्षम था।
गैविन सिम्पसन २

3

मुझे लगता है कि स्मूथिंग एल्गोरिदम के बाहर आपका सबसे अच्छा दांव झूठ है; मॉडल पार्सिमनी पर विचार करें।

आप इससे सहमत हैं, लेकिन मेरा मानना ​​है कि यह आपका मुख्य चयन मानदंड बनना चाहिए। अपने आप से पूछें कि मॉडलिंग की जाने वाली प्रक्रियाओं के एटियलजि / कारण के आधार पर कितने "झुकता" उचित लगता है। plots=components(clm)कथन के साथ फिट किए गए विभाजन को रेखांकन करें और नेत्रहीन रूप से फिट का आकलन करें। शायद उच्च डीएफ स्प्लिन एक समान कहानी को कम डीएफ स्प्लिन के रूप में बता रहे हैं, और अधिक शोर को छोड़कर। उस मामले में, एक कम डीएफ फिट चुनें।

आखिरकार, GAM मॉडल खोजपूर्ण होने का इरादा रखते हैं।

खुद को gcv विकल्प का उपयोग करने के बाद , मुझे पॉइसन की स्थिति, विरल डेटा, आदि के तहत इसके प्रदर्शन के बारे में आश्चर्य होता है।


2

मैंने निम्नलिखित उत्तर टाइप किया और तब मुझे पता चला कि यदि यह पॉइसन रिग्रेशन पर लागू नहीं होता है जिसका मुझे कोई अनुभव नहीं है। शायद लोग इसका जवाब कुछ टिप्पणियों के साथ दे सकते हैं।


व्यक्तिगत रूप से, मुझे बीडब्ल्यू सिल्वरमैन (1985) की सलाह पसंद है "गैर-पैरामीट्रिक रिग्रेशन वक्र फिटिंग (चर्चा के साथ) के लिए स्पलाइन स्मूथिंग दृष्टिकोण के कुछ पहलू।" ( यहाँ सदस्यता के बिना उपलब्ध ): चौरसाई मापदंडों की एक श्रृंखला का प्रयास करें और सबसे नेत्रहीन अपील करने वाले को चुनें।

जैसा कि वह ठीक उसी पेपर में बताते हैं, जबकि व्यक्तिपरक दृष्टिकोण को प्राथमिकता दी जा सकती है, अभी भी स्वचालित तरीकों की आवश्यकता है। हालांकि, जीसीवी आम तौर पर एक खराब विकल्प है क्योंकि इसमें अंडरस्मिट करने की प्रवृत्ति होती है। उदाहरण के लिए, हुरिच एट अल (1998) "नॉनपेरमेट्रिक रिग्रेशन में स्मूथिंग पैरामीशन सिलेक्शन एक इम्प्रूव्ड एकाइक इनफॉर्मेशन मानदंड का उपयोग करके" ( यहां सदस्यता के बिना उपलब्ध )। उसी पेपर में वे एक नए मानदंड का प्रस्ताव करते हैं जो आपकी समस्या को कम कर सकता है, सही किया गया एआईसी जिसमें एक छोटा सा नमूना आकार सुधार शामिल है। आपको पेपर की तुलना में एआईसीसी का विकिपीडिया विवरण आसान लग सकता है। विकिपीडिया लेख में बर्नहैम और एंडरसन से कुछ अच्छी सलाह भी शामिल है (यानी नमूना आकार की परवाह किए बिना एआईसी के बजाय एआईसीसी का उपयोग करें)।

संक्षेप में, वरीयता के क्रम में मेरे सुझाव होंगे:

  1. दृश्य मूल्यांकन के माध्यम से मैन्युअल रूप से चौरसाई पैरामीटर चुनें
  2. GCV के बजाय सही AIC (AICc) का उपयोग करें
  3. मानक AIC का उपयोग करें
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.