विभिन्न "सर्वश्रेष्ठ" मॉडलों में से सर्वश्रेष्ठ मॉडल चुनना


28

आप विभिन्न तरीकों द्वारा चुने गए विभिन्न मॉडलों में से एक मॉडल का चयन कैसे करते हैं (जैसे पीछे या आगे का चयन)?

यह भी एक आदर्श मॉडल क्या है?


मैंने शीर्षक को संपादित किया है (उम्मीद है) आपकी बात को और स्पष्ट करेगा।

जवाबों:


39

पार्सिमोनियस मॉडल एक मॉडल है जो वांछित स्तर की व्याख्या या भविष्यवाणी के साथ कुछ भविष्यवाणियों को यथासंभव सटीक रूप से पूरा करता है।

मॉडल मूल्यांकन के लिए आप जो जानना चाहते हैं उसके आधार पर अलग-अलग तरीके हैं। आमतौर पर एक मॉडल के मूल्यांकन के दो तरीके हैं: पूर्वानुमान के आधार पर और वर्तमान डेटा पर फिट होने की अच्छाई पर आधारित। पहले मामले में आप जानना चाहते हैं कि क्या आपका मॉडल पर्याप्त रूप से नए डेटा की भविष्यवाणी करता है, दूसरे में आप जानना चाहते हैं कि क्या आपका मॉडल पर्याप्त डेटा आपके वर्तमान डेटा में संबंधों का वर्णन करता है। वे दो अलग चीजें हैं।

भविष्यवाणियों के आधार पर मूल्यांकन

भविष्यवाणी के लिए उपयोग किए जाने वाले मॉडल का मूल्यांकन करने का सबसे अच्छा तरीका क्रॉसवेलिडेशन है। बहुत संक्षेप में, आपने अपने डेटासेट को उदा। 10 अलग-अलग टुकड़े, उनमें से 9 का उपयोग मॉडल बनाने और दसवें डेटासेट के परिणामों की भविष्यवाणी करने के लिए करते हैं। प्रेक्षित और अनुमानित मूल्यों के बीच एक सरल मतलब चुकता अंतर आपको भविष्यवाणी सटीकता के लिए एक उपाय देता है। जैसा कि आप इस दस बार दोहराते हैं, आप एक मानक विचलन के साथ सामान्य मूल्य पर आने के लिए सभी दस पुनरावृत्तियों पर औसत वर्ग अंतर की गणना करते हैं। यह आपको मानक सांख्यिकीय तकनीकों (टी-टेस्ट या एनोवा) का उपयोग करके उनकी भविष्यवाणी सटीकता पर दो मॉडलों की तुलना करने की अनुमति देता है।

थीम पर एक प्रकार है PRESS मानदंड (भविष्यवाणियों का पूर्वानुमान योग), जिसे परिभाषित किया गया है

i=1n(YiY^i(i))2

Y^i(i)

फिट की अच्छाई के आधार पर मूल्यांकन

मुझे पहले बताएं कि यह वास्तव में आपके द्वारा उपयोग किए जाने वाले मॉडल के ढांचे पर निर्भर करता है। उदाहरण के लिए, त्रुटियों के लिए क्लासिक गॉसियन का उपयोग करते समय एक संभावना-अनुपात परीक्षण सामान्यीकृत एडिटिव मिक्स्ड मॉडल के लिए काम कर सकता है, लेकिन द्विपद संस्करण के मामले में अर्थहीन है।

पहले आपके पास मॉडल की तुलना करने के अधिक सहज तरीके हैं। आप दो मॉडलों के लिए उपयुक्तता की तुलना करने के लिए ऐकेक सूचना मानदंड (एआईसी) या बायेसियन सूचना मानदंड (बीआईसी) का उपयोग कर सकते हैं। लेकिन आपको कुछ भी नहीं बताता है कि दोनों मॉडल वास्तव में अलग हैं।

एक और मल्लो की सीपी मानदंड है। यह अनिवार्य रूप से आपके मॉडल में संभावित पूर्वाग्रह की जांच करता है, मॉडल की सभी संभावित सबमॉडल्स (या उनमें से सावधानीपूर्वक चयन) के साथ तुलना करके। Http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf भी देखें

यदि आप जिस मॉडल की तुलना करना चाहते हैं, वे नेस्टेड मॉडल हैं (यानी अधिक पूर्ण मॉडल में भी सभी पार्सिमोनियस मॉडल के सभी पूर्वानुमान और अंतःक्रियाएं), आप संभावना अनुपात परीक्षण (या ची-स्क्वेड) के रूप में एक औपचारिक तुलना का उपयोग कर सकते हैं या उपयुक्त मामलों में एक एफ परीक्षण, उदाहरण के लिए, जब कम से कम वर्गों का उपयोग कर सरल रैखिक मॉडल की तुलना)। यह परीक्षण अनिवार्य रूप से नियंत्रित करता है कि क्या अतिरिक्त भविष्यवक्ता या इंटरैक्शन वास्तव में मॉडल में सुधार करते हैं। यह मानदंड अक्सर आगे या पीछे की ओर चरणबद्ध तरीके से उपयोग किया जाता है।

स्वचालित मॉडल चयन के बारे में

आपके पास वकील हैं और आपके पास इस पद्धति के दुश्मन हैं। मैं व्यक्तिगत रूप से स्वचालित मॉडल चयन के पक्ष में नहीं हूं, खासकर जब यह मॉडल का वर्णन करने के बारे में नहीं है, और यह कई कारणों से है:

  • हर मॉडल में आपको जाँचना चाहिए कि आप पर्याप्त रूप से कन्फ्यूजन से निपटते हैं। वास्तव में, कई डेटासेट में वैरिएबल होते हैं जिन्हें कभी भी एक मॉडल में नहीं डालना चाहिए। अक्सर लोग उसके लिए नियंत्रण करना भूल जाते हैं।
  • स्वचालित मॉडल का चयन परिकल्पना बनाने की एक विधि है, न कि उनका परीक्षण करने की। स्वचालित मॉडल चयन से उत्पन्न होने वाले मॉडल के आधार पर सभी निष्कर्षों को अमान्य है। उसे बदलने का कोई तरीका नहीं।
  • मैंने कई मामले देखे हैं जहां एक अलग प्रारंभिक बिंदु पर शुरू हुआ, एक चरणबद्ध चयन ने पूरी तरह से अलग मॉडल लौटाया। ये विधियाँ स्थिर से बहुत दूर हैं।
  • एक सभ्य नियम को शामिल करना भी मुश्किल है, क्योंकि दो मॉडल की तुलना करने के लिए सांख्यिकीय परीक्षणों के लिए मॉडल को नेस्टेड करने की आवश्यकता होती है। यदि आप उदाहरण के लिए AIC, BIC या PRESS का उपयोग करते हैं, तो जब अंतर वास्तव में महत्वपूर्ण होता है तो कटऑफ चुना जाता है।

इसलिए मूल रूप से, मैं पहले से चुने गए मॉडलों के चुनिंदा सेट की तुलना में अधिक देखता हूं। यदि आप मॉडल और परिकल्पना परीक्षण के सांख्यिकीय मूल्यांकन के बारे में परवाह नहीं करते हैं, तो आप अपने मॉडल की भविष्यवाणी की सटीकता की तुलना करने के लिए क्रॉसवैलिडेशन का उपयोग कर सकते हैं।

लेकिन अगर आप पूर्वानुमान के उद्देश्यों के लिए चर चयन के बाद वास्तव में हैं, तो आप चर चयन के लिए अन्य तरीकों पर एक नज़र रखना चाह सकते हैं, जैसे सपोर्ट वेक्टर मशीनें, तंत्रिका नेटवर्क, रैंडम फ़ॉरेस्ट और पसंद। ये बहुत अधिक बार जैसे कि दवा में उपयोग किया जाता है यह पता लगाने के लिए कि हजार में से कौन से मापा प्रोटीन पर्याप्त रूप से भविष्यवाणी कर सकता है कि आपको कैंसर है या नहीं। बस (प्रसिद्ध) उदाहरण देने के लिए:

http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html

http://www.springerlink.com/content/w68424066825vr3l/

इन सभी विधियों में निरंतर डेटा के लिए प्रतिगमन संस्करण भी हैं।


आप किस मॉडल को Mallows Cp और पिछड़े चयन के बीच चुनेंगे? कम एसएसई और महत्वपूर्ण गुणांक वाले मॉडल भी अच्छे हैं?
टॉम

2
@tom: आप सेब की तुलना संतरे से कर रहे हैं। पिछड़े चयन एक विधि है, मल्लोव सीपी एक मानदंड है। मल्लो के सीपीपी को पीछे की ओर चयन के लिए एक मानदंड के रूप में इस्तेमाल किया जा सकता है। और जैसा कि आप पढ़ सकते हैं, मैं पिछड़े चयन नहीं करता। यदि मुझे चर का चयन करने की आवश्यकता है, तो मैं उसके लिए उपयुक्त विधियों का उपयोग करता हूं। मैंने पीटर फ़ॉम का उल्लेख करते हुए LASSO और LAR विधियों का उल्लेख नहीं किया, लेकिन वे निश्चित रूप से एक कोशिश के लायक भी हैं।
जोरिस मेस

xx1

2
@FrankHarrell एक छोटा अनुकरण साबित कर सकता है कि पी-मानों के बीच सहसंबंध (मान लें कि आप एफ-टेस्ट या समकक्ष के बारे में बात कर रहे हैं) और एआईसी कोई नहीं है (मेरे सिमुलेशन में 0.01)। तो नहीं, पी-मूल्यों और एआईसी के बीच कोई संबंध नहीं है। BIC और Cp के लिए समान है। एक और छोटा अनुकरण यह भी साबित करेगा कि आपके द्वारा उपयोग किए जाने वाले मानदंड के आधार पर एक चरणबद्ध प्रक्रिया में बहुत अलग परिणाम प्राप्त होते हैं। तो नहीं: Cp, AIC, BIC किसी भी तरह से P- मूल्यों के परिवर्तन नहीं हैं। वास्तव में, अगर मैं किसी भी तरह से सूत्र को देख रहा हूं तो गणितीय लिंक या परिवर्तन को इंगित नहीं कर सकता।
जोरिस मेस

1
@FrankHarrell का मतलब यह नहीं है कि मैं समर्थक कदम की वकालत कर रहा हूं, इसके विपरीत। लेकिन आपका बयान कम से कम थोड़ा मजबूत है।
जॉरिस मेस

20

α=0.50



4
मुझे बहुत पसंद है "पारसीमोनी तुम्हारा दुश्मन है"।
पीटर फ्लॉम - मोनिका

1
धन्यवाद पीटर। जोरिस - विभिन्न दृष्टिकोणों में से चयन करना स्टेप वाइज चयन से थोड़ा अलग होता है, लेकिन ज्यादा नहीं।
फ्रैंक हरेल

16

बैकवर्ड या फॉरवर्ड चयन का उपयोग करना एक सामान्य रणनीति है, लेकिन वह नहीं जिसकी मैं सिफारिश कर सकता हूं। ऐसे मॉडल भवन से परिणाम सभी गलत हैं। पी-मान बहुत कम हैं, गुणांक 0 से दूर पक्षपाती हैं, और अन्य संबंधित समस्याएं हैं।

यदि आपको स्वचालित चर चयन करना चाहिए, तो मैं और अधिक आधुनिक विधि, जैसे LASSO या LAR का उपयोग करने की सलाह दूंगा।

मैंने इस पर एक एसएएस प्रस्तुति लिखी, जिसका शीर्षक था "स्टॉपिंग स्टेपवाइज: क्यों स्टेप वाइज और इसी तरह के तरीके बुरे हैं और आपको क्या करना चाहिए"

लेकिन, यदि संभव हो तो, मैं इन स्वचालित तरीकों से पूरी तरह से बचूंगा, और विषय वस्तु विशेषज्ञता पर भरोसा करूंगा। एक विचार 10 या तो उचित मॉडल उत्पन्न करना है, और एक सूचना मानदंड के आधार पर उनकी तुलना करना है। @ निक सब्बे ने अपनी प्रतिक्रिया में इनमें से कई को सूचीबद्ध किया।


2
लेख संदर्भ के लिए +1। हालांकि मैं एसएएस में कोड नहीं करता हूं, मैंने इसे कई महीने पहले पढ़ा था और इसे इस मुद्दे का एक अच्छा, उच्च स्तरीय उपचार पाया।
जोश हेमन

11

इसका उत्तर आपके लक्ष्य पर बहुत निर्भर करेगा। आप सांख्यिकीय रूप से महत्वपूर्ण गुणांक की तलाश में हो सकते हैं, या हो सकता है कि आप नई टिप्पणियों के लिए परिणाम की भविष्यवाणी करते समय यथासंभव अधिक से अधिक मिसकैरेज से बच सकते हैं, या आप कम से कम झूठी सकारात्मक के साथ मॉडल में दिलचस्पी ले सकते हैं; शायद आप बस वक्र चाहते हैं जो डेटा के लिए 'निकटतम' है।

उपरोक्त किसी भी मामले में, आप जिस चीज की तलाश कर रहे हैं, उसके लिए आपको किसी प्रकार के उपाय की आवश्यकता है। विभिन्न अनुप्रयोगों के साथ कुछ लोकप्रिय उपाय AUC, BIC, AIC, अवशिष्ट त्रुटि, हैं ...

आप उस माप की गणना करते हैं जो प्रत्येक मॉडल के लिए आपके लक्ष्य से सबसे अच्छा मेल खाता है, और फिर प्रत्येक मॉडल के लिए 'स्कोर' की तुलना करें। यह आपके लक्ष्य के लिए सर्वश्रेष्ठ मॉडल की ओर ले जाता है।

इन उपायों में से कुछ (जैसे एआईसी) मॉडल में नॉनज़ेरो गुणांक की संख्या पर एक अतिरिक्त तनाव डालते हैं, क्योंकि बहुत अधिक उपयोग करने से बस डेटा ओवरफिट हो सकता है (ताकि मॉडल बेकार हो यदि आप नए डेटा के लिए इसका उपयोग करते हैं, तो अकेले ही करें जनसंख्या)। एक मॉडल को 'जितना संभव हो उतना कम' रखने के लिए अन्य कारणों की आवश्यकता हो सकती है, उदाहरण के लिए अगर भविष्यवाणी के लिए उन सभी को मापना महंगा है। एक मॉडल में 'सरलता' या 'छोटी संख्या में चर' को आमतौर पर इसकी पारसमणि कहा जाता है।

तो संक्षेप में, एक पारसीमोनस मॉडल एक 'सरल' मॉडल है, न कि बहुत सारे चर धारण करना।

इस प्रकार के प्रश्नों के साथ, मैं आपको विषय और संबंधित मुद्दों पर गहन जानकारी के लिए उत्कृष्ट शिक्षण तत्वों की उत्कृष्ट पुस्तक का उल्लेख करूंगा ।


1
अच्छी किताब आप वहाँ सुझाते हैं। एक और मैं सुझा सकता है कि एप्लाइड रैखिक सांख्यिकीय मॉडल है जिसमें चयन मानदंड, मॉडल चयन और मॉडल तुलना पर कुछ खंड शामिल हैं।
जोरिस मेस

-1

मुझे यहाँ चर्चा दिलचस्प लगी, विशेष रूप से पर्सिमोनियस और मॉडल के बीच अधिक गुणांक और चर के साथ बहस।

मेरे प्रो। स्वर्गीय डॉ। स्टीव ने अन्य मॉडल की तुलना में बेहतर R / 2 के साथ एक कम R ^ 2 के साथ एक परमानेंट मॉडल पर जोर दिया।

यहाँ सभी मछलियों के लिए धन्यवाद!

आकाश

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.