जवाबों:
पार्सिमोनियस मॉडल एक मॉडल है जो वांछित स्तर की व्याख्या या भविष्यवाणी के साथ कुछ भविष्यवाणियों को यथासंभव सटीक रूप से पूरा करता है।
मॉडल मूल्यांकन के लिए आप जो जानना चाहते हैं उसके आधार पर अलग-अलग तरीके हैं। आमतौर पर एक मॉडल के मूल्यांकन के दो तरीके हैं: पूर्वानुमान के आधार पर और वर्तमान डेटा पर फिट होने की अच्छाई पर आधारित। पहले मामले में आप जानना चाहते हैं कि क्या आपका मॉडल पर्याप्त रूप से नए डेटा की भविष्यवाणी करता है, दूसरे में आप जानना चाहते हैं कि क्या आपका मॉडल पर्याप्त डेटा आपके वर्तमान डेटा में संबंधों का वर्णन करता है। वे दो अलग चीजें हैं।
भविष्यवाणी के लिए उपयोग किए जाने वाले मॉडल का मूल्यांकन करने का सबसे अच्छा तरीका क्रॉसवेलिडेशन है। बहुत संक्षेप में, आपने अपने डेटासेट को उदा। 10 अलग-अलग टुकड़े, उनमें से 9 का उपयोग मॉडल बनाने और दसवें डेटासेट के परिणामों की भविष्यवाणी करने के लिए करते हैं। प्रेक्षित और अनुमानित मूल्यों के बीच एक सरल मतलब चुकता अंतर आपको भविष्यवाणी सटीकता के लिए एक उपाय देता है। जैसा कि आप इस दस बार दोहराते हैं, आप एक मानक विचलन के साथ सामान्य मूल्य पर आने के लिए सभी दस पुनरावृत्तियों पर औसत वर्ग अंतर की गणना करते हैं। यह आपको मानक सांख्यिकीय तकनीकों (टी-टेस्ट या एनोवा) का उपयोग करके उनकी भविष्यवाणी सटीकता पर दो मॉडलों की तुलना करने की अनुमति देता है।
थीम पर एक प्रकार है PRESS मानदंड (भविष्यवाणियों का पूर्वानुमान योग), जिसे परिभाषित किया गया है
मुझे पहले बताएं कि यह वास्तव में आपके द्वारा उपयोग किए जाने वाले मॉडल के ढांचे पर निर्भर करता है। उदाहरण के लिए, त्रुटियों के लिए क्लासिक गॉसियन का उपयोग करते समय एक संभावना-अनुपात परीक्षण सामान्यीकृत एडिटिव मिक्स्ड मॉडल के लिए काम कर सकता है, लेकिन द्विपद संस्करण के मामले में अर्थहीन है।
पहले आपके पास मॉडल की तुलना करने के अधिक सहज तरीके हैं। आप दो मॉडलों के लिए उपयुक्तता की तुलना करने के लिए ऐकेक सूचना मानदंड (एआईसी) या बायेसियन सूचना मानदंड (बीआईसी) का उपयोग कर सकते हैं। लेकिन आपको कुछ भी नहीं बताता है कि दोनों मॉडल वास्तव में अलग हैं।
एक और मल्लो की सीपी मानदंड है। यह अनिवार्य रूप से आपके मॉडल में संभावित पूर्वाग्रह की जांच करता है, मॉडल की सभी संभावित सबमॉडल्स (या उनमें से सावधानीपूर्वक चयन) के साथ तुलना करके। Http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf भी देखें
यदि आप जिस मॉडल की तुलना करना चाहते हैं, वे नेस्टेड मॉडल हैं (यानी अधिक पूर्ण मॉडल में भी सभी पार्सिमोनियस मॉडल के सभी पूर्वानुमान और अंतःक्रियाएं), आप संभावना अनुपात परीक्षण (या ची-स्क्वेड) के रूप में एक औपचारिक तुलना का उपयोग कर सकते हैं या उपयुक्त मामलों में एक एफ परीक्षण, उदाहरण के लिए, जब कम से कम वर्गों का उपयोग कर सरल रैखिक मॉडल की तुलना)। यह परीक्षण अनिवार्य रूप से नियंत्रित करता है कि क्या अतिरिक्त भविष्यवक्ता या इंटरैक्शन वास्तव में मॉडल में सुधार करते हैं। यह मानदंड अक्सर आगे या पीछे की ओर चरणबद्ध तरीके से उपयोग किया जाता है।
आपके पास वकील हैं और आपके पास इस पद्धति के दुश्मन हैं। मैं व्यक्तिगत रूप से स्वचालित मॉडल चयन के पक्ष में नहीं हूं, खासकर जब यह मॉडल का वर्णन करने के बारे में नहीं है, और यह कई कारणों से है:
इसलिए मूल रूप से, मैं पहले से चुने गए मॉडलों के चुनिंदा सेट की तुलना में अधिक देखता हूं। यदि आप मॉडल और परिकल्पना परीक्षण के सांख्यिकीय मूल्यांकन के बारे में परवाह नहीं करते हैं, तो आप अपने मॉडल की भविष्यवाणी की सटीकता की तुलना करने के लिए क्रॉसवैलिडेशन का उपयोग कर सकते हैं।
लेकिन अगर आप पूर्वानुमान के उद्देश्यों के लिए चर चयन के बाद वास्तव में हैं, तो आप चर चयन के लिए अन्य तरीकों पर एक नज़र रखना चाह सकते हैं, जैसे सपोर्ट वेक्टर मशीनें, तंत्रिका नेटवर्क, रैंडम फ़ॉरेस्ट और पसंद। ये बहुत अधिक बार जैसे कि दवा में उपयोग किया जाता है यह पता लगाने के लिए कि हजार में से कौन से मापा प्रोटीन पर्याप्त रूप से भविष्यवाणी कर सकता है कि आपको कैंसर है या नहीं। बस (प्रसिद्ध) उदाहरण देने के लिए:
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
इन सभी विधियों में निरंतर डेटा के लिए प्रतिगमन संस्करण भी हैं।
बैकवर्ड या फॉरवर्ड चयन का उपयोग करना एक सामान्य रणनीति है, लेकिन वह नहीं जिसकी मैं सिफारिश कर सकता हूं। ऐसे मॉडल भवन से परिणाम सभी गलत हैं। पी-मान बहुत कम हैं, गुणांक 0 से दूर पक्षपाती हैं, और अन्य संबंधित समस्याएं हैं।
यदि आपको स्वचालित चर चयन करना चाहिए, तो मैं और अधिक आधुनिक विधि, जैसे LASSO या LAR का उपयोग करने की सलाह दूंगा।
मैंने इस पर एक एसएएस प्रस्तुति लिखी, जिसका शीर्षक था "स्टॉपिंग स्टेपवाइज: क्यों स्टेप वाइज और इसी तरह के तरीके बुरे हैं और आपको क्या करना चाहिए"
लेकिन, यदि संभव हो तो, मैं इन स्वचालित तरीकों से पूरी तरह से बचूंगा, और विषय वस्तु विशेषज्ञता पर भरोसा करूंगा। एक विचार 10 या तो उचित मॉडल उत्पन्न करना है, और एक सूचना मानदंड के आधार पर उनकी तुलना करना है। @ निक सब्बे ने अपनी प्रतिक्रिया में इनमें से कई को सूचीबद्ध किया।
इसका उत्तर आपके लक्ष्य पर बहुत निर्भर करेगा। आप सांख्यिकीय रूप से महत्वपूर्ण गुणांक की तलाश में हो सकते हैं, या हो सकता है कि आप नई टिप्पणियों के लिए परिणाम की भविष्यवाणी करते समय यथासंभव अधिक से अधिक मिसकैरेज से बच सकते हैं, या आप कम से कम झूठी सकारात्मक के साथ मॉडल में दिलचस्पी ले सकते हैं; शायद आप बस वक्र चाहते हैं जो डेटा के लिए 'निकटतम' है।
उपरोक्त किसी भी मामले में, आप जिस चीज की तलाश कर रहे हैं, उसके लिए आपको किसी प्रकार के उपाय की आवश्यकता है। विभिन्न अनुप्रयोगों के साथ कुछ लोकप्रिय उपाय AUC, BIC, AIC, अवशिष्ट त्रुटि, हैं ...
आप उस माप की गणना करते हैं जो प्रत्येक मॉडल के लिए आपके लक्ष्य से सबसे अच्छा मेल खाता है, और फिर प्रत्येक मॉडल के लिए 'स्कोर' की तुलना करें। यह आपके लक्ष्य के लिए सर्वश्रेष्ठ मॉडल की ओर ले जाता है।
इन उपायों में से कुछ (जैसे एआईसी) मॉडल में नॉनज़ेरो गुणांक की संख्या पर एक अतिरिक्त तनाव डालते हैं, क्योंकि बहुत अधिक उपयोग करने से बस डेटा ओवरफिट हो सकता है (ताकि मॉडल बेकार हो यदि आप नए डेटा के लिए इसका उपयोग करते हैं, तो अकेले ही करें जनसंख्या)। एक मॉडल को 'जितना संभव हो उतना कम' रखने के लिए अन्य कारणों की आवश्यकता हो सकती है, उदाहरण के लिए अगर भविष्यवाणी के लिए उन सभी को मापना महंगा है। एक मॉडल में 'सरलता' या 'छोटी संख्या में चर' को आमतौर पर इसकी पारसमणि कहा जाता है।
तो संक्षेप में, एक पारसीमोनस मॉडल एक 'सरल' मॉडल है, न कि बहुत सारे चर धारण करना।
इस प्रकार के प्रश्नों के साथ, मैं आपको विषय और संबंधित मुद्दों पर गहन जानकारी के लिए उत्कृष्ट शिक्षण तत्वों की उत्कृष्ट पुस्तक का उल्लेख करूंगा ।
मुझे यहाँ चर्चा दिलचस्प लगी, विशेष रूप से पर्सिमोनियस और मॉडल के बीच अधिक गुणांक और चर के साथ बहस।
मेरे प्रो। स्वर्गीय डॉ। स्टीव ने अन्य मॉडल की तुलना में बेहतर R / 2 के साथ एक कम R ^ 2 के साथ एक परमानेंट मॉडल पर जोर दिया।
यहाँ सभी मछलियों के लिए धन्यवाद!
आकाश