अगर मेरा प्रतिगमन मॉडल अच्छा है तो कैसे जांचें


10

'Glm' का उपयोग करके लॉजिस्टिक रिग्रेशन मॉडल की सटीकता का पता लगाने का एक तरीका AUC प्लॉट है। निरंतर प्रतिक्रिया चर (परिवार = 'गॉसियन') के साथ पाए गए प्रतिगमन मॉडल के लिए समान जांच कैसे करें?

यह जांचने के लिए कि मेरे प्रतिगमन मॉडल में डेटा कितनी अच्छी तरह से फिट बैठता है?


आप r-squaredटैग और टैग पर एक नज़र रखना चाह सकते हैं goodness-of-fit..
मैक्रो

2
एक रैखिक लिंक के साथ "गाऊसी" परिवार सिर्फ साधारण न्यूनतम वर्ग (ओएलएस) प्रतिगमन है; इस तरह के फिट की जांच करने के तरीकों की चर्चा शायद इस साइट पर एक हजार सवालों में की गई है (मैं अतिशयोक्ति नहीं करता)।
whuber

यह धागा प्रासंगिक है: आंकड़े.stackexchange.com/q/414349/121522
मोनिका

जवाबों:


15

मैं एक शुरुआत के रूप में " रैखिक प्रतिगमन मॉडल निदान " पर एक संक्षिप्त खोज का सुझाव दूंगा । लेकिन यहाँ कुछ हैं जो मैं आपको जाँचने के लिए सुझाव दूंगा:

सुनिश्चित करें कि मान्यताओं को संतोषजनक रूप से पूरा किया गया है

  • स्वतंत्र भविष्यवक्ता (एस) और आश्रित चर के बीच रैखिक संबंध की जांच करने के लिए स्कैल्पलॉट या घटक प्लस अवशिष्ट साजिश का उपयोग करें।

  • मानकीकृत अवशिष्ट बनाम अनुमानित मूल्य के साथ एक भूखंड की रचना करें और यह सुनिश्चित करें कि बहुत अधिक अवशिष्ट के साथ चरम बिंदु नहीं है, और अवशिष्ट का प्रसार काफी हद तक अनुमानित मूल्य के साथ समान है, साथ ही साथ अवशिष्ट के माध्यम से बड़े पैमाने पर समान रूप से ऊपर और नीचे फैलता है। शून्य।

  • आप y- अक्ष को अवशिष्ट भी बदल सकते हैं । यह कथानक असमान विचरण को पहचानने में मदद करता है।2

  • स्वतंत्रता की धारणा उचित है, यह सुनिश्चित करने के लिए अध्ययन डिजाइन का पुन: परीक्षण करें।

  • संभव महामारी की जांच करने के लिए विचरण मुद्रास्फीति कारक (VIF) या सहिष्णुता के आँकड़ों को पुनः प्राप्त करें।

संभावित प्रभावशाली बिंदु की जांच करें

  • एक निश्चित डेटा बिंदु आपके प्रतिगमन परिणामों को काफी बदल रहा है या नहीं, यह जानने के लिए कुक डी, डीएफआईटीएस या डीएफ बीटा जैसे आंकड़ों की जांच करें। आप यहां अधिक पा सकते हैं ।

और समायोजित आँकड़ों में परिवर्तन की जाँच करेंआर 2R2R2

  • वर्गों के कुल योग के वर्गों के प्रतिगमन योग का अनुपात होने के नाते, आपको बता सकता है कि मॉडल द्वारा आपके आश्रित चर में कितने% परिवर्तनशीलता को समझाया गया है।R2
  • समायोजित का उपयोग यह जांचने के लिए किया जा सकता है कि मेरे अतिरिक्त भविष्यवक्ता (ओं) के बारे में लाए गए वर्गों का अतिरिक्त योग वास्तव में वे स्वतंत्रता की डिग्री के लायक हैं जो वे लेंगे।R2

आवश्यक बातचीत की जाँच करें

  • यदि कोई मुख्य स्वतंत्र भविष्यवक्ता है, तो इससे पहले कि आप इसके स्वतंत्र प्रभाव की कोई व्याख्या करें, यह जांचें कि क्या यह अन्य स्वतंत्र चर के साथ बातचीत कर रहा है। सहभागिता, यदि अन्यायपूर्ण छोड़ दिया जाए, तो आपका अनुमान पूर्वाग्रह कर सकता है।

अपने मॉडल को दूसरे डेटा सेट पर लागू करें और उसके प्रदर्शन की जांच करें

  • आप प्रतिगमन सूत्र को अन्य अलग-अलग डेटा पर भी लागू कर सकते हैं और देख सकते हैं कि यह कितनी अच्छी तरह से भविष्यवाणी करता है। बिखरे हुए कथानक की तरह ग्राफ और आँकड़ों का% मान के मान से अंतर एक अच्छी शुरुआत के रूप में काम कर सकता है।

2
(+1): बहुत पूरा जवाब! यदि आप R का उपयोग कर रहे हैं, plot.lmतो आपको अधिकांश नैदानिक ​​भूखंड पेंगुइन_ रात का उल्लेख दे सकते हैं।
Zach

4

मैं अपने प्रतिगमन मॉडल को क्रॉस-वैरिफाई करना पसंद करता हूं, यह देखने के लिए कि वे नए डेटा को कितना सामान्य करते हैं। मेरी पसंद का मीट्रिक क्रॉस-वैलिड डेटा पर पूर्ण त्रुटि है , लेकिन रूट माध्य चुकता त्रुटि अधिक सामान्य और समान रूप से उपयोगी है।

मैं R2 को एक अच्छा मीट्रिक नहीं मानता कि आपका मॉडल प्रशिक्षण डेटा को कितनी अच्छी तरह फिट करता है, क्योंकि प्रशिक्षण डेटा पर गणना की गई लगभग किसी भी त्रुटि मीट्रिक की फिटिंग पर निर्भर होगी। यदि आपको प्रशिक्षण सेट पर R2 की गणना करनी चाहिए, तो मेरा सुझाव है कि समायोजित R2 का उपयोग करें ।


1

आप का उपयोग यह जांचने के लिए कर सकते हैं कि आपका मॉडल प्रशिक्षण डेटा को कितनी अच्छी तरह फिट करता है। यह आपको बताएगा कि मॉडल द्वारा डेटा में कितने प्रतिशत विचरण किया गया है।R2

मैं वास्तविक मूल्य की तुलना में आपके परीक्षण सेट पर आपकी भविष्यवाणियों के आरएमएसई (मूल माध्य वर्ग त्रुटि) का उपयोग करने का सुझाव देता हूं। यह निरंतर चर की भविष्यवाणी त्रुटि की रिपोर्ट करने का एक मानक तरीका है।


1
@ मैक्रो लेकिन सवाल मूल रूप से गॉसियन त्रुटियों के साथ एक ओएलएस प्रतिगमन के लिए एक प्रदर्शन मीट्रिक के लिए पूछा गया था। वह लॉजिस्टिक रिग्रेशन से आ रहा है।
एरिक

@ एरिक, धन्यवाद, मैं गलत था। वैसे भी, पहले भाग के बारे में, मुझे नहीं लगता कि , अलगाव में, "जाँच करें कि क्या मेरा प्रतिगमन मॉडल अच्छा है", ओपी के शब्दों का उपयोग करने के लिए इस्तेमाल किया जा सकता है। आपका मॉडल डेटा के विशाल बहुमत पर प्रभावी ढंग से भविष्यवाणी करने में बुरी तरह से विफल हो सकता है जबकि अभी भी एक उच्च । एक उदाहरण के लिए यहां देखें - उदाहरण (1) में, लगभग कोई भी अनुमानित शक्ति नहीं है, लेकिन अभी भी उच्च है। आर 2 आर 2R2R2R2
मैक्रों

@ मैक्रो, मैं आपकी टिप्पणियों से सहमत हूं, लेकिन ओपी को सही दिशा में इंगित करने के लिए एक सरल स्पष्टीकरण के लिए लक्ष्य कर रहा था
बीजीरीन

0

मुझे गैर-पैरामीट्रिक (जैसे कर्नेल रिग्रेशन) या अर्ध-पैरामीट्रिक आकलन और पैरामीट्रिक फिट वक्र की तुलना करके अपने पैरामीटर अनुमानक के कार्यात्मक रूप की जांच करने के लिए उपयोग किया जाता है । मुझे लगता है कि यह बातचीत की शर्तों या उच्च-आदेश शर्तों को शामिल करने की तुलना में अक्सर (और शायद अधिक व्यावहारिक) पहले चरण में है।

आर पैकेज एनपी कई अच्छे गैर-पैरामीट्रिक और अर्ध-पैरामीट्रिक फ़ंक्शन प्रदान करता है, और इसका विग्नेट अच्छी तरह से लिखा है: http://cran.r-project.org/web/packages/np/vignettes/np.pdf

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.