क्या डायग्नोस्टिक मेट्रिक ( / AUC / सटीकता / RMSE आदि) मूल्य के आधार पर मेरा मॉडल कोई अच्छा है ?


12

मैंने अपना मॉडल फिट कर लिया है और यह समझने की कोशिश कर रहा हूं कि क्या यह कोई अच्छा है। मैंने इसका आकलन करने के लिए अनुशंसित मैट्रिक्स की गणना की है ( / एयूसी / सटीकता / भविष्यवाणी त्रुटि / आदि), लेकिन यह नहीं जानता कि उनकी व्याख्या कैसे करें। संक्षेप में, मैं कैसे बताऊँ कि मेरा मॉडल मीट्रिक के आधार पर कोई अच्छा है? 0.6 का एक (उदाहरण के लिए) है जो मुझे इनवॉइस या आधार वैज्ञानिक / व्यावसायिक निर्णय लेने के लिए आगे बढ़ने के लिए पर्याप्त है?R2R2


यह प्रश्न जानबूझकर व्यापक है, जिसमें विभिन्न प्रकार की स्थितियों को कवर किया जाता है जो सदस्य अक्सर मुठभेड़ करते हैं; इस तरह के सवालों को इस एक के डुप्लिकेट के रूप में बंद किया जा सकता है। यहां उल्लिखित मीट्रिक से परे के दायरे को व्यापक बनाने का संपादन स्वागत योग्य है, क्योंकि अतिरिक्त उत्तर हैं - विशेष रूप से वे जो मैट्रिक्स के अन्य वर्गों के बारे में अंतर्दृष्टि प्रदान करते हैं।


1
संबंधित: कैसे पता करें कि आपके मशीन सीखने की समस्या निराशाजनक है? जैसा कि "मेरे पास , इसका मतलब है कि मैं इसे और सुधार नहीं सकता हूं?" R2=0.6
Stephan Kolassa

2
या किसी अन्य प्रयुक्त मीट्रिक के लिए बेस-लाइन ? फ्रूंग से जाना कुछ अनुप्रयोगों में एक अद्भुत प्रदर्शन कूद हो सकता है। यह ठीक है कि सभी उचित प्रकाशन कैसे काम करते हैं। हमारे पास एक प्रस्तावित मॉडल है, हमारे पास अच्छी तरह से स्वीकार किए गए मीट्रिक की एक श्रृंखला है, हमारे पास "अत्याधुनिक" का ज्ञान है और हम प्रदर्शन की तुलना करते हैं। और इस तरह हम जानते हैं कि अगर हमारा मॉडल अच्छा हैआर 2 = 0.03 आर 2 = 0.05R2R2=0.03R2=0.05
us --r11852

जवाबों:


18

यह उत्तर ज्यादातर पर केंद्रित होगा , लेकिन इसमें से अधिकांश तर्क अन्य मेट्रिक्स जैसे कि AUC और इसी तरह फैले हुए हैं।R2

इस सवाल का लगभग निश्चित रूप से क्रॉसविलेज द्वारा पाठकों द्वारा आपके लिए अच्छी तरह से उत्तर नहीं दिया जा सकता। यह तय करने का कोई संदर्भ-मुक्त तरीका नहीं है कि मॉडल मेट्रिक्स जैसे अच्छे हैं या नहींR2आर 2 । चरम पर, आमतौर पर विशेषज्ञों की एक विस्तृत विविधता से आम सहमति प्राप्त करना संभव है: लगभग 1 का एक आमतौर पर एक अच्छा मॉडल इंगित करता है, और 0 के करीब एक भयानक इंगित करता है। झूठ के बीच एक सीमा होती है जहां आकलन स्वाभाविक रूप से व्यक्तिपरक होता है। इस श्रेणी में, यह जवाब देने के लिए सिर्फ सांख्यिकीय विशेषज्ञता से अधिक है कि आपका मॉडल मीट्रिक अच्छा है या नहीं। यह आपके क्षेत्र में अतिरिक्त विशेषज्ञता लेता है, जो क्रॉसविलेक्टेड पाठकों के पास शायद नहीं है।R2

ऐसा क्यों है? मुझे अपने स्वयं के अनुभव (बदले हुए मामूली विवरण) से एक उदाहरण के साथ समझाता हूं।

मैं माइक्रोबायोलॉजी लैब प्रयोग करता था। मैं पोषक तत्वों की सघनता के विभिन्न स्तरों पर कोशिकाओं के प्रवाह को स्थापित करूंगा, और सेल घनत्व में वृद्धि को मापूंगा (अर्थात समय के खिलाफ सेल घनत्व का ढलान, हालांकि यह विस्तार महत्वपूर्ण नहीं है)। जब मैंने इस वृद्धि / पोषक संबंध को मॉडल किया था, तो यह values ​​0.90 के मूल्यों को प्राप्त करने के लिए सामान्य था ।R2

मैं अब एक पर्यावरण वैज्ञानिक हूं। मैं प्रकृति से माप वाले डेटासेट के साथ काम करता हूं। अगर मैं इन 'फ़ील्ड' डेटासेट के ऊपर वर्णित ठीक उसी मॉडल को फिट करने की कोशिश करता हूं, तो मुझे आश्चर्य होगा कि अगर मैं 0.4 के रूप में उच्च था।R2

इन दो मामलों में बिल्कुल समान मापदण्ड शामिल हैं, बहुत ही समान माप विधियों के साथ, एक ही प्रक्रिया का उपयोग करके लिखे और फिट किए गए मॉडल - और यहां तक ​​कि एक ही व्यक्ति फिटिंग कर रहा है! लेकिन एक मामले में, 0.7 का एक चिंताजनक रूप से कम होगा, और दूसरे में यह संदिग्ध रूप से उच्च होगा।R2

इसके अलावा, हम जैविक माप के साथ कुछ रसायन विज्ञान माप भी लेंगे। रसायन विज्ञान के मानक वक्रों के मॉडल में लगभग 0.99 होगा, और 0.90 का मान चिंताजनक रूप से कम होगाR2


उम्मीदों में इन बड़े अंतरों के लिए क्या होता है? प्रसंग। यह अस्पष्ट शब्द एक विशाल क्षेत्र को कवर करता है, इसलिए मुझे इसे कुछ और विशिष्ट कारकों में अलग करने की कोशिश करें (यह संभावना अधूरी है):

1. भुगतान / परिणाम / आवेदन क्या है?

यह वह जगह है जहाँ आपके क्षेत्र की प्रकृति सबसे महत्वपूर्ण होने की संभावना है। हालांकि मूल्यवान मुझे लगता है कि मेरा काम है, मेरे मॉडल एस को 0.1 या 0.2 से उछाल देना दुनिया में क्रांति लाने वाला नहीं है। लेकिन ऐसे अनुप्रयोग हैं जहां परिवर्तन की भयावहता बहुत बड़ी बात होगी! एक शेयर पूर्वानुमान मॉडल में बहुत छोटे सुधार का मतलब यह विकसित करने वाली फर्म के लिए लाखों डॉलर का हो सकता है।R2

क्लासिफायर के लिए यह वर्णन करना और भी आसान है, इसलिए मैं निम्न उदाहरण के लिए से मीट्रिक्स की अपनी चर्चा को सटीकता से स्विच करने जा रहा हूं ( पल के लिए सटीकता मीट्रिक की कमजोरी की अनदेखी )। चिकन सेक्स की अजीब और आकर्षक दुनिया पर विचार करें । प्रशिक्षण के वर्षों के बाद, एक मानव तेजी से एक नर और मादा चिक के बीच अंतर बता सकता है जब वे सिर्फ 1 दिन के होते हैं। मांस और अंडे के उत्पादन का अनुकूलन करने के लिए नर और मादाओं को अलग-अलग तरीके से खिलाया जाता है, इसलिए उच्च सटीकता अरबों में गलत निवेश में भारी मात्रा में बचत करती है।R2पक्षियों की। कुछ दशक पहले तक, अमेरिका में लगभग 85% की सटीकता को उच्च माना जाता था। आजकल, 99% के आसपास, सबसे अधिक सटीकता प्राप्त करने का मूल्य? एक वेतन जो स्पष्ट रूप से 60,000 तक हो सकता है संभवतः 180,000 डॉलर प्रति वर्ष (कुछ त्वरित googling के आधार पर)। चूंकि मनुष्य अभी भी उस गति में सीमित हैं जिस पर वे काम करते हैं, मशीन लर्निंग एल्गोरिदम जो समान सटीकता प्राप्त कर सकते हैं लेकिन तेजी से जगह लेने के लिए छंटनी की अनुमति लाखों हो सकती है।

(मुझे आशा है कि आपने उदाहरण का आनंद लिया है - विकल्प आतंकवादियों की बहुत ही संदिग्ध एल्गोरिथम पहचान के बारे में निराशाजनक था)।

2. आपके सिस्टम में अनमॉडल कारकों का प्रभाव कितना मजबूत है?

कई प्रयोगों में, आपके पास सिस्टम को अन्य सभी कारकों से अलग करने की विलासिता है जो इसे प्रभावित कर सकते हैं (यह आंशिक रूप से प्रयोग का लक्ष्य है, आखिरकार)। प्रकृति गड़बड़ है। पहले के माइक्रोबायोलॉजी उदाहरण के साथ जारी रखने के लिए: पोषक तत्व उपलब्ध होने पर कोशिकाएं बढ़ती हैं लेकिन अन्य चीजें उन्हें भी प्रभावित करती हैं - यह कितना गर्म है, उन्हें खाने के लिए कितने शिकारी हैं, चाहे पानी में विषाक्त पदार्थ हों। उन सभी को पोषक तत्वों के साथ और जटिल तरीकों से एक दूसरे के साथ। उन अन्य कारकों में से प्रत्येक डेटा में भिन्नता को चलाता है जो आपके मॉडल द्वारा कैप्चर नहीं किया जा रहा है। पोषक तत्व अन्य कारकों के सापेक्ष ड्राइविंग भिन्नता में महत्वहीन हो सकते हैं, और इसलिए यदि मैं उन अन्य कारकों को बाहर करता हूं, तो मेरे क्षेत्र डेटा के मेरे मॉडल में आवश्यक रूप से कम ।R2

3. आपके माप कितने सही और सटीक हैं?

कोशिकाओं और रसायनों की एकाग्रता को मापना बेहद सटीक और सटीक हो सकता है । मापने (उदाहरण के लिए) ट्रेंडिंग ट्विटर हैशटैग के आधार पर एक समुदाय की भावनात्मक स्थिति ... कम होने की संभावना है। यदि आप अपने माप में सटीक नहीं हो सकते हैं, तो यह संभावना नहीं है कि आपका मॉडल कभी भी उच्च प्राप्त कर सकता है । आपके क्षेत्र में माप कितने सटीक हैं? हम शायद नहीं जानते।R2

4. मॉडल जटिलता और सामान्यता

यदि आप अपने मॉडल में और भी यादृच्छिक कारकों को जोड़ते हैं, तो आप औसतन मॉडल (समायोजित आंशिक पते) को बढ़ाएंगे । यह ओवरफिटिंग है । एक ओवरफिट मॉडल नए डेटा के लिए अच्छी तरह से सामान्य नहीं होगा अर्थात मूल (प्रशिक्षण) डेटासेट के लिए फिट के आधार पर उम्मीद से अधिक उच्च भविष्यवाणी त्रुटि होगी। ऐसा इसलिए है क्योंकि इसने मूल डेटासेट में शोर फिट कर दिया है । यह आंशिक रूप से क्यों मॉडल चयन प्रक्रियाओं में जटिलता के लिए दंडित किया जाता है, या नियमितीकरण के अधीन है।R2R2

यदि ओवरफिटिंग को नजरअंदाज किया जाता है या सफलतापूर्वक रोका नहीं जाता है, तो अनुमानित ऊपर की ओर से पक्षपाती होगा अर्थात इससे अधिक होना चाहिए। दूसरे शब्दों में, आपका मान आपको ओवरफिट होने पर आपके मॉडल के प्रदर्शन का भ्रामक प्रभाव दे सकता है।R2R2

IMO, कई क्षेत्रों में आश्चर्यजनक रूप से सामान्य है। इससे बचने के लिए सबसे अच्छा एक जटिल विषय है, और मैं इस साइट पर नियमितीकरण प्रक्रियाओं और मॉडल चयन के बारे में पढ़ने की सलाह देता हूं यदि आप इसमें रुचि रखते हैं।

5. डेटा रेंज और एक्सट्रपलेशन

क्या आपके डेटासेट में आपके द्वारा रुचि रखने वाले एक्स मानों की सीमा का एक बड़ा हिस्सा है? मौजूदा डेटा रेंज के बाहर नए डेटा पॉइंट्स जोड़ने से अनुमानित पर बड़ा प्रभाव पड़ सकता है , क्योंकि यह X और Y में विचरण पर आधारित एक मीट्रिक है।R2

इसके अलावा, यदि आप किसी मॉडल को किसी डेटासेट में फिट करते हैं और आपको उस डेटासेट की एक्स रेंज (यानी एक्स्ट्रापोलेट ) के बाहर मूल्य की भविष्यवाणी करने की आवश्यकता है , तो आप पा सकते हैं कि इसका प्रदर्शन आपकी अपेक्षा से कम है। ऐसा इसलिए है क्योंकि आपने जिस रिश्ते का अनुमान लगाया है वह आपके द्वारा लगाए गए डेटा रेंज के बाहर अच्छी तरह से बदल सकता है। नीचे दिए गए चित्र में, यदि आपने केवल हरे बॉक्स द्वारा इंगित सीमा में माप लिया, तो आप कल्पना कर सकते हैं कि एक सीधी रेखा (लाल रंग में) ने डेटा को अच्छी तरह से वर्णित किया है। लेकिन अगर आपने उस लाल रेखा के साथ उस सीमा के बाहर एक मूल्य का अनुमान लगाने का प्रयास किया, तो आप काफी गलत होंगे।

यहाँ छवि विवरण दर्ज करें

[आंकड़ा के संपादित संस्करण है इस एक , 'Monod वक्र' के लिए एक त्वरित गूगल खोज के माध्यम से मिल गया।]

6. मेट्रिक्स केवल आपको तस्वीर का एक टुकड़ा देते हैं

यह वास्तव में मैट्रिक्स की आलोचना नहीं है - वे सारांश हैं , जिसका अर्थ है कि वे डिजाइन द्वारा जानकारी भी फेंक देते हैं। लेकिन इसका मतलब यह है कि कोई भी एक मीट्रिक जानकारी को छोड़ देता है जो इसकी व्याख्या के लिए महत्वपूर्ण हो सकता है। एक अच्छा विश्लेषण एकल मीट्रिक से अधिक विचार में लेता है।


सुझाव, सुधार और अन्य प्रतिक्रिया का स्वागत करते हैं। और अन्य उत्तर भी, बिल्कुल।


3
इस उत्कृष्ट पोस्टिंग में एक बात यह है कि समझाया और अस्पष्टीकृत विचरण की तुलना करने के बारे में है। एक कम मॉडल के साथ समस्याओं को इंगित कर सकता है, हालांकि यह यह भी संकेत कर सकता है कि जो भी पूर्वानुमानशील चर उपलब्ध है, वह वास्तव में डेटा में बहुत अधिक बदलाव की व्याख्या नहीं करता है। बाद के मामले में मॉडल कुछ "निरपेक्ष" अर्थों में खराब हो सकता है जैसे कि भविष्य कहनेवाला सटीकता, लेकिन इस अर्थ में अच्छा है कि कोई भी बेहतर नहीं है, कम से कम उपलब्ध डेटा के साथ नहीं। आर 2R2R2
लुईन

@Lewian प्रतिक्रिया के लिए धन्यवाद। मुझे लगा कि मेरे पास अंक 2 और 3 में कवर है, लेकिन मैं देख रहा हूं कि इसमें सुधार किया जा सकता है। मैं उस बिंदु को और अधिक स्पष्ट रूप से बनाने के बारे में सोचूंगा।
mkt - मोनिका

1
हां, मैंने इस बारे में सोचा कि क्या यह पहले से ही कवर है। 2 और 3 के साथ बात यह है कि वे विशिष्ट कारण देते हैं कि ऐसा क्यों हो सकता है, हालांकि यह एक सामान्य मुद्दा है।
लेविन

@ लेवीयन सहमत, मैं कुछ सोचा था कि दे देंगे।
mkt -

2

यह समस्या जल विज्ञान के मेरे क्षेत्र में आती है जब यह आंकलन किया जाता है कि मॉडल वर्षा और जलवायु डेटा से स्ट्रीमफ्लो का कितना अच्छा अनुमान लगाते हैं। कुछ शोधकर्ताओं ( Chiew और McMahon, 1993 ) ने 93 हाइड्रोलॉजिस्टों का सर्वेक्षण किया, (63 ने उत्तर दिया) यह पता लगाने के लिए कि उनके द्वारा उपयोग किए गए फिट के आंकड़ों और अच्छे आंकड़ों का पता लगाने के लिए, जो सबसे महत्वपूर्ण थे, और उनका उपयोग किसी मॉडल की गुणवत्ता को वर्गीकृत करने के लिए कैसे किया गया था । परिणाम अब दिनांकित हैं लेकिन दृष्टिकोण अभी भी रुचि का हो सकता है। उन्होंने विभिन्न गुणों के मॉडल फिट के परिणामों को प्रस्तुत किया और हाइड्रोलॉजिस्ट से उन्हें 4 श्रेणियों (1) में पूरी तरह से स्वीकार्य परिणाम देने के लिए कहा; (2) आरक्षण के साथ स्वीकार्य लेकिन उपयोग; (3) अस्वीकार्य, केवल तभी उपयोग करें जब कोई अन्य विकल्प न हो; और (4) किसी भी हालत में कभी भी उपयोग नहीं करना चाहिए।

सबसे महत्वपूर्ण नैदानिक ​​रेखांकन अंशांकन के लिए इस्तेमाल किए गए डेटा से सिम्युलेटेड और रिकॉर्ड किए गए प्रवाह के समय भूखंड और तितर बितर भूखंड थे। आर-स्क्वेर्ड और नैश-सिटक्लिफ मॉडल दक्षता गुणांक (ई) फिट आंकड़ों की पक्षधरता थी। उदाहरण के लिए, यदि E => 0.8 है तो परिणाम स्वीकार्य माने गए

साहित्य में अन्य उदाहरण हैं। उत्तरी सागर में एक पारिस्थितिकी तंत्र मॉडल का आकलन करते समय, निम्न वर्गीकरण का उपयोग E> 0.65 उत्कृष्ट, 0.5 से 0.65 बहुत अच्छा, 0.2 से 0.5 अच्छा, और <0.2 के रूप में खराब ( एलन एट अल।, 2007 ) के लिए किया गया था।

मोरियासी एट अल। (2015) विभिन्न प्रकार के मॉडल के लिए मैट्रिक्स के लिए स्वीकार्य मूल्यों की तालिका प्रदान करता है।

मैंने एक ब्लॉग पोस्ट में इस जानकारी और संदर्भों को संक्षेप में प्रस्तुत किया है ।

एलन, जे।, पी। सोमरफील्ड, और एफ। गिल्बर्ट (2007), उच्च अनिश्चितता को बढ़ाते हुए dy रिज़ॉल्यूशन में अनिश्चितता युग्मित हाइड्रोडायनामिक os इकोसिस्टम मॉडल, जे। मार। सिस्ट।, 64 (1-4), 314, doi: 10.1016। /j.jmarsys.2006.02.010।

मोरियासी, डी।, गितौ, एम। पाई, एन। और दग्गुपति, पी। (2015) जल विज्ञान और जल गुणवत्ता मॉडल: प्रदर्शन माप और मूल्यांकन मानदंड ASABE के लेनदेन (अमेरिकी कृषि और जैविक इंजीनियरों की सोसायटी) 58 (6): 1763-1785


0

बस ऊपर दिए गए महान जवाबों को जोड़ने के लिए - मेरे अनुभव में, मूल्यांकन मैट्रिक्स और नैदानिक ​​उपकरण उतने ही अच्छे और ईमानदार हैं जितना कि उनका उपयोग करने वाला व्यक्ति। यही है, अगर आप उनके पीछे के गणित को समझते हैं, तो आप इसकी वास्तविक उपयोगिता बढ़ाने के बिना अपने मॉडल को बेहतर बनाने के लिए कृत्रिम रूप से बढ़ा सकते हैं।

R2=0.03R2=0.05

मैं इस उत्तर को छोटा रखूंगा क्योंकि उपरोक्त स्पष्टीकरण / संदर्भ प्रदान करने वाला एक बड़ा काम है। मैं सिर्फ 6. पर अनुभाग में कुछ परिप्रेक्ष्य जोड़ना चाहता था। मेट्रिक्स केवल आपको mkt के उत्तर द्वारा चित्र का एक टुकड़ा देता है

उम्मीद है की यह मदद करेगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.