क्या मॉडल की तुलना करने के लिए आर-स्क्वायर मूल्य उचित है?


17

मैं ऑटोमोबाइल वर्गीकृत विज्ञापन साइटों पर उपलब्ध कीमतों और सुविधाओं का उपयोग करते हुए ऑटोमोबाइल की कीमतों की भविष्यवाणी करने के लिए सबसे अच्छे मॉडल की पहचान करने की कोशिश कर रहा हूं।

इसके लिए मैंने स्किकिट-लर्न लाइब्रेरी और न्यूरल नेटवर्क मॉडल से पाइब्रेन और न्यूरोलैब के कुछ मॉडलों का उपयोग किया। मैंने अब तक जिस दृष्टिकोण का उपयोग किया है, वह कुछ मॉडलों (मशीन लर्निंग एल्गोरिदम) के माध्यम से डेटा की एक निश्चित राशि को चलाने के लिए है और R2 मूल्यों की तुलना करता है जो कि स्किटिट-लर्न मेट्रिक्स मॉड्यूल के साथ गणना की गई थी।

  1. है R2 विभिन्न मॉडलों के प्रदर्शन की तुलना करने के लिए एक अच्छा तरीका?
  2. यद्यपि मुझे लोचदार नेट और रैंडम फ़ॉरेस्ट जैसे मॉडल के लिए काफी स्वीकार्य परिणाम मिले हैं, मुझे न्यूरल नेटवर्क मॉडल के लिए बहुत खराब R2 मान मिला है , इसलिए R2 तंत्रिका नेटवर्क (या गैर-रैखिक तरीकों) के मूल्यांकन के लिए एक उपयुक्त तरीका है?

2
संक्षिप्त उत्तर नहीं है । यह आपको मेरा उत्तर पढ़ने में मदद कर सकता है: सर्वश्रेष्ठ मॉडल के चयन के लिए मॉडल मूल्यांकन और तुलना , जो आपके प्रश्न से काफी निकटता से संबंधित है। एक उम्मीदवार समाधान यहाँ वर्णित है । अधिक सामान्य समझ के लिए, आप मॉडल-चयन टैग के तहत वर्गीकृत साइट पर कुछ थ्रेड्स पढ़ने की कोशिश कर सकते हैं ।
गूँग - मोनिका

@ शुक्रिया शुक्रिया! क्या मैं पूछ सकता हूं कि तंत्रिका नेटवर्क का उपयोग करके प्रतिगमन के लिए फिट माप का एक उपयुक्त अच्छाई क्या होगा?
माणिक

जवाबों:


18

मुझे लगता है कि आपके प्रश्न के उत्तर में विचार करने के लिए महत्वपूर्ण हिस्सा है

मैं ऑटोमोबाइल की कीमतों की भविष्यवाणी करने के लिए सबसे अच्छे मॉडल की पहचान करने की कोशिश कर रहा हूं

क्योंकि यह कथन इस बारे में कुछ बताता है कि आप मॉडल का उपयोग क्यों करना चाहते हैं। मॉडल की पसंद और मूल्यांकन आपके फिट किए गए मूल्यों के साथ जो आप प्राप्त करना चाहते हैं, उसके आधार पर होना चाहिए।

सबसे पहले, आर 2 क्या करता है को फिरR2 से जोड़ने की अनुमति देता है : यह द्विघात हानि समारोह के आधार पर एक मापित माप की गणना करता है, जो मुझे यकीन है कि आप पहले से ही अवगत हैं। इस देखने के लिए, को परिभाषित अवशिष्ट अपने आई-वें अवलोकन के लिए y मैं और इसी सज्जित मूल्य y मैं । सुविधाजनक अंकन का उपयोग एस एस आर : = Σ एन मैं = 12 मैं , एस एस टी : = Σei=yiy^iyiy^iSSR:=i=1Nei2,आर2बस के रूप में परिभाषित किया गया हैआर2=1-एसएसआर/एसएसटीSST:=i=1N(yiy¯)2R2R2=1SSR/SST

दूसरा, आइए देखें कि मॉडल विकल्प / मूल्यांकन के लिए का उपयोग क्या हैR2 । मान लीजिए कि हम भविष्यवाणियों के एक सेट से चुनते हैं जो एक मॉडल M : M M का उपयोग करके उत्पन्न किया गया था , जहां M विचार के तहत मॉडल का संग्रह है (आपके उदाहरण में, इस संग्रह में तंत्रिका नेटवर्क, यादृच्छिक वन, लोचदार जाल, शामिल होंगे) ...)। चूँकि S S T सभी मॉडलों के बीच स्थिर रहेगा, यदि R 2 को छोटा करने पर आप वास्तव में उस मॉडल को चुनेंगे जो S S R को न्यूनतम करता है । दूसरे शब्दों में, आप चुनेंगेY¯MM:MMMSSTR2SSR कि कम से कम वर्ग त्रुटि नुकसान पैदा करता है!MM

तीसरा, आइए विचार करें कि R2 या समकक्ष, मॉडल की पसंद के लिए दिलचस्प क्यों हो सकता है । परंपरागत रूप से, वर्ग हानि ( एलSSR मानदंड) का उपयोग तीन कारणों से किया जाता है: (1) यह लिस्ट निरपेक्ष विचलन (LAD, L 1 मानदंड) कीतुलना में अधिक आसान है,क्योंकि अभिकलन में कोई निरपेक्ष मान प्रकट नहीं होता है, (2) यह सज़ा देता है मान जो LAD की तुलना में वास्तविक मूल्य से बहुत अधिक दूर हैं (एक पूर्ण अर्थ के बजाय एक वर्ग में) और जिससे यह सुनिश्चित होता है कि हमारे पास कम चरम सीमाएं हैं, (3) यहसममित है: कार की कीमत को कम या अधिक करना। उतना ही बुरा माना जाता है।L2L1

चौथा (और अंतिम), आइए देखें कि क्या यह वही है जो आपको अपनी भविष्यवाणियों के लिए चाहिए । वह बिंदु जो यहां सबसे अधिक रुचि वाला हो सकता है, वह अंतिम पैराग्राफ से (3) है। मान लीजिए आप एक तटस्थ रुख लेना चाहते हैं, और आप न तो खरीदार हैं और न ही कार के विक्रेता। फिर, समझ में आ सकता है: आप निष्पक्ष हैं, और आप विचलन को अलग-अलग पहचानने या कम करने की इच्छा रखते हैं। वही लागू होता है यदि आप बिना किसी मूल्य के मूल्यों के बीच के संबंध को मॉडल करना चाहते हैं, बिना बताए मूल्यों की भविष्यवाणी करना चाहते हैं। अब मान लीजिए कि आप एक तंग बजट पर एक उपभोक्ता / खरीदार के लिए काम कर रहे हैं: इस स्थिति में, आप एक द्विघात अर्थ में कीमत की अधिक कमी को दंडित करना चाहते हैं, लेकिन एक एल पी अर्थ में कम करके आंका जा सकता है, जहां 1 working pR2Lp । के लिए पी = 1 , तो आप एक निरपेक्ष विचलन अर्थ में सज़ा होगी। यह खरीदार के लक्ष्यों और इरादों को प्रतिबिंबित करने के लिए देखा जा सकता है, और अनुमान को नीचे की ओर इंगित करते हुए उसके लिए ब्याज हो सकता है। इसके विपरीत, आप सोच को फ्लिप कर सकते हैं यदि आप विक्रेता के लिए मूल्य पूर्वानुमानों को मॉडल कर रहे थे। कहने की जरूरत नहीं है, किसी भी मानक एल पी को आपके द्वारा मॉडल किए गए मॉडेलर / एजेंट की प्राथमिकताओं को प्रतिबिंबित करने के लिए चुना जा सकता है। आप एल पी मानक केबाहरपूरी तरह सेदंडित कर सकते हैं, और एक तरफ निरंतर, घातीय या लॉग नुकसान का उपयोगकर सकते हैंऔर दूसरे पर एक अलग नुकसान कर सकते हैं।1p<2p=1LpLp

सारांश में, मॉडल के विकल्प / मूल्यांकन को मॉडल के उद्देश्य से स्वतंत्र रूप से नहीं माना जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.