"सर्वश्रेष्ठ फिट" और क्रॉस वेलिडेशन शब्द में "सर्वश्रेष्ठ" की परिभाषा क्या है?


16

यदि आप एक गैर रेखीय फलन को बिंदुओं के एक समूह में फिट करते हैं (यह मानते हुए कि प्रत्येक अनुपस्थिति के लिए केवल एक ही समन्वय है) परिणाम या तो निम्न हो सकता है:

  1. छोटे अवशेषों के साथ एक बहुत ही जटिल कार्य
  2. बड़े अवशेषों के साथ एक बहुत ही सरल कार्य

क्रॉस सत्यापन आमतौर पर इन दो चरम सीमाओं के बीच "सर्वश्रेष्ठ" समझौता खोजने के लिए उपयोग किया जाता है। लेकिन "सर्वश्रेष्ठ" का क्या अर्थ है? क्या यह "सबसे अधिक संभावना है"? आप भी कैसे साबित करना शुरू करेंगे कि सबसे संभावित समाधान क्या है?

मेरी आंतरिक आवाज मुझे बता रही है कि सीवी कुछ प्रकार के न्यूनतम ऊर्जा समाधान ढूंढ रहा है। यह मुझे एन्ट्रापी के बारे में सोचता है, जो मुझे पता है कि आँकड़े और भौतिकी दोनों में होता है।

यह मुझे लगता है कि "सबसे अच्छा" फिट जटिलता और त्रुटि के कार्यों के योग को कम करके उत्पन्न होता है

minimising m where m = c(Complexity) + e(Error)

क्या इसका कोई मतलब है? क्या कार्य होंगे c और e?

कृपया आप गैर गणितीय भाषा का उपयोग करके समझा सकते हैं, क्योंकि मैं ज्यादा गणित नहीं समझूंगा।


1
सबसे अच्छा भविष्य की त्रुटि वाला मॉडल है और क्रॉस-मान्यता आपको अनुमान लगाती है। C (जटिलता) + e (त्रुटि) सूत्रों का कारण यह है कि आप भविष्य में त्रुटि के अनुमान के रूप में प्रशिक्षण डेटा पर त्रुटि का उपयोग कर सकते हैं, लेकिन यह अत्यधिक आशावादी है, इसलिए आप इस अनुमान को निष्पक्ष बनाने के लिए एक शब्द जोड़ते हैं, जो आमतौर पर कुछ कार्य है मॉडल जटिलता
यारोस्लाव बुलटोव

दूसरी ओर, रनगे घटना (भौतिकी प्रेरणा फिर से) के प्रकाश में तर्क यह निष्कर्ष निकालता है कि भविष्य की त्रुटि जटिलता / Train_Error के बारे में कुछ है।

मैट क्रैस ने यहां एक समान प्रश्न का एक उत्कृष्ट उत्तर दिया है: आंकड़े . stackexchange.com/a/21925/14640 अपने जवाब से पैराफ्रासिंग करना : लक्ष्य मॉडल की व्याख्यात्मक शक्ति के साथ मॉडल जटिलता को संतुलित करना है और इसलिए पार्सिमनी की अवधारणा एक बेहतर है। एक मॉडल की उपयुक्तता की तुलना में त्रुटि के लिए सबसे अच्छा फिट की अवधारणा है। ऐसा इसलिए है क्योंकि अत्यधिक जटिल मॉडल नए परिणामों की भविष्यवाणी या व्याख्या करने में बेहतर होने के बिना डेटा को ओवरफिट कर सकता है।
असद इब्राहिम

जवाबों:


6

मुझे लगता है कि यह एक उत्कृष्ट प्रश्न है। मैं यह सुनिश्चित करने के लिए जा रहा हूं कि मुझे यह सही लगे।

ऐसा लगता है कि जटिलता दंड समारोह और त्रुटि दंड फ़ंक्शन e चुनने के बहुत सारे तरीके हैं । कौन सा विकल्प `सर्वश्रेष्ठ 'है। सबसे अच्छा भी क्या मतलब होना चाहिए ?ce

मुझे लगता है कि उत्तर (यदि कोई है तो) आपको क्रॉस-वैलिडेशन से परे ले जाएगा। मुझे पसंद है कि यह प्रश्न (और सामान्य रूप से विषय) ओकाम के रेजर और पारसमनी की सामान्य अवधारणा के बारे में अच्छी तरह से संबंध रखता है जो विज्ञान के लिए मौलिक है। मैं इस क्षेत्र का कोई विशेषज्ञ नहीं हूं, लेकिन मुझे यह सवाल बेहद रोचक लगा। इस प्रकार के प्रश्न पर मुझे जो सबसे अच्छा पाठ पता है, वह है मार्कस हटर द्वारा यूनिवर्सल आर्टिफिशियल इंटेलिजेंस (इसके बारे में मुझसे कोई सवाल नहीं पूछना, हालांकि, मैंने इसमें से अधिकांश नहीं पढ़ा है)। मैं हूटर और कुछ साल पहले एक बात करने गया था और बहुत प्रभावित हुआ था।

आप सही सोच वहाँ कहीं (के लिए जटिलता की सजा समारोह का इस्तेमाल किया में एक न्यूनतम एन्ट्रापी तर्क है कि वहाँ में हैं कुछ तरीके से)। हटर एन्ट्रापी के बजाय कोलमोगोरोव जटिलता के उपयोग की वकालत करता है । इसके अलावा, हटर की परिभाषा 'सर्वश्रेष्ठ' (जहां तक ​​मुझे याद है) (अनौपचारिक रूप से) मॉडल है जो भविष्य की भविष्यवाणी करता है (यानी सबसे अच्छा उस डेटा की भविष्यवाणी करता है जो भविष्य में मनाया जाएगा)। मुझे याद नहीं है कि वह इस धारणा को कैसे औपचारिक रूप देते हैं।c


आप प्रश्न को समझें। मैं लिंक का अनुसरण करूँगा।
बार्ट

आपको पता होना चाहिए कि ये लिंक आपको 'व्यावहारिक' कहीं भी ले जाने की संभावना नहीं है। यदि आप क्रॉस वेलिडेशन (या मॉडल चयन के कुछ अन्य प्रकार) का उपयोग करके कुछ बनाने की कोशिश कर रहे हैं, तो व्यवहार में यह हमेशा कुछ अनुमानी और थोड़ा तदर्थ में नीचे आने की संभावना है (हालांकि मैं मानता हूं कि यह असंतोषजनक है)।
रॉबी मैककिलियम

अब हम कहीं पहुँच रहे हैं। en.wikipedia.org/wiki/Minimum_message_length लगता है कि मैं क्या सोच रहा था। धन्यवाद!
bart

कोई चिंता नहीं। यह सिर्फ प्रतिबिंब है, व्यावहारिक नहीं है।
बार्ट

9

मैं किसी अन्य व्यक्ति द्वारा एक बेहतर जवाब देने तक एक संक्षिप्त सहज जवाब (काफी सार स्तर पर) पेश करूंगा:

सबसे पहले, ध्यान दें कि जटिल फ़ंक्शन / मॉडल बेहतर फिट (यानी, कम अवशिष्ट) प्राप्त करते हैं क्योंकि वे डेटासेट के कुछ स्थानीय विशेषताओं (थिंक शोर) का फायदा उठाते हैं जो विश्व स्तर पर मौजूद नहीं हैं (व्यवस्थित पैटर्न पर विचार करें)।

दूसरा, क्रॉस वैलिडेशन करते समय हम डेटा को दो सेटों में विभाजित करते हैं: प्रशिक्षण सेट और सत्यापन सेट।

इस प्रकार, जब हम क्रॉस सत्यापन करते हैं, तो एक जटिल मॉडल बहुत अच्छी तरह से भविष्यवाणी नहीं कर सकता है क्योंकि परिभाषा के अनुसार एक जटिल मॉडल प्रशिक्षण सेट की स्थानीय विशेषताओं का शोषण करेगा। हालांकि, प्रशिक्षण सेट की स्थानीय विशेषताएं वैरिफिकेशन सेट की स्थानीय विशेषताओं की तुलना में बहुत भिन्न हो सकती हैं, जिसके परिणामस्वरूप खराब भविष्य कहनेवाला प्रदर्शन होता है। इसलिए, हमारे पास मॉडल का चयन करने की प्रवृत्ति है जो प्रशिक्षण की वैश्विक विशेषताओं और सत्यापन डेटासेट को कैप्चर करता है।

सारांश में, क्रॉस सत्यापन सत्यापन मॉडल के वैश्विक पैटर्न को पकड़ने वाले मॉडल का चयन करके और डेटासेट के कुछ स्थानीय विशेषता का शोषण करने वाले मॉडल से बचने के द्वारा ओवरफिटिंग से बचाता है।


@ श्रीकांत मुझे यह सब पता है। सीवी "सर्वश्रेष्ठ" खोजने का एक साधन है। "सर्वश्रेष्ठ" की परिभाषा क्या है?
bart

@ बर्ट 'बेस्ट मॉडल' = एक मॉडल जो 'बेस्ट' एक डेटा की स्थानीय विशेषताओं से परहेज करते हुए वैश्विक पैटर्न को पकड़ता है। यह सबसे अच्छा मैं एक गैर-गणित विवरण के लिए कर सकता हूं। शायद, कोई और थोड़ा विस्तार कर सकता है या अधिक विशिष्ट हो सकता है।

@ बर्ट: "बेस्ट" का मतलब उस फंक्शन से है जो ट्रेनिंग डेटा को सबसे अच्छी तरह से फिट करता है, और जो सत्यापन / अनदेखी-टेस्ट सेट डेटा को अच्छी तरह से "सामान्यीकृत" करता है। मुझे लगता है कि यह श्रीकांत के जवाब से काफी स्पष्ट है। औपचारिक रूप से एक अच्छे सामान्यीकरण व्यवहार को परिभाषित करने के कई तरीके हैं। एक गैर-औपचारिक अर्थ में, आप इसे एक ऐसा फ़ंक्शन ढूंढ सकते हैं जो "सुचारू" हो और बहुत अधिक अस्पष्ट न हो। पूरी तरह से प्रशिक्षण डेटा पर फिट होने की कोशिश करने से विग्लिंग लुकिंग फंक्शन हो सकता है जबकि सहजता आमतौर पर यह सुनिश्चित करती है कि फ़ंक्शन प्रशिक्षण और सत्यापन / परीक्षण डेटा दोनों पर यथोचित रूप से कार्य करेगा।
आबनूस 1

@ebony: आप इस बिंदु को याद कर रहे हैं। मैं उम्मीद है कि बनाने के लिए यह स्पष्ट सवाल rephrased गया है
बार्ट

5

एक सामान्य मशीन-लर्निंग दृश्य में उत्तर काफी सरल है: हम उस मॉडल का निर्माण करना चाहते हैं जिसमें नए डेटा की भविष्यवाणी करते समय उच्चतम सटीकता होगी (प्रशिक्षण के दौरान अनदेखी)। क्योंकि हम सीधे इसका परीक्षण नहीं कर सकते हैं (हमारे पास भविष्य से डेटा नहीं है) हम मोंटे कार्लो सिमुलेशन का ऐसा परीक्षण करते हैं - और यह मूल रूप से क्रॉस सत्यापन के नीचे का विचार है।

सटीकता क्या है, इसके बारे में कुछ मुद्दे हो सकते हैं (उदाहरण के लिए एक व्यवसाय ग्राहक यह बता सकता है कि प्रति यूनिट 5 € की लागत और यूनिट के नीचे 0.01 € का अंतर है, इसलिए कम सटीक लेकिन अधिक अंडरसीटिंग मॉडल का निर्माण करना बेहतर है), लेकिन सामान्य तौर पर यह वर्गीकरण में सही उत्तरों का काफी सहज ज्ञान युक्त प्रतिशत है और व्यापक रूप से प्रतिगमन में समझाया गया विचरण है।


3

बहुत से लोगों के पास उत्कृष्ट उत्तर हैं, यहां मेरा $ 0.02 है।

"सर्वश्रेष्ठ मॉडल", या "मॉडल चयन" को देखने के दो तरीके हैं, सांख्यिकीय रूप से बोलना:

1 एक स्पष्टीकरण जो जितना संभव हो उतना सरल है, लेकिन कोई सरल नहीं है (Attrib। आइंस्टीन)

- This is also called Occam's Razor, as explanation applies here.
- Have a concept of True model or a model which approximates the truth
- Explanation is like doing scientific research


2 भविष्यवाणी ब्याज है, इंजीनियरिंग विकास के समान।

- Prediction is the aim, and all that matters is that the model works
- Model choice should be based on quality of predictions
- Cf: Ein-Dor, P. & Feldmesser, J. (1987) Attributes of the performance of central processing units: a relative performance prediction model. Communications of the ACM 30, 308–317.

व्यापक (गलत) गर्भाधान:

मॉडल का विकल्प सबसे अच्छा मॉडल चुनने के बराबर है

स्पष्टीकरण के लिए हमें सतर्क रहने के लिए सतर्क रहना चाहिए (कई) समान रूप से अच्छे व्याख्यात्मक मॉडल। सादगी दोनों मॉडल में सन्निहित अवधारणाओं को संप्रेषित करने में मदद करती है और मनोवैज्ञानिक किस सामान्यीकरण को कहते हैं, परिदृश्यों में 'काम' करने की क्षमता उन लोगों से बहुत अलग है जिनमें मॉडल का अध्ययन किया गया था। तो कुछ मॉडलों पर एक प्रीमियम है।

भविष्यवाणी के लिए: (डॉ। रिप्ले की) अच्छा सादृश्य विशेषज्ञ राय के बीच चयन करना है: यदि आपके पास विशेषज्ञों के एक बड़े पैनल तक पहुंच है, तो आप उनकी राय का उपयोग कैसे करेंगे?

क्रॉस वैलिडेशन भविष्यवाणी के पहलू का ध्यान रखता है। सीवी के बारे में विवरण के लिए कृपया मॉडल चयन पर डॉ । बीडी रिप्ले डॉ। ब्रायन डी। रिप्ले की प्रस्तुति द्वारा इस प्रस्तुति को देखें

उद्धरण: कृपया ध्यान दें कि इस उत्तर में सब कुछ ऊपर उल्लेखित प्रस्तुति से है। मैं इस प्रस्तुति का बहुत बड़ा प्रशंसक हूं और मुझे यह पसंद है। अन्य मत भिन्न हो सकते हैं। प्रस्तुति का शीर्षक है: "मॉडल के बीच चयन बड़ी कक्षाओं" और डॉ। ब्रायन डी। रिप्ले द्वारा 29/30 मार्च 2004 को जॉन नेल्डर के 80 वें जन्मदिन, इम्पीरियल कॉलेज के सम्मान में संगोष्ठी में दिया गया था।


3

यहाँ महान चर्चा है, लेकिन मैं इस तरह के जवाबों से एक अलग तरीके से क्रॉस-मान्यता के बारे में सोचता हूं (mbq और मैं उसी पृष्ठ पर हैं जो मुझे लगता है)। तो, मैं अपने दो सेंट में पानी को खराब करने के जोखिम में डालूँगा ...

क्रॉस-सत्यापन डेटा को फिट और भविष्यवाणी करने की एक मॉडल की क्षमता में नमूनाकरण त्रुटि के कारण परिवर्तनशीलता और पूर्वाग्रह का आकलन करने के लिए एक सांख्यिकीय तकनीक है। इस प्रकार, "सर्वश्रेष्ठ" वह मॉडल होगा जो सबसे कम सामान्यीकरण त्रुटि प्रदान करता है, जो परिवर्तनशीलता और पूर्वाग्रह की इकाइयों में होगा। बेइज़ियन और बूटस्ट्रैप मॉडल एवरेजिंग जैसी तकनीकों का उपयोग क्रॉस सत्यापन प्रयास के परिणामों के आधार पर एक एल्गोरिथम तरीके से एक मॉडल को अपडेट करने के लिए किया जा सकता है।

यह अक्सर पूछे जाने वाले प्रश्न के बारे में अधिक जानकारी के लिए अच्छी जानकारी प्रदान करता है।


1

त्रुटि फ़ंक्शन प्रशिक्षण डेटा पर आपके मॉडल (फ़ंक्शन) की त्रुटि है। जिस फ़ंक्शन को आप सीखने की कोशिश कर रहे हैं उसकी जटिलता कुछ मानदंड (जैसे, चुकता एल 2 मानदंड) है। जटिलता शब्द को न्यूनतम आवश्यक रूप से सुचारू कार्यों के पक्ष में है, जो न केवल प्रशिक्षण डेटा पर बल्कि परीक्षण डेटा पर भी अच्छा है। यदि आप गुणांक के एक सेट द्वारा अपने कार्य का प्रतिनिधित्व करते हैं (कहते हैं, यदि आप रैखिक प्रतिगमन कर रहे हैं), तो चुकता मानदंड द्वारा जटिलता को अंजाम देने से आपके कार्य में छोटे गुणांक मान हो जाएंगे (अन्य मानदंडों को दंडित करने से जटिलता नियंत्रण की अलग-अलग धारणाएं होती हैं)।


1

(p,q)1,λ>0

(1)Argmin.β|λ,x,y||ym(x,β)||p+λ||β||q

के बराबर है

(2)Argmin.β|λ,x,y||ym(x,β)||p

s.t. ||β||qλ

||β||qλq=1,2β^β^

λλ=(x,y)(1)(2)λβ^|λ )।

e()=||ym(x,β)||pp=1p=2m()


1
है λ

@ लॉबी:> धन्यवाद। मैंने पैरामीटर और हाइपरपरमेटर्स के बीच अंतर स्पष्ट करने के लिए पाठ को थोड़ा जोड़ा।
user603

@kwak: मुझे खेद है कि मुझे इसका कोई मतलब नहीं है कि इसका क्या मतलब है। P, q, lambda, x, y, m और beta प्रतीकों को क्या दर्शाता है?
bart

@ बर्ट:> मेरा उत्तर मूल रूप से श्रीकांत जैसा ही है। जहां वह एक सहज खोज प्रदान करता है, मैं भविष्य के आगंतुकों के लाभों के लिए अधिक कठोर जोड़ना चाहता था जो आपके जैसे ही प्रश्न हो सकते हैं, लेकिन गैर-औपचारिक भाषा की तुलना में गणित के साथ अधिक पारिवारिक हैं। आपके द्वारा उल्लेखित सभी प्रतीकों को मेरे उत्तर में परिभाषित किया गया है (पूरी तरह से, फिर से, यह औपचारिक रूप से किया गया है)।
user603

@kwak: जहाँ, उदाहरण के लिए, p को परिभाषित किया गया है?
bart
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.