लागत कार्य वर्ग त्रुटि का उपयोग क्यों करते हैं?


73

मैं अभी कुछ मशीन सीखने के साथ शुरू कर रहा हूं, और अब तक मैं एक चर पर रैखिक प्रतिगमन के साथ काम कर रहा हूं।

मैंने सीखा है कि एक परिकल्पना है, जो है:

hθ(x)=θ0+θ1x

मापदंडों के लिए अच्छे मूल्यों का पता लगाने के लिए और हम गणना किए गए परिणाम और हमारे परीक्षण डेटा के वास्तविक परिणाम के बीच अंतर को कम करना चाहते हैं। इसलिए हम घटाते हैंθ 1θ0θ1

hθ(x(i))y(i)

सभी के लिए से करने के लिए । इसलिए हम इस अंतर पर योग की गणना करते हैं और फिर योग की गणना से गुणा करके करते हैं । अब तक सब ठीक है। यह परिणाम होगा:1 एम 1i1m1m

1mi=1mhθ(x(i))y(i)

लेकिन यह सुझाव नहीं दिया गया है। इसके बजाय पाठ्यक्रम में अंतर का वर्ग मान लेने का सुझाव दिया गया है, और से गुणा करने के लिए । तो सूत्र है:12m

12mi=1m(hθ(x(i))y(i))2

ऐसा क्यों है? क्यों हम यहाँ वर्ग फ़ंक्शन का उपयोग करते हैं, और इसलिए हम से गुणा करते हैं के बजाय ?12m1m




क्योंकि यह एक Bregman विचलन है
एंड्रयू

जवाबों:


41

आपका नुकसान समारोह काम नहीं है, क्योंकि यह सेटिंग incentivizes किसी भी परिमित मूल्य और करने के लिए लिए ।θ1θ0

के कहते हैं अवशिष्ट के लिए ।r(x,y)=1mi=1mhθ(x(i))yh

आपका लक्ष्य को यथासंभव शून्य करना है, न कि इसे कम से कम करना । एक उच्च ऋणात्मक मान उच्च धनात्मक मान के समान ही बुरा है।r

संपादित करें: आप इसे पैरामीटर space (जैसे आप चाहते हैं ) को कृत्रिम रूप से सीमित करके मुकाबला कर सकते हैं । इस मामले में, इष्टतम पैरामीटर पैरामीटर स्थान की सीमा पर कुछ बिंदुओं पर झूठ होगा। Https://math.stackexchange.com/q/896388/12467 देखें । यह वह नहीं है जो आप चाहते हैं।Θ|θ0|<10

हम चौकोर नुकसान का उपयोग क्यों करते हैं

चुकता त्रुटि और को मेल करने के लिए मजबूर करती है । यदि संभव हो, तो यह पर कम से कम है, और हमेशा , क्योंकि यह वास्तविक संख्या का एक वर्ग है ।h(x)yu=v0uv

|uv|उपरोक्त उद्देश्य के लिए भी काम करेंगे, जैसा कि , कुछ सकारात्मक पूर्णांक के साथ होगा। इनमें से पहला वास्तव में प्रयोग किया जाता है (यह कहा जाता है हानि, आप भी देखने को मिल सकते हानि, जो चुकता त्रुटि का दूसरा नाम है)।(uv)2nn12

तो, क्यों चुकता नुकसान इन से बेहतर है? यह फ़्रीक्वेंटिस्ट और बेइज़ियन अनुमान के बीच की कड़ी से जुड़ा एक गहरा सवाल है । संक्षेप में, चुकता त्रुटि गाऊसी शोर से संबंधित है ।

अपने डेटा को वास्तव में सभी बिंदुओं को फिट नहीं करता है, यानी कोई बात नहीं क्या कुछ बिंदु के लिए शून्य नहीं है (हमेशा की तरह व्यवहार में क्या होगा) आप चुनते हैं, कि की वजह से हो सकता है शोर । किसी भी जटिल प्रणाली में आपके मॉडल और वास्तविकता बीच अंतर के लिए कई छोटे स्वतंत्र कारण होंगे : माप त्रुटि, पर्यावरणीय कारक आदि। केंद्रीय सीमा प्रमेय (CLT) द्वारा, कुल शोर सामान्य रूप से वितरित किया जाएगा , अर्थात गौसियन वितरण । हम सबसे अच्छा फिट चुनना चाहते हैंh(x)yθ h yθइस शोर वितरण को ध्यान में रखते हुए। , का हिस्सा मान लें कि आपका मॉडल व्याख्या नहीं कर सकता, गौसियन वितरण अनुसरण करता है । हम राजधानियों का उपयोग कर रहे हैं क्योंकि हम यादृच्छिक चर के बारे में बात कर रहे हैं।R=h(X)YyN(μ,σ)

गॉसियन डिस्ट्रीब्यूशन के दो पैरामीटर हैं, मतलब और विचरण । इन शर्तों को बेहतर समझने के लिए यहां देखें ।μ=E[R]=1mihθ(X(i))Y(i))σ2=E[R2]=1mi(hθ(X(i))Y(i)))2

  • पर विचार करें , यह हमारे माप की व्यवस्थित त्रुटि है। का प्रयोग करें , व्यवस्थित त्रुटि के लिए सही करने के लिए इतना है कि (पाठक के लिए व्यायाम)। यहां और कुछ नहीं करना है।μh(x)=h(x)μμ=E[R]=0

  • σ यादृच्छिक त्रुटि का प्रतिनिधित्व करता है , जिसे शोर भी कहा जाता है । एक बार जब हमने पिछले बिंदु के रूप में व्यवस्थित शोर घटक का ख्याल रखा है, तो सबसे अच्छा तब प्राप्त होता है जब को छोटा किया जाता है। एक और तरीका रखो, सबसे अच्छा भविष्यवक्ता सबसे अनुमानित वितरण (सबसे छोटा संस्करण) है, जो कि अनुमानित मूल्य के आसपास सबसे छोटा वितरण है (यानी सबसे छोटा संस्करण)। कम से कम चुकता नुकसान को कम करना वैरिएशन को कम करने के समान है! यह बताता है कि समस्याओं की एक विस्तृत श्रृंखला के लिए कम से कम चुकता नुकसान क्यों काम करता है। सीएलटी के कारण अंतर्निहित शोर अक्सर गॉसियन होता है, और चुकता त्रुटि को कम करने के लिए सही हो जाता हैσ2=1mi(hθ(X(i))Y(i)))2 करने के लिए!

एक साथ माध्य और विचरण दोनों को ध्यान में रखते हुए, हम अपने क्लासिफायरफ़ायर (व्यवस्थित त्रुटि को संभालने के लिए ) में एक पूर्वाग्रह शब्द शामिल करते हैं , फिर वर्ग हानि को कम करते हैं।μ

अनुवर्ती प्रश्न:

  • कम से कम वर्गों का नुकसान = गाऊसी त्रुटि। क्या प्रत्येक अन्य हानि फ़ंक्शन भी कुछ शोर वितरण के अनुरूप है? हाँ। उदाहरण के लिए, हानि (चुकता त्रुटि के बजाय पूर्ण मान को कम करना) लाप्लास वितरण (इन्फोबॉक्स में पीडीएफ के लिए सूत्र को देखें ) से मेल खाती है - यह साथ सिर्फ गौसियन है बजाय )। संभावना वितरण के लिए एक लोकप्रिय नुकसान केएल-विचलन है । -गौसियन वितरण केंद्रीय सीमा प्रमेय के कारण बहुत अच्छी तरह से प्रेरित है1|xμ|(xμ)2, जिसकी हमने पहले चर्चा की। लैपलेस वितरण सही शोर मॉडल कब है? कुछ परिस्थितियाँ ऐसी होती हैं जहाँ यह स्वाभाविक रूप से होता है, लेकिन यह आमतौर पर नियमितता के रूप में अधिक होता है कि स्पार्सिटी को लागू किया जाए : नुकसान सभी उत्तल नुकसानों में से सबसे कम उत्तल है1

    • जैसा कि जनवरी की टिप्पणियों में उल्लेख किया गया है, चुकता विचलन का न्यूनतम माध्य है और निरपेक्ष विचलन के योग का न्यूनतम माध्यिका है । हम माध्य के बजाय अवशिष्टों का माध्य क्यों खोजना चाहेंगे? माध्य के विपरीत, माध्य एक बहुत बड़े बाह्य भाग से नहीं फेंका जाता है। तो, बढ़े हुए मजबूती के लिए नुकसान का उपयोग किया जाता है। कभी-कभी दोनों के संयोजन का उपयोग किया जाता है।1
  • क्या ऐसी परिस्थितियाँ हैं, जहाँ हम मीन और विचरण दोनों को कम करते हैं? हाँ। को फिर से देखें पूर्वाग्रह-विचरण व्यापार बंद । यहाँ, हम के क्लासिफायर्स का एक सेट देख रहे हैं और पूछ रहे हैं कि उनमें से कौन सबसे अच्छा है। यदि हम पूछते हैं कि किसी समस्या के लिए क्लासिफायर का कौन सा सेट सबसे अच्छा है, तो पूर्वाग्रह और भिन्नता दोनों को कम करना महत्वपूर्ण हो जाता है। यह पता चला है कि उनके बीच हमेशा एक व्यापार होता है और हम एक समझौते को प्राप्त करने के लिए नियमितीकरण का उपयोग करते हैं ।hθH

के बारे में अवधि12

1/2 कोई फर्क नहीं पड़ता और वास्तव में, न ही - वे दोनों स्थिरांक हैं। का इष्टतम मान दोनों मामलों में समान रहेगा।mθ

  • ढाल के लिए अभिव्यक्ति साथ पूर्ववर्ती हो जाती है , क्योंकि 2 वर्ग शब्द से बाहर निकल जाता है।12

    • कोड या एल्गोरिदम लिखते समय, हम आमतौर पर ढाल के साथ अधिक चिंतित होते हैं, इसलिए यह संक्षिप्त रखने में मदद करता है। आप केवल ग्रेडिएंट के मानदंड की जांच करके प्रगति की जांच कर सकते हैं। हानि फ़ंक्शन कभी-कभी कोड से छोड़ा जाता है क्योंकि इसका उपयोग केवल अंतिम उत्तर के सत्यापन के लिए किया जाता है।
  • अगर आप ढाल वंश के साथ इस समस्या को हल उपयोगी है। फिर आपका ग्रेडिएंट एक राशि के बजाय शब्द का औसत बन जाता है , इसलिए जब आप अधिक डेटा बिंदु जोड़ते हैं तो इसका पैमाना नहीं बदलता है।mm

    • मैंने पहले इस समस्या में भाग लिया है: मैं कोड की एक छोटी संख्या के साथ परीक्षण करता हूं और यह ठीक काम करता है, लेकिन जब आप पूरे डेटासेट के साथ इसका परीक्षण करते हैं, तो सटीकता की हानि होती है और कभी-कभी ओवर / अंडर-फ्लो होता है, अर्थात आपकी ढाल बन जाती है nanया inf। उससे बचने के लिए, बस संख्या के डेटा बिंदुओं को सामान्य करें।
  • इन सौंदर्य निर्णयों का उपयोग यहाँ भविष्य के समीकरणों के साथ स्थिरता बनाए रखने के लिए किया जाता है जहाँ आप नियमितीकरण की शर्तें जोड़ेंगे । यदि आप शामिल करते हैं , तो नियमितीकरण पैरामीटर डेटासेट आकार पर निर्भर नहीं होगा और यह समस्याओं में अधिक व्याख्या योग्य होगा।mλm


आपने कहा, "जब आप व्युत्पन्न लेते हैं, तो अभिव्यक्ति पूर्ववर्ती होती है, क्योंकि 2 वर्ग वर्ग से 2 को रद्द कर देते हैं"। लेकिन हम इसकी व्युत्पत्ति क्यों लेना चाहते हैं?
DrGeneral

हम आमतौर पर ढाल वंश का उपयोग करके नुकसान का अनुकूलन करते हैं, जिसके लिए व्युत्पन्न की आवश्यकता होती है। मैंने इसका उल्लेख नहीं किया क्योंकि यह इस प्रश्न के संदर्भ से स्पष्ट होना चाहिए।
हर्ष

1
हर्ष, मेरी भोली को माफ कर दो, लेकिन वर्ग के बजाय निरपेक्ष मूल्य का उपयोग क्यों न करें?
अलेक्जेंडर सुराफेल

1
पूर्ण त्रुटि भी काम कर सकती है, लेकिन उस स्थिति में आप माध्य के बजाय अपेक्षित मंझले को पुनः प्राप्त करेंगे। संख्याओं की एक छोटी सूची लें और देखें कि नुकसान आपके अनुमानों (दोनों चुकता और पूर्ण त्रुटि के लिए) को शिफ्ट करने से कैसे भिन्न होता है
Jan van der Vegt

@AlexanderSuraphel का जवाब देने में देरी के लिए खेद :) मैं एक अनुभाग के ऊपर है कि पता करने के लिए जोड़ दिया है
हर्ष

25

1/2 गुणांक केवल सुविधा के लिए है; यह व्युत्पन्न बनाता है, जो कि फ़ंक्शन वास्तव में अनुकूलित किया जा रहा है, अच्छे लग रहे हैं। 1 / मी अधिक मौलिक है; यह बताता है कि हम माध्य चुकता त्रुटि में रुचि रखते हैं । यह आपको नमूना आकार बदलते समय उचित तुलना करने की अनुमति देता है, और अतिप्रवाह को रोकता है। तथाकथित "स्टोचैस्टिक" ऑप्टिमाइज़र डेटा सेट (m '<m) के सबसेट का उपयोग करते हैं। जब आप एक रेग्युलराइज़र (ऑब्जेक्टिव फंक्शन के लिए एक एडिटिव टर्म) पेश करते हैं, तो 1 / m फैक्टर का उपयोग करके आप सैंपल साइज़ की परवाह किए बिना रेगुलराइज़र के लिए समान गुणांक का उपयोग कर सकते हैं।

इस सवाल के लिए कि वर्ग और केवल अंतर क्यों नहीं है: क्या आप नहीं चाहते कि अंडरस्टीमेट को इसी तरह दंडित किया जाए? चुकता त्रुटि के संकेत के प्रभाव को समाप्त करता है। निरपेक्ष मान (L1 मानदंड) लेना भी, लेकिन इसकी व्युत्पत्ति मूल में अपरिभाषित है, इसलिए इसका उपयोग करने के लिए अधिक परिष्कार की आवश्यकता होती है। L1 मानदंड के इसके उपयोग हैं, इसलिए इसे ध्यान में रखें, और शायद शिक्षक से पूछें कि क्या वह इसे कवर करने जा रहा है।


4
भिन्नता के अलावा, मान मानदंडों में अद्वितीय है कि यह एक हिल्बर्ट स्थान है। यह तथ्य कि आंतरिक उत्पाद से आदर्श उत्पन्न होता है, लिए भारी मात्रा में मशीनरी उपलब्ध करता है जो अन्य मानदंडों के लिए उपलब्ध नहीं है। एल पी एल 2L2LpL2
स्टीवन गब्किन

6

हानि फ़ंक्शन में त्रुटि माप एक 'सांख्यिकीय दूरी' है; यूक्लिडियन अंतरिक्ष में दो वैक्टर के बीच दूरी की लोकप्रिय और प्रारंभिक समझ के विपरीत। 'सांख्यिकीय दूरी' के साथ हम अनुमानित मॉडल और यूक्लिडियन स्पेस के लिए इष्टतम मॉडल के बीच 'डिस-समानता' को मैप करने का प्रयास कर रहे हैं।

इस 'सांख्यिकीय दूरी' के निरूपण के बारे में कोई नियमबद्ध नियम नहीं है, लेकिन यदि विकल्प उपयुक्त है, तो अनुकूलन के दौरान इस 'दूरी' में एक प्रगतिशील कमी मॉडल के आकलन में उत्तरोत्तर सुधार लाती है। नतीजतन, 'सांख्यिकीय दूरी' या त्रुटि माप का विकल्प अंतर्निहित डेटा वितरण से संबंधित है।

वास्तव में, सांख्यिकीय वितरण के विभिन्न वर्गों के लिए कई अच्छी तरह से परिभाषित दूरी / त्रुटि उपाय हैं। हाथ में डेटा के वितरण के आधार पर त्रुटि माप का चयन करना उचित है। यह सिर्फ इतना होता है कि गौसियन वितरण सर्वव्यापी है, और फलस्वरूप इसकी संबद्ध दूरी माप, L2- मान सबसे लोकप्रिय त्रुटि माप है। हालाँकि, यह एक नियम नहीं है और वास्तविक विश्व डेटा मौजूद है जिसके लिए एक 'कुशल' * अनुकूलन कार्यान्वयन L2- मानक की तुलना में एक अलग त्रुटि माप को अपनाएगा।

ब्रेगमैन डाइवर्जेंस के सेट पर विचार करें । इस विचलन माप का विहित प्रतिनिधित्व L2- मानदंड (चुकता त्रुटि) है। इसमें सापेक्ष एन्ट्रॉपी (कुल्बैक-लिबलर विचलन), सामान्यीकृत यूक्लिडियन दूरी (महलानोबिस मीट्रिक), और इटाकुरा-सैटो फ़ंक्शन भी शामिल हैं। आप इसके बारे में इस पत्र में कार्यात्मक ब्रेगमैन डाइवर्जेंस और बायेशियन अनुमानों के वितरण पर अधिक पढ़ सकते हैं ।

टेक-दूर: एल 2-मानक में गुणों का एक दिलचस्प सेट है जो इसे त्रुटि माप के लिए एक लोकप्रिय विकल्प बनाता है (यहां अन्य उत्तरों ने इनमें से कुछ का उल्लेख किया है, इस प्रश्न के दायरे के लिए पर्याप्त है), और चुकता त्रुटि उपयुक्त होगी। ज्यादातर समय पसंद करते हैं। फिर भी, जब डेटा वितरण की आवश्यकता होती है, तो चुनने के लिए वैकल्पिक त्रुटि उपाय होते हैं, और विकल्प अनुकूलन दिनचर्या के निर्माण पर बड़े हिस्से में निर्भर करता है।

* 'उपयुक्त' त्रुटि माप अनुकूलन के लिए नुकसान फ़ंक्शन उत्तल बना देगा, जो कि कुछ अन्य त्रुटि माप के विपरीत है, जहां हानि फ़ंक्शन गैर-उत्तल है और जिससे कुख्यात मुश्किल है।


5

दूसरों द्वारा किए गए प्रमुख बिंदुओं के अलावा, चुकता त्रुटि का उपयोग बड़ी त्रुटि पर अधिक जोर देता है (जब आप इसे 3/2 बनाम? वर्ग पर 1/2 करते हैं तो क्या होता है)?

एक एल्गोरिथ्म होने से, जो भिन्नात्मक त्रुटियों को स्थानांतरित करता है, जिसके परिणामस्वरूप सही वर्गीकरण या अनुमान और जमीनी सच्चाई के बीच बहुत कम अंतर होता है, यदि अकेले शून्य के करीब छोड़ दिया जाता है, जबकि बड़ी त्रुटियों या गलतफहमी के रूप में बड़ी त्रुटियों को छोड़ देना, एक वांछनीय विशेषता नहीं है। एक एल्गोरिथ्म।

चुकता त्रुटि का उपयोग करते हुए भविष्यवाणी को समायोजित करने के लिए निहित महत्व वजन के रूप में त्रुटि का उपयोग करता है।


इसलिए, मनमानी त्रुटि क्या है
jeza

3

अपने सूत्रीकरण में, आप देखे गए डेटा से अपने सन्निकटन के औसत विचलन को प्राप्त करने का प्रयास करते हैं।

यदि आपके सन्निकटन का माध्य मान मनाया गया डेटा के औसत मूल्य के करीब या बराबर है (ऐसा कुछ जो वांछनीय है और अक्सर कई सन्निकटन योजनाओं के साथ होता है) तो आपके सूत्रीकरण का परिणाम शून्य या नगण्य होगा, क्योंकि सकारात्मक त्रुटियां नकारात्मक की भरपाई करती हैं त्रुटियों। इससे यह निष्कर्ष निकल सकता है कि आपका अवलोकन प्रत्येक देखे गए नमूने पर अद्भुत है, जबकि ऐसा नहीं हो सकता है। इसलिए आप प्रत्येक नमूने में त्रुटि के वर्ग का उपयोग करते हैं और आप उन्हें जोड़ते हैं (आपकी प्रत्येक त्रुटि सकारात्मक हो जाती है)।

बेशक, यह केवल एक संभव समाधान है, क्योंकि आप L2- मानक के बजाय L1- मान (प्रत्येक नमूने पर त्रुटि का पूर्ण मूल्य) या कई अन्य का उपयोग कर सकते थे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.