लागत कार्य वर्ग त्रुटि का उपयोग क्यों करते हैं?

73

मैं अभी कुछ मशीन सीखने के साथ शुरू कर रहा हूं, और अब तक मैं एक चर पर रैखिक प्रतिगमन के साथ काम कर रहा हूं।

मैंने सीखा है कि एक परिकल्पना है, जो है:

$h_\theta(x)=\theta_0+\theta_1x$

मापदंडों के लिए अच्छे मूल्यों का पता लगाने के लिए और हम गणना किए गए परिणाम और हमारे परीक्षण डेटा के वास्तविक परिणाम के बीच अंतर को कम करना चाहते हैं। इसलिए हम घटाते हैं $\theta_0$ $\theta_1$

$h_\theta(x^{(i)})-y^{(i)}$

सभी के लिए से करने के लिए । इसलिए हम इस अंतर पर योग की गणना करते हैं और फिर योग की गणना से गुणा करके करते हैं । अब तक सब ठीक है। यह परिणाम होगा: $i$ $1$ $m$ $\frac{1}{m}$

$\frac{1}{m}\sum_{i=1}^mh_\theta(x^{(i)})-y^{(i)}$

लेकिन यह सुझाव नहीं दिया गया है। इसके बजाय पाठ्यक्रम में अंतर का वर्ग मान लेने का सुझाव दिया गया है, और से गुणा करने के लिए । तो सूत्र है: $\frac{1}{2m}$

$\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$

ऐसा क्यों है? क्यों हम यहाँ वर्ग फ़ंक्शन का उपयोग करते हैं, और इसलिए हम से गुणा करते हैं के बजाय ? $\frac{1}{2m}$ $\frac{1}{m}$

machine-learning linear-regression loss-function

— गोलो रोडेन
स्रोत

3

संबंधित प्रश्न आँकड़े.स्टैकएक्सचेंज.कॉम

— user1205197

Goo.gl/VNiUR5

— vimdude

क्योंकि यह एक Bregman विचलन है

— एंड्रयू

41

आपका नुकसान समारोह काम नहीं है, क्योंकि यह सेटिंग incentivizes किसी भी परिमित मूल्य और करने के लिए लिए । $\theta_1$ $\theta_0$ $-\infty$

के कहते हैं अवशिष्ट के लिए । $r(x,y)=\frac{1}{m}\sum_{i=1}^m {h_\theta\left(x^{(i)}\right)} -y$ $h$

आपका लक्ष्य को यथासंभव शून्य करना है, न कि इसे कम से कम करना । एक उच्च ऋणात्मक मान उच्च धनात्मक मान के समान ही बुरा है। $r$

संपादित करें: आप इसे पैरामीटर space (जैसे आप चाहते हैं ) को कृत्रिम रूप से सीमित करके मुकाबला कर सकते हैं । इस मामले में, इष्टतम पैरामीटर पैरामीटर स्थान की सीमा पर कुछ बिंदुओं पर झूठ होगा। Https://math.stackexchange.com/q/896388/12467 देखें । यह वह नहीं है जो आप चाहते हैं। $\mathbf{\Theta}$ $|\theta_0| < 10$

हम चौकोर नुकसान का उपयोग क्यों करते हैं

चुकता त्रुटि और को मेल करने के लिए मजबूर करती है । यदि संभव हो, तो यह पर कम से कम है, और हमेशा , क्योंकि यह वास्तविक संख्या का एक वर्ग है । $h(x)$ $y$ $u=v$ $\ge 0$ $u-v$

$|u-v|$ उपरोक्त उद्देश्य के लिए भी काम करेंगे, जैसा कि , कुछ सकारात्मक पूर्णांक के साथ होगा। इनमें से पहला वास्तव में प्रयोग किया जाता है (यह कहा जाता है हानि, आप भी देखने को मिल सकते हानि, जो चुकता त्रुटि का दूसरा नाम है)। $(u-v)^{2n}$ $n$ $\ell_1$ $\ell_2$

तो, क्यों चुकता नुकसान इन से बेहतर है? यह फ़्रीक्वेंटिस्ट और बेइज़ियन अनुमान के बीच की कड़ी से जुड़ा एक गहरा सवाल है । संक्षेप में, चुकता त्रुटि गाऊसी शोर से संबंधित है ।

अपने डेटा को वास्तव में सभी बिंदुओं को फिट नहीं करता है, यानी कोई बात नहीं क्या कुछ बिंदु के लिए शून्य नहीं है (हमेशा की तरह व्यवहार में क्या होगा) आप चुनते हैं, कि की वजह से हो सकता है शोर । किसी भी जटिल प्रणाली में आपके मॉडल और वास्तविकता बीच अंतर के लिए कई छोटे स्वतंत्र कारण होंगे : माप त्रुटि, पर्यावरणीय कारक आदि। केंद्रीय सीमा प्रमेय (CLT) द्वारा, कुल शोर सामान्य रूप से वितरित किया जाएगा , अर्थात गौसियन वितरण । हम सबसे अच्छा फिट चुनना चाहते हैं $h(x)-y$ $\theta$ $h$ $y$ $\theta$ इस शोर वितरण को ध्यान में रखते हुए। , का हिस्सा मान लें कि आपका मॉडल व्याख्या नहीं कर सकता, गौसियन वितरण अनुसरण करता है । हम राजधानियों का उपयोग कर रहे हैं क्योंकि हम यादृच्छिक चर के बारे में बात कर रहे हैं। $R = h(X)-Y$ $\mathbf{y}$ $\mathcal{N}(\mu,\sigma)$

गॉसियन डिस्ट्रीब्यूशन के दो पैरामीटर हैं, मतलब और विचरण । इन शर्तों को बेहतर समझने के लिए यहां देखें । $\mu = \mathbb{E}[R] = \frac{1}{m} \sum_i h_\theta(X^{(i)})-Y^{(i))}$ $\sigma^2 = E[R^2] = \frac{1}{m} \sum_i \left(h_\theta(X^{(i)})-Y^{(i))}\right)^2$

पर विचार करें , यह हमारे माप की व्यवस्थित त्रुटि है। का प्रयोग करें , व्यवस्थित त्रुटि के लिए सही करने के लिए इतना है कि (पाठक के लिए व्यायाम)। यहां और कुछ नहीं करना है। $\mu$ $h'(x) = h(x) - \mu$ $\mu' = \mathbb{E}[R']=0$
$\sigma$ यादृच्छिक त्रुटि का प्रतिनिधित्व करता है , जिसे शोर भी कहा जाता है । एक बार जब हमने पिछले बिंदु के रूप में व्यवस्थित शोर घटक का ख्याल रखा है, तो सबसे अच्छा तब प्राप्त होता है जब को छोटा किया जाता है। एक और तरीका रखो, सबसे अच्छा भविष्यवक्ता सबसे अनुमानित वितरण (सबसे छोटा संस्करण) है, जो कि अनुमानित मूल्य के आसपास सबसे छोटा वितरण है (यानी सबसे छोटा संस्करण)। कम से कम चुकता नुकसान को कम करना वैरिएशन को कम करने के समान है! यह बताता है कि समस्याओं की एक विस्तृत श्रृंखला के लिए कम से कम चुकता नुकसान क्यों काम करता है। सीएलटी के कारण अंतर्निहित शोर अक्सर गॉसियन होता है, और चुकता त्रुटि को कम करने के लिए सही हो जाता है $\sigma^2 = \frac{1}{m} \sum_i \left(h_\theta(X^{(i)})-Y^{(i))}\right)^2$ करने के लिए!

एक साथ माध्य और विचरण दोनों को ध्यान में रखते हुए, हम अपने क्लासिफायरफ़ायर (व्यवस्थित त्रुटि को संभालने के लिए ) में एक पूर्वाग्रह शब्द शामिल करते हैं , फिर वर्ग हानि को कम करते हैं। $\mu$

अनुवर्ती प्रश्न:

कम से कम वर्गों का नुकसान = गाऊसी त्रुटि। क्या प्रत्येक अन्य हानि फ़ंक्शन भी कुछ शोर वितरण के अनुरूप है? हाँ। उदाहरण के लिए, हानि (चुकता त्रुटि के बजाय पूर्ण मान को कम करना) लाप्लास वितरण (इन्फोबॉक्स में पीडीएफ के लिए सूत्र को देखें ) से मेल खाती है - यह साथ सिर्फ गौसियन है बजाय )। संभावना वितरण के लिए एक लोकप्रिय नुकसान केएल-विचलन है । -गौसियन वितरण केंद्रीय सीमा प्रमेय के कारण बहुत अच्छी तरह से प्रेरित है $\ell_1$ $|x-\mu|$ $(x-\mu)^2$ , जिसकी हमने पहले चर्चा की। लैपलेस वितरण सही शोर मॉडल कब है? कुछ परिस्थितियाँ ऐसी होती हैं जहाँ यह स्वाभाविक रूप से होता है, लेकिन यह आमतौर पर नियमितता के रूप में अधिक होता है कि स्पार्सिटी को लागू किया जाए : नुकसान सभी उत्तल नुकसानों में से सबसे कम उत्तल है । $\ell_1$
- जैसा कि जनवरी की टिप्पणियों में उल्लेख किया गया है, चुकता विचलन का न्यूनतम माध्य है और निरपेक्ष विचलन के योग का न्यूनतम माध्यिका है । हम माध्य के बजाय अवशिष्टों का माध्य क्यों खोजना चाहेंगे? माध्य के विपरीत, माध्य एक बहुत बड़े बाह्य भाग से नहीं फेंका जाता है। तो, बढ़े हुए मजबूती के लिए नुकसान का उपयोग किया जाता है। कभी-कभी दोनों के संयोजन का उपयोग किया जाता है। $\ell_1$
क्या ऐसी परिस्थितियाँ हैं, जहाँ हम मीन और विचरण दोनों को कम करते हैं? हाँ। को फिर से देखें पूर्वाग्रह-विचरण व्यापार बंद । यहाँ, हम के क्लासिफायर्स का एक सेट देख रहे हैं और पूछ रहे हैं कि उनमें से कौन सबसे अच्छा है। यदि हम पूछते हैं कि किसी समस्या के लिए क्लासिफायर का कौन सा सेट सबसे अच्छा है, तो पूर्वाग्रह और भिन्नता दोनों को कम करना महत्वपूर्ण हो जाता है। यह पता चला है कि उनके बीच हमेशा एक व्यापार होता है और हम एक समझौते को प्राप्त करने के लिए नियमितीकरण का उपयोग करते हैं । $h_\theta \in H$

के बारे में अवधि $\frac{1}{2}$

1/2 कोई फर्क नहीं पड़ता और वास्तव में, न ही - वे दोनों स्थिरांक हैं। का इष्टतम मान दोनों मामलों में समान रहेगा। $m$ $\theta$

ढाल के लिए अभिव्यक्ति साथ पूर्ववर्ती हो जाती है , क्योंकि 2 वर्ग शब्द से बाहर निकल जाता है। $\frac{1}{2}$
- कोड या एल्गोरिदम लिखते समय, हम आमतौर पर ढाल के साथ अधिक चिंतित होते हैं, इसलिए यह संक्षिप्त रखने में मदद करता है। आप केवल ग्रेडिएंट के मानदंड की जांच करके प्रगति की जांच कर सकते हैं। हानि फ़ंक्शन कभी-कभी कोड से छोड़ा जाता है क्योंकि इसका उपयोग केवल अंतिम उत्तर के सत्यापन के लिए किया जाता है।
अगर आप ढाल वंश के साथ इस समस्या को हल उपयोगी है। फिर आपका ग्रेडिएंट एक राशि के बजाय शब्द का औसत बन जाता है , इसलिए जब आप अधिक डेटा बिंदु जोड़ते हैं तो इसका पैमाना नहीं बदलता है। $m$ $m$
- मैंने पहले इस समस्या में भाग लिया है: मैं कोड की एक छोटी संख्या के साथ परीक्षण करता हूं और यह ठीक काम करता है, लेकिन जब आप पूरे डेटासेट के साथ इसका परीक्षण करते हैं, तो सटीकता की हानि होती है और कभी-कभी ओवर / अंडर-फ्लो होता है, अर्थात आपकी ढाल बन जाती है nanया inf। उससे बचने के लिए, बस संख्या के डेटा बिंदुओं को सामान्य करें।
इन सौंदर्य निर्णयों का उपयोग यहाँ भविष्य के समीकरणों के साथ स्थिरता बनाए रखने के लिए किया जाता है जहाँ आप नियमितीकरण की शर्तें जोड़ेंगे । यदि आप शामिल करते हैं , तो नियमितीकरण पैरामीटर डेटासेट आकार पर निर्भर नहीं होगा और यह समस्याओं में अधिक व्याख्या योग्य होगा। $m$ $\lambda$ $m$

— कठोर
स्रोत

आपने कहा, "जब आप व्युत्पन्न लेते हैं, तो अभिव्यक्ति पूर्ववर्ती होती है, क्योंकि 2 वर्ग वर्ग से 2 को रद्द कर देते हैं"। लेकिन हम इसकी व्युत्पत्ति क्यों लेना चाहते हैं?

— DrGeneral

हम आमतौर पर ढाल वंश का उपयोग करके नुकसान का अनुकूलन करते हैं, जिसके लिए व्युत्पन्न की आवश्यकता होती है। मैंने इसका उल्लेख नहीं किया क्योंकि यह इस प्रश्न के संदर्भ से स्पष्ट होना चाहिए।

— हर्ष

1

हर्ष, मेरी भोली को माफ कर दो, लेकिन वर्ग के बजाय निरपेक्ष मूल्य का उपयोग क्यों न करें?

— अलेक्जेंडर सुराफेल

1

पूर्ण त्रुटि भी काम कर सकती है, लेकिन उस स्थिति में आप माध्य के बजाय अपेक्षित मंझले को पुनः प्राप्त करेंगे। संख्याओं की एक छोटी सूची लें और देखें कि नुकसान आपके अनुमानों (दोनों चुकता और पूर्ण त्रुटि के लिए) को शिफ्ट करने से कैसे भिन्न होता है

— Jan van der Vegt

@AlexanderSuraphel का जवाब देने में देरी के लिए खेद :) मैं एक अनुभाग के ऊपर है कि पता करने के लिए जोड़ दिया है

— हर्ष

25

1/2 गुणांक केवल सुविधा के लिए है; यह व्युत्पन्न बनाता है, जो कि फ़ंक्शन वास्तव में अनुकूलित किया जा रहा है, अच्छे लग रहे हैं। 1 / मी अधिक मौलिक है; यह बताता है कि हम माध्य चुकता त्रुटि में रुचि रखते हैं । यह आपको नमूना आकार बदलते समय उचित तुलना करने की अनुमति देता है, और अतिप्रवाह को रोकता है। तथाकथित "स्टोचैस्टिक" ऑप्टिमाइज़र डेटा सेट (m '<m) के सबसेट का उपयोग करते हैं। जब आप एक रेग्युलराइज़र (ऑब्जेक्टिव फंक्शन के लिए एक एडिटिव टर्म) पेश करते हैं, तो 1 / m फैक्टर का उपयोग करके आप सैंपल साइज़ की परवाह किए बिना रेगुलराइज़र के लिए समान गुणांक का उपयोग कर सकते हैं।

इस सवाल के लिए कि वर्ग और केवल अंतर क्यों नहीं है: क्या आप नहीं चाहते कि अंडरस्टीमेट को इसी तरह दंडित किया जाए? चुकता त्रुटि के संकेत के प्रभाव को समाप्त करता है। निरपेक्ष मान (L1 मानदंड) लेना भी, लेकिन इसकी व्युत्पत्ति मूल में अपरिभाषित है, इसलिए इसका उपयोग करने के लिए अधिक परिष्कार की आवश्यकता होती है। L1 मानदंड के इसके उपयोग हैं, इसलिए इसे ध्यान में रखें, और शायद शिक्षक से पूछें कि क्या वह इसे कवर करने जा रहा है।

— Emre
स्रोत

4

भिन्नता के अलावा, मान मानदंडों में अद्वितीय है कि यह एक हिल्बर्ट स्थान है। यह तथ्य कि आंतरिक उत्पाद से आदर्श उत्पन्न होता है, लिए भारी मात्रा में मशीनरी उपलब्ध करता है जो अन्य मानदंडों के लिए उपलब्ध नहीं है।

L^{2}

$L^2$

L^{p}

$L^p$

L^{2}

$L^2$

— स्टीवन गब्किन

6

हानि फ़ंक्शन में त्रुटि माप एक 'सांख्यिकीय दूरी' है; यूक्लिडियन अंतरिक्ष में दो वैक्टर के बीच दूरी की लोकप्रिय और प्रारंभिक समझ के विपरीत। 'सांख्यिकीय दूरी' के साथ हम अनुमानित मॉडल और यूक्लिडियन स्पेस के लिए इष्टतम मॉडल के बीच 'डिस-समानता' को मैप करने का प्रयास कर रहे हैं।

इस 'सांख्यिकीय दूरी' के निरूपण के बारे में कोई नियमबद्ध नियम नहीं है, लेकिन यदि विकल्प उपयुक्त है, तो अनुकूलन के दौरान इस 'दूरी' में एक प्रगतिशील कमी मॉडल के आकलन में उत्तरोत्तर सुधार लाती है। नतीजतन, 'सांख्यिकीय दूरी' या त्रुटि माप का विकल्प अंतर्निहित डेटा वितरण से संबंधित है।

वास्तव में, सांख्यिकीय वितरण के विभिन्न वर्गों के लिए कई अच्छी तरह से परिभाषित दूरी / त्रुटि उपाय हैं। हाथ में डेटा के वितरण के आधार पर त्रुटि माप का चयन करना उचित है। यह सिर्फ इतना होता है कि गौसियन वितरण सर्वव्यापी है, और फलस्वरूप इसकी संबद्ध दूरी माप, L2- मान सबसे लोकप्रिय त्रुटि माप है। हालाँकि, यह एक नियम नहीं है और वास्तविक विश्व डेटा मौजूद है जिसके लिए एक 'कुशल' * अनुकूलन कार्यान्वयन L2- मानक की तुलना में एक अलग त्रुटि माप को अपनाएगा।

ब्रेगमैन डाइवर्जेंस के सेट पर विचार करें । इस विचलन माप का विहित प्रतिनिधित्व L2- मानदंड (चुकता त्रुटि) है। इसमें सापेक्ष एन्ट्रॉपी (कुल्बैक-लिबलर विचलन), सामान्यीकृत यूक्लिडियन दूरी (महलानोबिस मीट्रिक), और इटाकुरा-सैटो फ़ंक्शन भी शामिल हैं। आप इसके बारे में इस पत्र में कार्यात्मक ब्रेगमैन डाइवर्जेंस और बायेशियन अनुमानों के वितरण पर अधिक पढ़ सकते हैं ।

टेक-दूर: एल 2-मानक में गुणों का एक दिलचस्प सेट है जो इसे त्रुटि माप के लिए एक लोकप्रिय विकल्प बनाता है (यहां अन्य उत्तरों ने इनमें से कुछ का उल्लेख किया है, इस प्रश्न के दायरे के लिए पर्याप्त है), और चुकता त्रुटि उपयुक्त होगी। ज्यादातर समय पसंद करते हैं। फिर भी, जब डेटा वितरण की आवश्यकता होती है, तो चुनने के लिए वैकल्पिक त्रुटि उपाय होते हैं, और विकल्प अनुकूलन दिनचर्या के निर्माण पर बड़े हिस्से में निर्भर करता है।

* 'उपयुक्त' त्रुटि माप अनुकूलन के लिए नुकसान फ़ंक्शन उत्तल बना देगा, जो कि कुछ अन्य त्रुटि माप के विपरीत है, जहां हानि फ़ंक्शन गैर-उत्तल है और जिससे कुख्यात मुश्किल है।

— गतिशील स्टारडस्ट
स्रोत

5

दूसरों द्वारा किए गए प्रमुख बिंदुओं के अलावा, चुकता त्रुटि का उपयोग बड़ी त्रुटि पर अधिक जोर देता है (जब आप इसे 3/2 बनाम? वर्ग पर 1/2 करते हैं तो क्या होता है)?

एक एल्गोरिथ्म होने से, जो भिन्नात्मक त्रुटियों को स्थानांतरित करता है, जिसके परिणामस्वरूप सही वर्गीकरण या अनुमान और जमीनी सच्चाई के बीच बहुत कम अंतर होता है, यदि अकेले शून्य के करीब छोड़ दिया जाता है, जबकि बड़ी त्रुटियों या गलतफहमी के रूप में बड़ी त्रुटियों को छोड़ देना, एक वांछनीय विशेषता नहीं है। एक एल्गोरिथ्म।

चुकता त्रुटि का उपयोग करते हुए भविष्यवाणी को समायोजित करने के लिए निहित महत्व वजन के रूप में त्रुटि का उपयोग करता है।

— bobv
स्रोत

इसलिए, मनमानी त्रुटि क्या है

— jeza

3

अपने सूत्रीकरण में, आप देखे गए डेटा से अपने सन्निकटन के औसत विचलन को प्राप्त करने का प्रयास करते हैं।

यदि आपके सन्निकटन का माध्य मान मनाया गया डेटा के औसत मूल्य के करीब या बराबर है (ऐसा कुछ जो वांछनीय है और अक्सर कई सन्निकटन योजनाओं के साथ होता है) तो आपके सूत्रीकरण का परिणाम शून्य या नगण्य होगा, क्योंकि सकारात्मक त्रुटियां नकारात्मक की भरपाई करती हैं त्रुटियों। इससे यह निष्कर्ष निकल सकता है कि आपका अवलोकन प्रत्येक देखे गए नमूने पर अद्भुत है, जबकि ऐसा नहीं हो सकता है। इसलिए आप प्रत्येक नमूने में त्रुटि के वर्ग का उपयोग करते हैं और आप उन्हें जोड़ते हैं (आपकी प्रत्येक त्रुटि सकारात्मक हो जाती है)।

बेशक, यह केवल एक संभव समाधान है, क्योंकि आप L2- मानक के बजाय L1- मान (प्रत्येक नमूने पर त्रुटि का पूर्ण मूल्य) या कई अन्य का उपयोग कर सकते थे।

— W641
स्रोत

लागत कार्य वर्ग त्रुटि का उपयोग क्यों करते हैं?

हम चौकोर नुकसान का उपयोग क्यों करते हैं

के बारे में अवधि1212\frac{1}{2}

के बारे में अवधि $\frac{1}{2}$