आपका नुकसान समारोह काम नहीं है, क्योंकि यह सेटिंग incentivizes किसी भी परिमित मूल्य और करने के लिए लिए ।θ1θ0−∞
के कहते हैं अवशिष्ट के लिए ।r(x,y)=1m∑mi=1hθ(x(i))−yh
आपका लक्ष्य को यथासंभव शून्य करना है, न कि इसे कम से कम करना । एक उच्च ऋणात्मक मान उच्च धनात्मक मान के समान ही बुरा है।r
संपादित करें: आप इसे पैरामीटर space (जैसे आप चाहते हैं ) को कृत्रिम रूप से सीमित करके मुकाबला कर सकते हैं । इस मामले में, इष्टतम पैरामीटर पैरामीटर स्थान की सीमा पर कुछ बिंदुओं पर झूठ होगा। Https://math.stackexchange.com/q/896388/12467 देखें । यह वह नहीं है जो आप चाहते हैं।Θ|θ0|<10
हम चौकोर नुकसान का उपयोग क्यों करते हैं
चुकता त्रुटि और को मेल करने के लिए मजबूर करती है । यदि संभव हो, तो यह पर कम से कम है, और हमेशा , क्योंकि यह वास्तविक संख्या का एक वर्ग है ।h(x)yu=v≥0u−v
|u−v|उपरोक्त उद्देश्य के लिए भी काम करेंगे, जैसा कि , कुछ सकारात्मक पूर्णांक के साथ होगा। इनमें से पहला वास्तव में प्रयोग किया जाता है (यह कहा जाता है हानि, आप भी देखने को मिल सकते हानि, जो चुकता त्रुटि का दूसरा नाम है)।(u−v)2nnℓ1ℓ2
तो, क्यों चुकता नुकसान इन से बेहतर है? यह फ़्रीक्वेंटिस्ट और बेइज़ियन अनुमान के बीच की कड़ी से जुड़ा एक गहरा सवाल है । संक्षेप में, चुकता त्रुटि गाऊसी शोर से संबंधित है ।
अपने डेटा को वास्तव में सभी बिंदुओं को फिट नहीं करता है, यानी कोई बात नहीं क्या कुछ बिंदु के लिए शून्य नहीं है (हमेशा की तरह व्यवहार में क्या होगा) आप चुनते हैं, कि की वजह से हो सकता है शोर । किसी भी जटिल प्रणाली में आपके मॉडल और वास्तविकता बीच अंतर के लिए कई छोटे स्वतंत्र कारण होंगे : माप त्रुटि, पर्यावरणीय कारक आदि। केंद्रीय सीमा प्रमेय (CLT) द्वारा, कुल शोर सामान्य रूप से वितरित किया जाएगा , अर्थात गौसियन वितरण । हम सबसे अच्छा फिट चुनना चाहते हैंh(x)−yθ h yθइस शोर वितरण को ध्यान में रखते हुए। , का हिस्सा मान लें कि आपका मॉडल व्याख्या नहीं कर सकता, गौसियन वितरण अनुसरण करता है । हम राजधानियों का उपयोग कर रहे हैं क्योंकि हम यादृच्छिक चर के बारे में बात कर रहे हैं।R=h(X)−YyN(μ,σ)
गॉसियन डिस्ट्रीब्यूशन के दो पैरामीटर हैं, मतलब और विचरण । इन शर्तों को बेहतर समझने के लिए यहां देखें ।μ=E[R]=1m∑ihθ(X(i))−Y(i))σ2=E[R2]=1m∑i(hθ(X(i))−Y(i)))2
पर विचार करें , यह हमारे माप की व्यवस्थित त्रुटि है। का प्रयोग करें , व्यवस्थित त्रुटि के लिए सही करने के लिए इतना है कि (पाठक के लिए व्यायाम)। यहां और कुछ नहीं करना है।μh′(x)=h(x)−μμ′=E[R′]=0
σ यादृच्छिक त्रुटि का प्रतिनिधित्व करता है , जिसे शोर भी कहा जाता है । एक बार जब हमने पिछले बिंदु के रूप में व्यवस्थित शोर घटक का ख्याल रखा है, तो सबसे अच्छा तब प्राप्त होता है जब को छोटा किया जाता है। एक और तरीका रखो, सबसे अच्छा भविष्यवक्ता सबसे अनुमानित वितरण (सबसे छोटा संस्करण) है, जो कि अनुमानित मूल्य के आसपास सबसे छोटा वितरण है (यानी सबसे छोटा संस्करण)। कम से कम चुकता नुकसान को कम करना वैरिएशन को कम करने के समान है! यह बताता है कि समस्याओं की एक विस्तृत श्रृंखला के लिए कम से कम चुकता नुकसान क्यों काम करता है। सीएलटी के कारण अंतर्निहित शोर अक्सर गॉसियन होता है, और चुकता त्रुटि को कम करने के लिए सही हो जाता हैσ2=1m∑i(hθ(X(i))−Y(i)))2 करने के लिए!
एक साथ माध्य और विचरण दोनों को ध्यान में रखते हुए, हम अपने क्लासिफायरफ़ायर (व्यवस्थित त्रुटि को संभालने के लिए ) में एक पूर्वाग्रह शब्द शामिल करते हैं , फिर वर्ग हानि को कम करते हैं।μ
अनुवर्ती प्रश्न:
कम से कम वर्गों का नुकसान = गाऊसी त्रुटि। क्या प्रत्येक अन्य हानि फ़ंक्शन भी कुछ शोर वितरण के अनुरूप है? हाँ। उदाहरण के लिए, हानि (चुकता त्रुटि के बजाय पूर्ण मान को कम करना) लाप्लास वितरण (इन्फोबॉक्स में पीडीएफ के लिए सूत्र को देखें ) से मेल खाती है - यह साथ सिर्फ गौसियन है बजाय )। संभावना वितरण के लिए एक लोकप्रिय नुकसान केएल-विचलन है । -गौसियन वितरण केंद्रीय सीमा प्रमेय के कारण बहुत अच्छी तरह से प्रेरित हैℓ1|x−μ|(x−μ)2, जिसकी हमने पहले चर्चा की। लैपलेस वितरण सही शोर मॉडल कब है? कुछ परिस्थितियाँ ऐसी होती हैं जहाँ यह स्वाभाविक रूप से होता है, लेकिन यह आमतौर पर नियमितता के रूप में अधिक होता है कि स्पार्सिटी को लागू किया जाए : नुकसान सभी उत्तल नुकसानों में से सबसे कम उत्तल है ।ℓ1
- जैसा कि जनवरी की टिप्पणियों में उल्लेख किया गया है, चुकता विचलन का न्यूनतम माध्य है और निरपेक्ष विचलन के योग का न्यूनतम माध्यिका है । हम माध्य के बजाय अवशिष्टों का माध्य क्यों खोजना चाहेंगे? माध्य के विपरीत, माध्य एक बहुत बड़े बाह्य भाग से नहीं फेंका जाता है। तो, बढ़े हुए मजबूती के लिए नुकसान का उपयोग किया जाता है। कभी-कभी दोनों के संयोजन का उपयोग किया जाता है।ℓ1
क्या ऐसी परिस्थितियाँ हैं, जहाँ हम मीन और विचरण दोनों को कम करते हैं? हाँ। को फिर से देखें पूर्वाग्रह-विचरण व्यापार बंद । यहाँ, हम के क्लासिफायर्स का एक सेट देख रहे हैं और पूछ रहे हैं कि उनमें से कौन सबसे अच्छा है। यदि हम पूछते हैं कि किसी समस्या के लिए क्लासिफायर का कौन सा सेट सबसे अच्छा है, तो पूर्वाग्रह और भिन्नता दोनों को कम करना महत्वपूर्ण हो जाता है। यह पता चला है कि उनके बीच हमेशा एक व्यापार होता है और हम एक समझौते को प्राप्त करने के लिए नियमितीकरण का उपयोग करते हैं ।hθ∈H
के बारे में अवधि12
1/2 कोई फर्क नहीं पड़ता और वास्तव में, न ही - वे दोनों स्थिरांक हैं। का इष्टतम मान दोनों मामलों में समान रहेगा।mθ
ढाल के लिए अभिव्यक्ति साथ पूर्ववर्ती हो जाती है , क्योंकि 2 वर्ग शब्द से बाहर निकल जाता है।12
- कोड या एल्गोरिदम लिखते समय, हम आमतौर पर ढाल के साथ अधिक चिंतित होते हैं, इसलिए यह संक्षिप्त रखने में मदद करता है। आप केवल ग्रेडिएंट के मानदंड की जांच करके प्रगति की जांच कर सकते हैं। हानि फ़ंक्शन कभी-कभी कोड से छोड़ा जाता है क्योंकि इसका उपयोग केवल अंतिम उत्तर के सत्यापन के लिए किया जाता है।
अगर आप ढाल वंश के साथ इस समस्या को हल उपयोगी है। फिर आपका ग्रेडिएंट एक राशि के बजाय शब्द का औसत बन जाता है , इसलिए जब आप अधिक डेटा बिंदु जोड़ते हैं तो इसका पैमाना नहीं बदलता है।mm
- मैंने पहले इस समस्या में भाग लिया है: मैं कोड की एक छोटी संख्या के साथ परीक्षण करता हूं और यह ठीक काम करता है, लेकिन जब आप पूरे डेटासेट के साथ इसका परीक्षण करते हैं, तो सटीकता की हानि होती है और कभी-कभी ओवर / अंडर-फ्लो होता है, अर्थात आपकी ढाल बन जाती है
nan
या inf
। उससे बचने के लिए, बस संख्या के डेटा बिंदुओं को सामान्य करें।
इन सौंदर्य निर्णयों का उपयोग यहाँ भविष्य के समीकरणों के साथ स्थिरता बनाए रखने के लिए किया जाता है जहाँ आप नियमितीकरण की शर्तें जोड़ेंगे । यदि आप शामिल करते हैं , तो नियमितीकरण पैरामीटर डेटासेट आकार पर निर्भर नहीं होगा और यह समस्याओं में अधिक व्याख्या योग्य होगा।mλm