जब L2 एक खराब नुकसान की गणना करने के लिए एक अच्छा नुकसान कार्य है, तो इसका क्या उदाहरण होगा?


9

L2 हानि, L0 और L1 नुकसान के साथ, तीन एक बहुत ही सामान्य "डिफ़ॉल्ट" नुकसान फ़ंक्शन हैं, जिनका उपयोग न्यूनतम पश्च-हानि की हानि से एक पश्चगामी संक्षेप में किया जाता है। इसका एक कारण शायद यह है कि वे अपेक्षाकृत कम से कम (1 डी-वितरण के लिए) गणना करने के लिए आसान हैं, एल 0 मोड में, एल 1 माध्य में और एल 2 परिणाम में परिणाम करते हैं। पढ़ाने के दौरान, मैं उन परिदृश्यों के साथ आ सकता हूं, जहां L0 और L1 उचित हानि फ़ंक्शन हैं (और न केवल "डिफ़ॉल्ट"), लेकिन मैं एक परिदृश्य के साथ संघर्ष कर रहा हूं जहां L2 एक उचित नुकसान फ़ंक्शन होगा। तो मेरा सवाल:

शैक्षणिक उद्देश्यों के लिए, जब L2 न्यूनतम पश्च-नुकसान की गणना के लिए एक अच्छा नुकसान कार्य है, तो इसका क्या उदाहरण होगा?

L0 के लिए सट्टेबाजी से परिदृश्यों के साथ आना आसान है। कहते हैं कि आप एक आगामी फुटबॉल खेल में कुल लक्ष्यों की संख्या पर एक पीछे की गणना की है और आप एक शर्त बनाने जा रहे हैं जहां आप $ जीतते हैं यदि आप लक्ष्यों की संख्या का सही अनुमान लगाते हैं और अन्यथा हार जाते हैं। तब L0 एक उचित नुकसान फ़ंक्शन है।

मेरा एल 1 उदाहरण थोड़ा संघर्ष है। आप एक मित्र से मिल रहे हैं, जो कई हवाई अड्डों में से एक पर पहुंचेगा और फिर कार से आपके लिए यात्रा करेगा, समस्या यह है कि आप नहीं जानते कि कौन सा हवाई अड्डा है (और अपने दोस्त को फोन नहीं कर सकता क्योंकि वह हवा में है)। वह किस हवाई अड्डे पर उतरती है, यह देखते हुए कि खुद को स्थिति में रखने के लिए एक अच्छी जगह कहां है ताकि उसके आने पर आपके और आपके बीच की दूरी छोटी हो जाए? यहां, वह बिंदु जो अपेक्षित एल 1 नुकसान को कम करता है, उचित लगता है, अगर यह सरल अनुमान लगाते हुए कि उसकी कार सीधे आपके स्थान पर निरंतर गति से यात्रा करेगी। यानी एक घंटे का इंतजार 30 मिनट के इंतजार के मुकाबले दोगुना है।


चेतावनी: L0 में निरंतर समस्याओं के लिए मोड नहीं होता है ...
शीआन

हम्म, हाँ मुझे पता है कि L0 -> मोड को कहना थोड़ा टेढ़ा है।
रासमस बैथ

2
उलटा वर्ग कानून को देखते हुए, यदि आपके पास प्रकाश के कई स्रोत हैं, ताकि अंतरिक्ष में किसी भी बिंदु को हम चुन सकें, तो सभी से नगण्य प्रकाश प्राप्त होगा, लेकिन निकटतम स्रोत, L2 हानि का उपयोग कम से कम करने की इच्छा के बराबर होगा, कहते हैं, संख्या प्रति लुमेन सेकंड प्राप्त हुआ। मैं यह नहीं सोच सकता कि आप ऐसा क्यों करना चाहते हैं, हालांकि, प्रति सेकंड लुमेन अधिकतम करने के बजाय।
एक्सीडेंटल स्टेटिस्टिशियन

जवाबों:


4
  1. L2 "आसान" है। अगर आप कंप्यूटर के पास लीनियर रिग्रेशन, एसवीडी आदि जैसी मानक मैट्रिक्स विधियां करते हैं तो यह आपको डिफ़ॉल्ट रूप से मिलता है, जब तक हमारे पास कंप्यूटर नहीं था, L2 शहर में बहुत सारी समस्याओं का एकमात्र खेल था, यही वजह है कि हर कोई एनोवा, टी-टेस्ट आदि का उपयोग करता है। यह बहुत आसान है कि अन्य नुकसान कार्यों का उपयोग करके सटीक उत्तर प्राप्त करने की तुलना में गॉसियन प्रक्रियाओं की तरह कई कट्टरपंथी तरीकों के साथ एल 2 नुकसान का उपयोग करके एक सटीक उत्तर प्राप्त करना आसान है।

  2. संबंधित, आप एक 2-ऑर्डर टेलर सन्निकटन का उपयोग करके वास्तव में L2 हानि प्राप्त कर सकते हैं, जो कि अधिकांश हानि कार्यों (जैसे क्रॉस-एंट्रोपी,) के लिए मामला नहीं है। यह न्यूटन की विधि की तरह 2-क्रम विधियों के साथ अनुकूलन को आसान बनाता है। अन्य नुकसान कार्यों से निपटने के लिए बहुत सारे तरीके अभी भी उसी कारण के लिए L2 नुकसान के तहत तरीकों का उपयोग करते हैं (जैसे कि पुनरावृत्त कम से कम वर्ग, एकीकृत नेस्टेड लैप्लस सन्निकटन)।

  3. L2, गाऊसी वितरण से निकटता से संबंधित है, और केंद्रीय सीमा प्रमेय, गाऊसी वितरण को सामान्य बनाता है। यदि आपकी डेटा-जनरेटिंग प्रक्रिया (सशर्त रूप से) गॉसियन है, तो L2 सबसे कुशल अनुमानक है।

  4. कुल विचरण के कानून के कारण L2 हानि अच्छी तरह से विघटित होती है। यह विशेष रूप से फिट करने के लिए अव्यक्त चर के साथ कुछ ग्राफिकल मॉडल बनाता है।

  5. L2 भयानक भविष्यवाणियों को असंगत रूप से दंडित करता है। यह अच्छा या बुरा हो सकता है, लेकिन यह अक्सर बहुत ही उचित है। एक घंटे का इंतजार 30 मिनट के इंतजार के रूप में चार गुना खराब हो सकता है, अगर यह बहुत से लोगों को उनकी नियुक्तियों को याद करने का कारण बनता है।


2
हम्म, मैं उसके बाद क्या था एक निर्णय की स्थिति की तरह अधिक था जहां L2 एक उचित नुकसान funktion होगा। मेरे प्रश्न में दो उदाहरणों के समान परिदृश्य, लेकिन L2 के लिए।
रासमस बैथ

1
@ RasmusBååth मैं के लिए एक तर्क के बारे में यकीन नहीं है कि वास्तव में नुकसान (अलग # 3 में गाऊसी डेटा पैदा करने की प्रक्रिया के साथ इसके संबंध से) बराबरी, लेकिन # 5 विशेष प्रकार की एक तेज नुकसान समारोह के लिए एक तर्क है। दूसरे क्रम में, ऐसा कोई भी कार्य L2 हानि से मेल खाएगा।
डेविड जे। हैरिस

@ DavidJ.Harris दरअसल, # 5 गलत है। ऐसे मामले में आप क्या करेंगे कि हताशा को कम करने के लिए L1 abs (xy) हानि का उपयोग करें = time²। समय के लिए (xy) for हानि का उपयोग करना, जैसा कि आपने सुझाव दिया है कि वास्तव में आपको एक उप-परिणाम देने जा रहा है।
19होर मे

@ UnderhorMé मुझे लगता है कि मुझे आपको गलत समझना चाहिए। ऐसा लगता है कि आप कह रहे हैं कि चुकता त्रुटि को कम करने का सबसे अच्छा तरीका पूर्ण नुकसान को कम करना है , न कि एल 2 मानक।
डेविड जे। हैरिस

@ DavidJ.Harris हाँ, मैं एक बिंदु बनाने की कोशिश कर रहा था कि यह "बैडनेस" (= time diff time) को कम से कम करने की समस्या है और आवश्यक रूप से प्रतीक्षा में समय नहीं बिताया है, लेकिन मुझे लगता है कि मैंने सोचा प्रयोग को गलत समझा। अब जब मैं इसे पुन: व्यवस्थित कर रहा हूं, तो एल 2 "अंतर" को कम करने के लिए समय के अंतर को कम करने के लिए एक वैध तरीका है। हालाँकि, मुझे कहना होगा कि एक प्रोग्रामर के लिए सबसे पहले यह सही ढंग से पहचानना है कि वह किस "बदनामी" को कम करना चाहता है, फिर उस मूल्य को प्राप्त करें, फिर L1 के माध्यम से कम करें। इस स्थिति में आपको (समय अलग) case पहले तो L1 नुकसान को कम से कम करें। L2 के साथ तभी जाएं जब आपको पता हो कि आप क्या कर रहे हैं।
07होर मे
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.