लगभग 0-1 नुकसान के लिए वर्गीकरण में विभिन्न नुकसान कार्यों को चुनने के प्रभाव क्या हैं


27

हम जानते हैं कि कुछ उद्देश्य कार्यों को अनुकूलित करना आसान है और कुछ कठिन हैं। और कई नुकसान कार्य हैं जिन्हें हम उपयोग करना चाहते हैं लेकिन मुश्किल से उपयोग करते हैं, उदाहरण के लिए 0-1 नुकसान। तो हमें काम करने के लिए कुछ प्रॉक्सी लॉस फंक्शन्स मिलते हैं। उदाहरण के लिए, हम काज नुकसान या लॉजिस्टिक नुकसान का उपयोग "अनुमानित" 0-1 नुकसान के लिए करते हैं।

निम्नलिखित प्लॉट क्रिस बिशप की पीआरएमएल पुस्तक से आ रहा है । द हिंज लॉस, ब्लू में लॉग लॉस, ग्रीन में स्क्वायर लॉस और ब्लैक में 0/1 त्रुटि है।

यहाँ छवि विवरण दर्ज करें

मैं समझता हूं कि हमारे पास इस तरह की डिजाइन है (काज और लॉजिस्टिक नुकसान के लिए) हम चाहते हैं कि उद्देश्य फ़ंक्शन उत्तल हो।

काज हानि और लॉजिस्टिक नुकसान को देखते हुए, यह दृढ़ता से मिसकैरेज किए गए उदाहरणों पर अधिक दंडित करता है , और दिलचस्प रूप से, यह सही ढंग से वर्गीकृत उदाहरणों को भी दंडित करता है यदि वे कमजोर रूप से वर्गीकृत हैं । यह वास्तव में अजीब डिजाइन है।

मेरा प्रश्न यह है कि अलग-अलग "प्रॉक्सी लॉस फ़ंक्शंस" का उपयोग करके हमें क्या कीमत चुकानी होगी, जैसे कि काज हानि और लॉजिस्टिक लॉस?


प्रतिगमन में, चुकता नुकसान चुनना पूर्ण मूल्य हानि की तुलना में अनुकूलन करना आसान है। लेकिन चुकता नुकसान बाहरी लोगों के लिए अधिक संवेदनशील है। तो, यह कुछ प्रकार के डेटा के प्रति भी संवेदनशील होना चाहिए?
हैटाओ डू

4
एक आसान समाधान इष्टतम पूर्वानुमानित संभावनाओं को विकसित करना है जिनके लिए उपयोगिता फ़ंक्शन की आवश्यकता नहीं है। उपयोगिता / हानि फ़ंक्शन वास्तविक निर्णय निर्माता द्वारा बाद में लागू किया जा सकता है। वर्गीकरण निर्णय निर्माता के लिए निर्णय लेने के बराबर है, और सामने बहुत अधिक ज्ञान की आवश्यकता है।
फ्रैंक हरेल

@FrankHarrell धन्यवाद, और मैं आपके द्वारा काम में उल्लिखित दृष्टिकोण का उपयोग कर रहा हूं, जहां हम भविष्यवाणी और व्यवसाय संचालन को अलग करते हैं। हालाँकि, यह अभी भी एक पूरे के रूप में अनुकूलित नहीं है, लेकिन एक लालची मंच-तैयार स्थानीय समाधान है, है ना? क्या यह एक "शुतुरमुर्ग नीति" है?
हायताओ डू

2
यह इष्टतम निर्णय नहीं ले सकता है। हानि / उपयोगिता / लागत फ़ंक्शन मॉडल भविष्यवाणियों से नहीं आता है।
फ्रैंक हरेल

1
+1। लॉजिस्टिक नुकसान को कम करना द्विपद की संभावना को अधिकतम करने से मेल खाता है। चुकता-त्रुटि हानि को कम करना, गाऊसी संभावना को अधिकतम करने से मेल खाता है (यह सिर्फ ओएलएस प्रतिगमन है; 2-वर्ग वर्गीकरण के लिए यह वास्तव में एलडीए के बराबर है)। क्या आप जानते हैं कि अगर कम से कम काज हानि किसी अन्य संभावना को अधिकतम करने से मेल खाती है? Ie वहाँ कोई संभावित मॉडल काज नुकसान के लिए इसी है?
अमीबा का कहना है कि

जवाबों:


16

मेरे कुछ विचार भले ही सही न हों।

मैं समझता हूं कि हमारे पास इस तरह की डिजाइन है (काज और लॉजिस्टिक नुकसान के लिए) हम चाहते हैं कि उद्देश्य फ़ंक्शन उत्तल हो।

उत्तलता निश्चित रूप से एक अच्छी संपत्ति है, लेकिन मुझे लगता है कि सबसे महत्वपूर्ण कारण यह है कि हम चाहते हैं कि उद्देश्य समारोह में गैर-शून्य डेरिवेटिव हो , ताकि हम इसे हल करने के लिए डेरिवेटिव का उपयोग कर सकें। उद्देश्य फ़ंक्शन गैर-उत्तल हो सकता है, जिस स्थिति में हम अक्सर कुछ स्थानीय ऑप्टिमा या काठी बिंदुओं पर रुकते हैं।

और दिलचस्प बात यह है कि यह सही ढंग से वर्गीकृत उदाहरणों को भी दंडित करता है यदि वे कमजोर रूप से वर्गीकृत हैं। यह वास्तव में अजीब डिजाइन है।

मुझे लगता है कि इस तरह के डिजाइन मॉडल को न केवल सही भविष्यवाणियां करने की सलाह देते हैं, बल्कि भविष्यवाणियों के बारे में आश्वस्त भी होते हैं। यदि हम सही तरीके से वर्गीकृत उदाहरणों को दंडित नहीं करना चाहते हैं, तो हम उदाहरण के लिए, काज हानि (नीला) को 1 से बाईं ओर ले जा सकते हैं, ताकि उन्हें कोई नुकसान न हो। लेकिन मेरा मानना ​​है कि इससे अक्सर अभ्यास में परिणाम खराब होते हैं।

अलग-अलग "प्रॉक्सी लॉस फ़ंक्शंस" का उपयोग करके हमें कौन सी कीमतें चुकानी पड़ती हैं, जैसे काज हानि और लॉजिस्टिक लॉस?

IMO विभिन्न नुकसान कार्यों को चुनकर हम मॉडल के लिए अलग-अलग धारणाएं ला रहे हैं। उदाहरण के लिए, लॉजिस्टिक रिग्रेशन लॉस (रेड) एक बर्नौली वितरण को मानता है, एमएसई लॉस (हरा) एक गाऊसी शोर को मानता है।


PRML में कम से कम वर्गों बनाम लॉजिस्टिक प्रतिगमन उदाहरण के बाद, मैंने तुलना के लिए काज हानि को जोड़ा। यहाँ छवि विवरण दर्ज करें

जैसा कि चित्र में दिखाया गया है, काज हानि और लॉजिस्टिक रिग्रेशन / क्रॉस एन्ट्रापी / लॉग-लाइबिलिटी / सॉफ्टप्लस के बहुत करीबी परिणाम हैं, क्योंकि उनके उद्देश्य कार्य करीब हैं (नीचे आंकड़ा), जबकि एमएसई आमतौर पर आउटलेर्स के लिए अधिक संवेदनशील है। काज हानि हमेशा एक अद्वितीय समाधान नहीं है क्योंकि यह सख्ती से उत्तल नहीं है।

यहाँ छवि विवरण दर्ज करें

हालांकि काज हानि की एक महत्वपूर्ण संपत्ति है, निर्णय सीमा से दूर डेटा बिंदुओं का नुकसान में कुछ भी योगदान नहीं है, समाधान उन बिंदुओं को हटाने के साथ ही होगा।

शेष बिंदुओं को एसवीएम के संदर्भ में समर्थन वैक्टर कहा जाता है। जबकि एसवीएम अधिकतम मार्जिन संपत्ति और एक अद्वितीय समाधान सुनिश्चित करने के लिए एक नियमित शब्द का उपयोग करता है।


जवाब के लिए धन्यवाद। क्या अलग-अलग नुकसान के लिए सहज रूप से प्रभाव दिखाने के लिए कुछ डेमो बनाना संभव है? ठीक उसी तरह जैसे हम वर्गीय नुकसान बनाम कम से कम निरपेक्ष हानि का उपयोग करके प्रतिगमन के आउटलेर द्वारा प्रभाव दिखाते हैं।
हाइताओ डू

@ hxd1011 आपका स्वागत है, मैं बाद में कुछ डेमो जोड़ने की कोशिश करूंगा।
नोटोलो

2
हिंजड़ा हार उत्तल है ...
मुस्तफा एस आइसा

1
@ MustafaM.Eisa सही है, धन्यवाद, मेरा मतलब कड़ाई से उत्तल नहीं था ..
नॉटो

@ महान अनुकार! धन्यवाद। मैं बाद में अपने कुछ सिमुलेशन अपलोड करने का भी प्रयास करूंगा।
डू

6

एक देर से उत्तर पोस्ट करना, चूंकि एक बहुत ही सरल उत्तर है जिसका अभी तक उल्लेख नहीं किया गया है।

अलग-अलग "प्रॉक्सी लॉस फ़ंक्शंस" का उपयोग करके हमें कौन सी कीमतें चुकानी पड़ती हैं, जैसे काज हानि और लॉजिस्टिक लॉस?

जब आप गैर-उत्तल 0-1 हानि फ़ंक्शन को उत्तल सरोगेट (जैसे काज-हानि) द्वारा प्रतिस्थापित करते हैं, तो आप वास्तव में अब एक अलग समस्या को हल कर रहे हैं, जिसे आप हल करने के उद्देश्य से करते हैं (जो वर्गीकरण गलतियों की संख्या को कम करना है)। इसलिए आप कम्प्यूटेशनल ट्रैक्टिबिलिटी प्राप्त करते हैं (समस्या उत्तल हो जाती है, जिसका अर्थ है कि आप इसे उत्तल अनुकूलन के साधनों का उपयोग कर कुशलता से हल कर सकते हैं), लेकिन सामान्य स्थिति में वास्तव में क्लासिफायर की त्रुटि से संबंधित कोई तरीका नहीं है जो "प्रॉक्सी" हानि और को कम करता है। क्लासीफायर की त्रुटि जो 0-1 नुकसान को कम करती है । यदि आप वास्तव में परवाह करते हैं तो गर्भपात की संख्या कम से कम थी, मेरा तर्क है कि यह वास्तव में भुगतान करने के लिए एक बड़ी कीमत है।

मुझे यह उल्लेख करना चाहिए कि यह कथन सबसे खराब स्थिति में है , इस अर्थ में कि यह किसी भी वितरण । कुछ "अच्छे" वितरणों के लिए, इस नियम के अपवाद हैं। प्रमुख उदाहरण डेटा वितरण का है, जिसमें बड़े मार्जिन निर्णय सीमा को प्रभावित करते हैं - Theorem 15.4 को Shalev-Shwartz, Shai और Shai Ben-David में देखें। मशीन लर्निंग को समझना: सिद्धांत से एल्गोरिदम तक। कैम्ब्रिज यूनिवर्सिटी प्रेस, 2014।D


1

आदर्श रूप से आपका नुकसान फ़ंक्शन व्यवसाय द्वारा किए गए वास्तविक नुकसान को दर्शाता है। उदाहरण के लिए, यदि आप क्षतिग्रस्त माल को वर्गीकृत कर रहे हैं, तो मिसकैलिफ़ेरेशन का नुकसान इस तरह हो सकता है:

  • क्षतिग्रस्त माल को चिह्नित करना जो नहीं थे: संभावित बिक्री पर लाभ खो दिया
  • क्षतिग्रस्त वस्तुओं को चिह्नित नहीं करना जो क्षतिग्रस्त थे: वापसी प्रसंस्करण की लागत
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.