0-1 हानि समारोह स्पष्टीकरण


19

मैं नुकसान के कार्य का उद्देश्य क्या है, इस पर समझ पाने की कोशिश कर रहा हूं और मैं इसे समझ नहीं पा रहा हूं।

इसलिए, जहां तक ​​मैं समझता हूं कि नुकसान समारोह कुछ प्रकार के मीट्रिक को शुरू करने के लिए है जिसके साथ हम एक गलत निर्णय की "लागत" को माप सकते हैं।

तो मान लें कि मेरे पास 30 वस्तुओं का एक डेटासेट है, मैंने उन्हें प्रशिक्षण / परीक्षण सेट जैसे 20 / 10. में विभाजित किया है। मैं 0-1 हानि फ़ंक्शन का उपयोग करूंगा, इसलिए मुझे कहना है कि मेरे वर्ग लेबल का सेट एम है और फ़ंक्शन इस तरह दिखता है। :

एल(मैं,जे)={0मैं=जे1मैंजेमैं,जे

इसलिए मैंने अपने प्रशिक्षण डेटा पर कुछ मॉडल का निर्माण किया, जो कहता है कि मैं Naive Bayes क्लासिफायरियर का उपयोग कर रहा हूं, और इस मॉडल ने 7 वस्तुओं को सही ढंग से वर्गीकृत किया (उन्हें सही वर्ग लेबल सौंपा) और 3 वस्तुओं को गलत तरीके से वर्गीकृत किया गया था।

तो मेरा नुकसान फ़ंक्शन "0" 7 बार और "1" 3 बार लौटेगा - मुझे इससे किस तरह की जानकारी मिल सकती है? मेरे मॉडल ने 30% वस्तुओं को गलत तरीके से वर्गीकृत किया है? या इसका कोई आगे का हिस्सा है?

अगर मेरे सोचने के तरीके में कोई गलती है तो मुझे बहुत खेद है, मैं बस सीखने की कोशिश कर रहा हूं। यदि मैंने जो उदाहरण दिया है वह "बहुत सार" है, तो मुझे बताएं, मैं और अधिक विशिष्ट बनने की कोशिश करूंगा। यदि आप विभिन्न उदाहरणों का उपयोग करते हुए अवधारणा को समझाने की कोशिश करेंगे, तो कृपया 0-1 हानि फ़ंक्शन का उपयोग करें।

जवाबों:


14

आपने सटीकता के साथ प्रभावी रूप से देखते हुए 0-1 नुकसान फ़ंक्शन को सही ढंग से संक्षेप में प्रस्तुत किया है। आपके 1 के मिसकॉलिफ़ाइड आइटम के लिए संकेतक बन जाते हैं, चाहे वे कैसे भी गलत तरीके से देखे गए हों। चूंकि आपके पास तीन में से 10 आइटम हैं, इसलिए आपकी वर्गीकरण सटीकता 70% है।

यदि आप नुकसान फ़ंक्शन पर भार को बदलते हैं, तो यह व्याख्या अब लागू नहीं होती है। उदाहरण के लिए, रोग वर्गीकरण में, बीमारी के गलत मामले (झूठे नकारात्मक) को गलत तरीके से याद करने की तुलना में बीमारी का गलत निदान करना (झूठे सकारात्मक) की तुलना में अधिक महंगा हो सकता है। इस स्थिति में, आपका नुकसान फ़ंक्शन गलत नकारात्मक गर्भपात को अधिक भारी बना देगा। आपके नुकसान का योग अब इस मामले में सटीकता का प्रतिनिधित्व नहीं करेगा, बल्कि गर्भपात की कुल "लागत" है। 0-1 हानि समारोह सटीकता के लिए इसकी समानता में अद्वितीय है, क्योंकि आप सभी के बारे में परवाह करते हैं कि क्या आपको यह सही मिला या नहीं, और यह नहीं कि त्रुटियां कैसे हुई हैं।


@JohnnyJohansson आँकड़ों में accurracy की परिभाषा है कि, देख en.wikipedia.org/wiki/Sensitivity_and_specificity
टिम

@ टिम - मैं अभी भी 0-1 के नुकसान समारोह से भ्रमित हूं - परिणामी मैट्रिक्स का 1 से अधिक कोई भी मूल्य हो सकता है, अर्थात यदि 3 मिस वर्गीकरण हैं तो हम इसी प्रविष्टि में 3 का मान देखेंगे? यहाँ देखें math.stackexchange.com/questions/2623072/…
जेवियर

2

हां, यह मूल रूप से है: आप मिसकॉलिफाइड आइटमों की संख्या की गणना करते हैं। इसके पीछे और कुछ नहीं है, यह एक बहुत ही बेसिक लॉस फंक्शन है। निम्न प्रकार से, 0-1 नुकसान लक्ष्य वितरण के मोड का अनुमान लगाने की ओर जाता है (की तुलना मेंएल1 मंझला और अनुमान लगाने के लिए नुकसान एल2 माध्य के लिए नुकसान)।


0

मुझे लगता है कि आपका भ्रम एक डेटा बिंदु के लिए नुकसान को अलग नहीं कर रहा है बनाम पूरे डेटा सेट के लिए नुकसान।

विशेष रूप से, आपके एल(y,y^)एक डेटा बिंदु के लिए नुकसान है (मैं नोटेशन को थोड़ा बदल रहा हूं)। और पूरे डेटा सेट यानी वर्गीकरण सटीकता के लिए नुकसान, सभी डेटा बिंदुओं को समेटने की आवश्यकता है।

Σमैंएल(yमैं,y^मैं)

मुझे वास्तव में अंतर मिलता है, लेकिन मेरे लिए यह समझना मुश्किल है कि पूरे डेटासेट के लिए नुकसान की गणना के अलावा एक डेटा बिंदु के लिए मुझे इस नुकसान की क्या आवश्यकता होगी? और किसी विशेष समस्या के लिए पर्याप्त हानि फ़ंक्शन का चयन करते समय मुझे क्या विचार करना चाहिए?
जॉनी जोहानसन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.