पासा-गुणांक हानि फ़ंक्शन बनाम क्रॉस-एन्ट्रॉपी


27

जब एक पिक्सेल विभाजन तंत्रिका नेटवर्क, जैसे पूरी तरह से दृढ़ नेटवर्क, को प्रशिक्षित करते हैं, तो आप क्रॉस-एन्ट्रापी लॉस फ़ंक्शन बनाम डाइस-गुणांक हानि फ़ंक्शन का उपयोग करने का निर्णय कैसे लेते हैं?

मुझे लगता है कि यह एक छोटा सवाल है, लेकिन यह निश्चित नहीं है कि अन्य जानकारी क्या प्रदान करें। मैंने दो नुकसान कार्यों के बारे में दस्तावेज़ीकरण का एक गुच्छा देखा, लेकिन एक दूसरे पर उपयोग करने के लिए एक सहज ज्ञान प्राप्त नहीं कर सकता।


दोनों का उपयोग करने और परिणामों की तुलना करने के लिए हाथों पर दृष्टिकोण का उपयोग क्यों न करें। आवेदन के विभिन्न क्षेत्रों को देखते हुए, नुकसान फ़ंक्शन की चर्चा विस्तारित शोध का अपना विषय है। चूंकि दृढ़ नेटवर्क अभी भी एक 'हॉट टॉपिक' हैं, इसलिए मुझे लगता है कि अधिकांश पेपर अभी भी भविष्य में प्रकाशित होंगे।
चेरी

जवाबों:


27

पासा-गुणांक या इसी तरह के IoU मीट्रिक पर क्रॉस-एन्ट्रोपी का उपयोग करने के लिए एक सम्मोहक कारण यह है कि ग्रेडिएंट अच्छे हैं।

क्रॉस-एन्ट्रापी wrt के ग्रेडिएंट्स कुछ ऐसे हैं जैसे , जहाँ सॉफ्टमैक्स आउटपुट है और लक्ष्य है। इस बीच, यदि हम पासा के गुणांक को एक भिन्न रूप में लिखने का प्रयास करते हैं: या , तो परिणामी wrt बहुत बदसूरत है। : और । ऐसे मामले की कल्पना करना आसान है जहां और दोनों छोटे हैं, और ढाल कुछ विशाल मूल्य तक उड़ती है। सामान्य तौर पर, ऐसा लगता है कि प्रशिक्षण अधिक अस्थिर हो जाएगा।ptpt2ptp2+t22ptp+tp2t2(p+t)22t(t2p2)(p2+t2)2pt


मुख्य कारण है कि लोग सीधे पासा गुणांक या IoU का उपयोग करने का प्रयास करते हैं, यह है कि वास्तविक लक्ष्य उन मैट्रिक्स का अधिकतमकरण है, और क्रॉस-एन्ट्रॉपी केवल एक प्रॉक्सी है जो बैकप्रोपैजेशन का उपयोग करके अधिकतम करना आसान है। इसके अलावा, पासा गुणांक डिजाइन द्वारा वर्ग असंतुलित समस्याओं पर बेहतर प्रदर्शन करता है:

हालाँकि, वर्ग असंतुलन को आमतौर पर प्रत्येक वर्ग को नुकसान गुणक प्रदान करके आसानी से ध्यान दिया जाता है, जैसे कि किसी वर्ग को नजरअंदाज करने के लिए नेटवर्क का अत्यधिक रूप से विघटन किया जाता है जो कि अक्सर दिखाई देता है, इसलिए यह स्पष्ट नहीं है कि इन मामलों में पासा गुणांक वास्तव में आवश्यक है।


मैं क्रॉस-एन्ट्रापी नुकसान के साथ शुरू करूंगा, जो प्रशिक्षण विभाजन नेटवर्क के लिए मानक नुकसान प्रतीत होता है, जब तक कि पासा गुणांक का उपयोग करने के लिए वास्तव में मजबूर कारण नहीं था।


सभी घातीय परिवारों का क्रॉस एन्ट्रापी एक अच्छा अंतर है । । pt
नील जी

3
"मुख्य लक्ष्य" पासा हानि का अधिकतमकरण कब है? मैंने मूल पेपर की जाँच की और वे कहते हैं कि "हम परिणाम प्राप्त करते हैं जो हमने प्रयोगात्मक रूप से देखे हैं वे उसी नेटवर्क द्वारा प्रशिक्षित लोगों की तुलना में बहुत बेहतर हैं जो नमूना पुन: भार के साथ बहुराष्ट्रीय लॉजिस्टिक नुकसान का अनुकूलन करते हैं।" यह बहुत आश्वस्त नहीं है।
नील जी

@shimao "बदसूरत" से आपका तात्पर्य यह है कि ग्रेडिएंट फट सकता है, क्या यह सही है?
दोष

17

जैसा कि @shimao और @cherub द्वारा संक्षेप में कहा गया है, कोई अप्रीरी नहीं कह सकता है जो किसी विशेष डेटासेट पर बेहतर काम करेगा। सही तरीका दोनों की कोशिश करना और परिणामों की तुलना करना है। यह भी ध्यान दें कि जब विभाजन की बात आती है, तो "परिणामों की तुलना" करना इतना आसान नहीं है : IoU आधारित उपाय जैसे पासा गुणांक कवर जैसे कि विभाजन की गुणवत्ता के कुछ पहलू; कुछ अनुप्रयोगों में, अलग-अलग उपायों जैसे कि सतह की दूरी या हौसडॉर्फ सतह की दूरी का उपयोग करने की आवश्यकता होती है। जैसा कि आप देखते हैं, सही गुणवत्ता वाले मीट्रिक का विकल्प भी तुच्छ नहीं है, अकेले सबसे अच्छे लागत फ़ंक्शन का विकल्प दें।

मुझे व्यक्तिगत रूप से पासा गुणांक के साथ बहुत अच्छा अनुभव है; जब वर्ग असंतुलन की बात आती है तो यह वास्तव में आश्चर्यचकित करता है (कुछ खंडों में अन्य की तुलना में कम पिक्सेल / स्वर होते हैं)। दूसरी ओर, प्रशिक्षण त्रुटि वक्र कुल गड़बड़ हो जाता है: इसने मुझे अभिसरण के बारे में बिल्कुल जानकारी नहीं दी, इसलिए इस संबंध में क्रॉस-एन्ट्रॉपी जीत। बेशक, यह वैसे भी सत्यापन त्रुटि की जाँच करके बायपास / किया जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.