पासा-गुणांक या इसी तरह के IoU मीट्रिक पर क्रॉस-एन्ट्रोपी का उपयोग करने के लिए एक सम्मोहक कारण यह है कि ग्रेडिएंट अच्छे हैं।
क्रॉस-एन्ट्रापी wrt के ग्रेडिएंट्स कुछ ऐसे हैं जैसे , जहाँ सॉफ्टमैक्स आउटपुट है और लक्ष्य है। इस बीच, यदि हम पासा के गुणांक को एक भिन्न रूप में लिखने का प्रयास करते हैं: या , तो परिणामी wrt बहुत बदसूरत है। : और । ऐसे मामले की कल्पना करना आसान है जहां और दोनों छोटे हैं, और ढाल कुछ विशाल मूल्य तक उड़ती है। सामान्य तौर पर, ऐसा लगता है कि प्रशिक्षण अधिक अस्थिर हो जाएगा।p−tpt2ptp2+t22ptp+tp2t2(p+t)22t(t2−p2)(p2+t2)2pt
मुख्य कारण है कि लोग सीधे पासा गुणांक या IoU का उपयोग करने का प्रयास करते हैं, यह है कि वास्तविक लक्ष्य उन मैट्रिक्स का अधिकतमकरण है, और क्रॉस-एन्ट्रॉपी केवल एक प्रॉक्सी है जो बैकप्रोपैजेशन का उपयोग करके अधिकतम करना आसान है। इसके अलावा, पासा गुणांक डिजाइन द्वारा वर्ग असंतुलित समस्याओं पर बेहतर प्रदर्शन करता है:
हालाँकि, वर्ग असंतुलन को आमतौर पर प्रत्येक वर्ग को नुकसान गुणक प्रदान करके आसानी से ध्यान दिया जाता है, जैसे कि किसी वर्ग को नजरअंदाज करने के लिए नेटवर्क का अत्यधिक रूप से विघटन किया जाता है जो कि अक्सर दिखाई देता है, इसलिए यह स्पष्ट नहीं है कि इन मामलों में पासा गुणांक वास्तव में आवश्यक है।
मैं क्रॉस-एन्ट्रापी नुकसान के साथ शुरू करूंगा, जो प्रशिक्षण विभाजन नेटवर्क के लिए मानक नुकसान प्रतीत होता है, जब तक कि पासा गुणांक का उपयोग करने के लिए वास्तव में मजबूर कारण नहीं था।