हम टी-एसएनई उद्देश्य समारोह में क्रॉस एन्ट्रॉपी के बजाय कुल्बैक-लिबलर विचलन का उपयोग क्यों करते हैं?


39

मेरे दिमाग में, नमूना वितरण से सच्चे वितरण तक केएल विचलन बस क्रॉस एन्ट्रॉपी और एन्ट्रॉपी के बीच का अंतर है।

हम कई मशीन लर्निंग मॉडल में लागत फ़ंक्शन होने के लिए क्रॉस एन्ट्रॉपी का उपयोग क्यों करते हैं, लेकिन टी-स्ने में कुल्बैक-लीब्लर विचलन का उपयोग करते हैं? क्या सीखने की गति में कोई अंतर है?


1
केएल पर कुछ अंतर्ज्ञान के लिए यहां देखें: आंकड़े.stackexchange.com/questions/188903/…
kjetil b halvorsen

जवाबों:


81

केएल विचलन दो संभावना वितरण के बीच अंतर को मापने का एक प्राकृतिक तरीका है। डिस्ट्रिब्यूशन की एन्ट्रोपी प्रति संदेश की न्यूनतम संभव संख्या देता है जो से खींची गई घटनाओं को दोषरहित रूप से एनकोड करने के लिए आवश्यक (औसतन) होगी । इस बाउंड को प्राप्त करने के लिए लिए डिज़ाइन किए गए एक इष्टतम कोड का उपयोग करने की आवश्यकता होगी , जो उच्च संभावना वाले घटनाओं के लिए छोटे कोड शब्द प्रदान करता है। की अपेक्षित संख्या के रूप में व्याख्या की जा सकती अतिरिक्त एनकोड घटनाओं सच वितरण से तैयार करने के लिए आवश्यक संदेश बिट्स प्रति , वितरण के लिए एक इष्टतम कोड का उपयोग करता है, तो के बजायH(p)pppDKL(pq)pqp। वितरण की तुलना करने के लिए इसमें कुछ अच्छे गुण हैं। उदाहरण के लिए, यदि और बराबर हैं, तो KL विचलन 0 है।pq

क्रॉस एन्ट्रापी को प्रति वितरण बिट्स की संख्या के रूप में व्याख्या की जा सकती है (औसत पर) सही वितरण से खींची गई घटनाओं को सांकेतिक शब्दों में बदलना , यदि वितरण के लिए एक इष्टतम कोड का उपयोग करना । अंतर पर ध्यान दें: प्रति संदेश अतिरिक्त बिट्स की औसत संख्या को मापता है , जबकि प्रति संदेश कुल बिट्स की औसत संख्या को मापता है । यह सच है कि, फिक्स्ड , बढ़ेगा क्योंकि , से भिन्न होता जा रहा है । लेकिन, यदि को निश्चित नहीं किया गया है, तो व्याख्या करना कठिन हैH(p,q)pqDKL(pq)H(p,q)pH(p,q)qppH(p,q)अंतर के निरपेक्ष माप के रूप में, क्योंकि यह के एन्ट्रॉपी के साथ बढ़ता है ।p

केएल विचलन और क्रॉस एन्ट्रॉपी इस तरह से संबंधित हैं:

DKL(pq)=H(p,q)H(p)

हम इस अभिव्यक्ति से देख सकते हैं कि, जब और बराबर हैं, तो क्रॉस एन्ट्रापी शून्य नहीं है; बल्कि, यह के एन्ट्रॉपी के बराबर है ।pqp

क्रॉस एन्ट्रॉपी आमतौर पर मशीन लर्निंग में नुकसान कार्यों में दिखाई देता है। इनमें से कई स्थितियों में, को 'सही' वितरण के रूप में माना जाता है, और उस मॉडल के रूप में जिसे हम अनुकूलित करने की कोशिश कर रहे हैं। उदाहरण के लिए, वर्गीकरण की समस्याओं में, आमतौर पर इस्तेमाल किया जाने वाला क्रॉस एन्ट्रापी लॉस (उर्फ लॉग लॉस ), लेबल के अनुभवजन्य वितरण (इनपुट्स दिए गए) और क्लासिफायर द्वारा अनुमानित वितरण के बीच क्रॉस एन्ट्रॉपी को मापता है। प्रत्येक डेटा बिंदु के लिए अनुभवजन्य वितरण केवल उस डेटा बिंदु के वर्ग में संभावना 1 और अन्य सभी वर्गों के लिए 0 असाइन करता है। साइड नोट: इस मामले में क्रॉस एन्ट्रॉपी नकारात्मक लॉग संभावना के समानुपाती होती है, इसलिए इसे कम करना समरूपता को अधिकतम करने के बराबर है।pq

ध्यान दें कि (इस उदाहरण में अनुभवजन्य वितरण) तय है। इसलिए, यह कहना समतुल्य होगा कि हम अनुभवजन्य वितरण और अनुमानित वितरण के बीच केएल विचलन को कम कर रहे हैं। जैसा कि हम ऊपर की अभिव्यक्ति में देख सकते हैं, दोनों एडिटिव टर्म (अनुभवजन्य वितरण की एन्ट्रापी) से संबंधित हैं। क्योंकि निश्चित है, मॉडल के मापदंडों के साथ नहीं बदलता है, और नुकसान फ़ंक्शन में उपेक्षा की जा सकती है। हम अभी भी सैद्धांतिक / दार्शनिक कारणों से केएल विचलन के बारे में बात करना चाहते हैं लेकिन, इस मामले में, वे अनुकूलन समस्या को हल करने के दृष्टिकोण से बराबर हैं। यह क्रॉस एन्ट्रॉपी और केएल विचलन के अन्य उपयोगों के लिए सही नहीं हो सकता है, जहांpH(p)pH(p)p भिन्न हो सकते हैं।

t-SNE इनपुट स्पेस में एक वितरण फिट बैठता है। प्रत्येक डेटा बिंदु को एम्बेडिंग स्पेस में मैप किया जाता है, जहां संबंधित वितरण फिट होता है। एल्गोरिथ्म को कम करने के लिए एम्बेडिंग को समायोजित करने का प्रयास करता है । जैसा कि ऊपर, तय किया गया है। इसलिए, अनुकूलन समस्या के परिप्रेक्ष्य से, केएल विचलन को कम करने और क्रॉस एन्ट्रापी को कम करने के बराबर हैं। दरअसल, वैन डेर मातेन और हिंटन (2008) खंड 2 में कहते हैं: "विश्वासयोग्यता का एक प्राकृतिक उपाय जिसके साथ मॉडल कुल्बैक-लीब्लर विचलन है (जो इस में है) क्रॉस-एन्ट्रापी के बराबर केस एक एडिटिव स्थिरांक तक)। "pqDKL(pq)pqjipji

वैन डेर मातेन और हिंटन (2008) । टी-एसएनई का उपयोग करते हुए दृश्य डेटा।


क्या मैं किसी तरह 'पसंदीदा' जवाब दे सकता हूं? मैं, क्योंकि यह एक बहुत अच्छा विवरण है इस एक सहेजना चाहते
zwep

1
धन्यवाद, खुशी है कि यह आपके लिए उपयोगी है। आप वोट बटन के नीचे स्टार आइकन पर क्लिक करके, पूरे धागे को बचाने के लिए पसंदीदा के रूप में एक प्रश्न चिह्नित कर सकते हैं। आप अपने खाते के पेज पर अपनी पसंदीदा सूची देख सकते हैं।
user20160
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.