हम टी-एसएनई उद्देश्य समारोह में क्रॉस एन्ट्रॉपी के बजाय कुल्बैक-लिबलर विचलन का उपयोग क्यों करते हैं?

मेरे दिमाग में, नमूना वितरण से सच्चे वितरण तक केएल विचलन बस क्रॉस एन्ट्रॉपी और एन्ट्रॉपी के बीच का अंतर है।

हम कई मशीन लर्निंग मॉडल में लागत फ़ंक्शन होने के लिए क्रॉस एन्ट्रॉपी का उपयोग क्यों करते हैं, लेकिन टी-स्ने में कुल्बैक-लीब्लर विचलन का उपयोग करते हैं? क्या सीखने की गति में कोई अंतर है?

kullback-leibler tsne cross-entropy

— JimSpark
स्रोत

केएल पर कुछ अंतर्ज्ञान के लिए यहां देखें: आंकड़े.stackexchange.com/questions/188903/…

— kjetil b halvorsen

केएल विचलन दो संभावना वितरण के बीच अंतर को मापने का एक प्राकृतिक तरीका है। डिस्ट्रिब्यूशन की एन्ट्रोपी प्रति संदेश की न्यूनतम संभव संख्या देता है जो से खींची गई घटनाओं को दोषरहित रूप से एनकोड करने के लिए आवश्यक (औसतन) होगी । इस बाउंड को प्राप्त करने के लिए लिए डिज़ाइन किए गए एक इष्टतम कोड का उपयोग करने की आवश्यकता होगी , जो उच्च संभावना वाले घटनाओं के लिए छोटे कोड शब्द प्रदान करता है। की अपेक्षित संख्या के रूप में व्याख्या की जा सकती अतिरिक्त एनकोड घटनाओं सच वितरण से तैयार करने के लिए आवश्यक संदेश बिट्स प्रति , वितरण के लिए एक इष्टतम कोड का उपयोग करता है, तो के बजाय $H(p)$ $p$ $p$ $p$ $D_{KL}(p \parallel q)$ $p$ $q$ $p$ । वितरण की तुलना करने के लिए इसमें कुछ अच्छे गुण हैं। उदाहरण के लिए, यदि और बराबर हैं, तो KL विचलन 0 है। $p$ $q$

क्रॉस एन्ट्रापी को प्रति वितरण बिट्स की संख्या के रूप में व्याख्या की जा सकती है (औसत पर) सही वितरण से खींची गई घटनाओं को सांकेतिक शब्दों में बदलना , यदि वितरण के लिए एक इष्टतम कोड का उपयोग करना । अंतर पर ध्यान दें: प्रति संदेश अतिरिक्त बिट्स की औसत संख्या को मापता है , जबकि प्रति संदेश कुल बिट्स की औसत संख्या को मापता है । यह सच है कि, फिक्स्ड , बढ़ेगा क्योंकि , से भिन्न होता जा रहा है । लेकिन, यदि को निश्चित नहीं किया गया है, तो व्याख्या करना कठिन है $H(p, q)$ $p$ $q$ $D_{KL}(p \parallel q)$ $H(p, q)$ $p$ $H(p, q)$ $q$ $p$ $p$ $H(p, q)$ अंतर के निरपेक्ष माप के रूप में, क्योंकि यह के एन्ट्रॉपी के साथ बढ़ता है । $p$

केएल विचलन और क्रॉस एन्ट्रॉपी इस तरह से संबंधित हैं:

D_{K L} (p ∥ q) = H (p, q) - H (p)

$D_{KL}(p \parallel q) = H(p, q) - H(p)$

हम इस अभिव्यक्ति से देख सकते हैं कि, जब और बराबर हैं, तो क्रॉस एन्ट्रापी शून्य नहीं है; बल्कि, यह के एन्ट्रॉपी के बराबर है । $p$ $q$ $p$

क्रॉस एन्ट्रॉपी आमतौर पर मशीन लर्निंग में नुकसान कार्यों में दिखाई देता है। इनमें से कई स्थितियों में, को 'सही' वितरण के रूप में माना जाता है, और उस मॉडल के रूप में जिसे हम अनुकूलित करने की कोशिश कर रहे हैं। उदाहरण के लिए, वर्गीकरण की समस्याओं में, आमतौर पर इस्तेमाल किया जाने वाला क्रॉस एन्ट्रापी लॉस (उर्फ लॉग लॉस ), लेबल के अनुभवजन्य वितरण (इनपुट्स दिए गए) और क्लासिफायर द्वारा अनुमानित वितरण के बीच क्रॉस एन्ट्रॉपी को मापता है। प्रत्येक डेटा बिंदु के लिए अनुभवजन्य वितरण केवल उस डेटा बिंदु के वर्ग में संभावना 1 और अन्य सभी वर्गों के लिए 0 असाइन करता है। साइड नोट: इस मामले में क्रॉस एन्ट्रॉपी नकारात्मक लॉग संभावना के समानुपाती होती है, इसलिए इसे कम करना समरूपता को अधिकतम करने के बराबर है। $p$ $q$

ध्यान दें कि (इस उदाहरण में अनुभवजन्य वितरण) तय है। इसलिए, यह कहना समतुल्य होगा कि हम अनुभवजन्य वितरण और अनुमानित वितरण के बीच केएल विचलन को कम कर रहे हैं। जैसा कि हम ऊपर की अभिव्यक्ति में देख सकते हैं, दोनों एडिटिव टर्म (अनुभवजन्य वितरण की एन्ट्रापी) से संबंधित हैं। क्योंकि निश्चित है, मॉडल के मापदंडों के साथ नहीं बदलता है, और नुकसान फ़ंक्शन में उपेक्षा की जा सकती है। हम अभी भी सैद्धांतिक / दार्शनिक कारणों से केएल विचलन के बारे में बात करना चाहते हैं लेकिन, इस मामले में, वे अनुकूलन समस्या को हल करने के दृष्टिकोण से बराबर हैं। यह क्रॉस एन्ट्रॉपी और केएल विचलन के अन्य उपयोगों के लिए सही नहीं हो सकता है, जहां $p$ $H(p)$ $p$ $H(p)$ $p$ भिन्न हो सकते हैं।

t-SNE इनपुट स्पेस में एक वितरण फिट बैठता है। प्रत्येक डेटा बिंदु को एम्बेडिंग स्पेस में मैप किया जाता है, जहां संबंधित वितरण फिट होता है। एल्गोरिथ्म को कम करने के लिए एम्बेडिंग को समायोजित करने का प्रयास करता है । जैसा कि ऊपर, तय किया गया है। इसलिए, अनुकूलन समस्या के परिप्रेक्ष्य से, केएल विचलन को कम करने और क्रॉस एन्ट्रापी को कम करने के बराबर हैं। दरअसल, वैन डेर मातेन और हिंटन (2008) खंड 2 में कहते हैं: "विश्वासयोग्यता का एक प्राकृतिक उपाय जिसके साथ मॉडल कुल्बैक-लीब्लर विचलन है (जो इस में है) क्रॉस-एन्ट्रापी के बराबर केस एक एडिटिव स्थिरांक तक)। " $p$ $q$ $D_{KL}(p \parallel q)$ $p$ $q_{j \mid i}$ $p_{j \mid i}$

वैन डेर मातेन और हिंटन (2008) । टी-एसएनई का उपयोग करते हुए दृश्य डेटा।

— user20160
स्रोत

क्या मैं किसी तरह 'पसंदीदा' जवाब दे सकता हूं? मैं, क्योंकि यह एक बहुत अच्छा विवरण है इस एक सहेजना चाहते

— zwep

धन्यवाद, खुशी है कि यह आपके लिए उपयोगी है। आप वोट बटन के नीचे स्टार आइकन पर क्लिक करके, पूरे धागे को बचाने के लिए पसंदीदा के रूप में एक प्रश्न चिह्नित कर सकते हैं। आप अपने खाते के पेज पर अपनी पसंदीदा सूची देख सकते हैं।

— user20160