मैं समझता हूँ कि स्वतंत्र प्रेक्षणों का एक सेट दिया गया है अधिकतम संभावना अनुमानक (या, समतुल्य रूप, फ्लैट के साथ मानचित्र / वर्दी पहले) कि पहचान करता मापदंडों \ mathbf {θ} कि मॉडल वितरण उत्पादन P_ {मॉडल} \ बाएँ (\, \ cdot \;; \ mathbf {c} \ right) जो उन अवलोकनों से सबसे अधिक मेल खाते हैं
या, और अधिक आसानी से
और उस भूमिका को देखें जो \ mathbf { the } _ {ML} मल्टी-क्लास डीप न्यूरल नेटवर्क के लिए एक फंक्शन फंक्शन को परिभाषित करने में खेल सकती है, जिसमें नेटवर्क के ट्रेनेबल मापदंडों (जैसे, \ mathbf {θ ) से मेल खाती है } = \ {\ _ mathbf {W}, \ mathbf {b} \}) और अवलोकन इनपुट सक्रियण \ mathbf {x} के जोड़े हैं और , = { }, लेने के द्वारा
मुझे समझ में नहीं आता कि यह कैसे (वेक्टरकृत) सही आउटपुट के तथाकथित "क्रॉस एन्ट्रॉपी" से संबंधित है, , और नेटवर्क की संबंधित आउटपुट सक्रियता, एच ( ओ ( मैं ) ; θ ) = - y ( मैं ) ⋅ एल ओ जी
सक्रियण "संभाव्यता के रूप में"
एमएलई और क्रॉस एन्ट्रॉपी के बीच संबंध स्थापित करने में एक कदम आउटपुट एक्टिविटीज का उपयोग करना है "जैसे कि" वे संभावनाएं हैं। लेकिन यह मेरे लिए स्पष्ट नहीं है कि वे हैं, या कम से कम वे हैं।
प्रशिक्षण त्रुटि की गणना करने में - विशेष रूप से, इसे "क्रॉस एन्ट्रॉपी लॉस" कहने में - यह माना जाता है कि (सामान्य से 1 तक सक्रियण के बाद)
या
ताकि हम लिख सकें
और इस तरह
लेकिन जब यह निश्चित रूप से एक प्रायिकता बनाता है (इस हद तक कि कुछ भी हो), यह अन्य गतिविधियों पर कोई प्रतिबंध नहीं।
क्या वास्तव में उस मामले में PMFs होने के लिए वास्तव में PMF कहा जाएगा? क्या ऐसा कुछ है जो बनाता है, वास्तव में संभाव्यता (और केवल "उन्हें" पसंद नहीं )? एक y ( मैं ) ( एक्स ( मैं ) ; θ एम एल )
श्रेणीकरण की सीमा
क्रॉस-एन्ट्रापी के साथ MLE की बराबरी करने में ऊपर दिया गया महत्वपूर्ण कदम पूरी तरह से " की" वन-हॉट "संरचना पर निर्भर करता है जो एक (एकल-लेबल) मल्टी-क्लास लर्निंग समस्या की विशेषता है। लिए कोई अन्य संरचना से तक प्राप्त करना असंभव बना देगी ।y ( i ) (1) (3)
क्या MLE और क्रॉस-एन्ट्रापी न्यूनीकरण का समीकरण उन मामलों तक सीमित है जहाँ " गणित" हैं?
विभिन्न प्रशिक्षण और भविष्यवाणी संभावनाएँ
भविष्यवाणी के दौरान, यह लगभग हमेशा ऐसा ही होता है
जिसके परिणामस्वरूप सही भविष्यवाणी संभावनाएं होती हैं जो प्रशिक्षण के दौरान सीखी गई संभावनाओं से भिन्न होती हैं जब तक कि यह मज़बूती से ऐसा न हो
क्या यह कभी विश्वसनीय रूप से मामला है? क्या यह कम से कम लगभग सच होने की संभावना है? या फिर कुछ अन्य तर्क है जो लेबल स्थिति पर सीखे गए सक्रियण के मूल्य के इस समीकरण को इस संभावना के साथ सही ठहराते हैं कि वहाँ सीखी गई क्रियाओं का अधिकतम मूल्य होता है?
एन्ट्रापी और सूचना सिद्धांत
यहां तक कि यह मानते हुए कि उपरोक्त चिंताओं को संबोधित किया गया है और सक्रियण पीएमएफ मान्य हैं (या सार्थक रूप से ऐसा माना जा सकता है), ताकि कंप्यूटिंग में गणित में क्रॉस एन्ट्रॉपी द्वारा निभाई गई भूमिका अप्रमाणिक हो, यह स्पष्ट नहीं है मुझे क्यों यह उपयोगी या सार्थक करने के लिए बारे में बात करने के लिए सार्थक है , क्योंकि शैनन ट्रॉफी एक विशिष्ट पर लागू होती है ; एन्कोडिंग का प्रकार , जो नेटवर्क के प्रशिक्षण में उपयोग नहीं किया जा रहा है। एक( एक्स ( मैं ) ; θ एम एल )
कॉस्ट फंक्शन की व्याख्या करने में सूचना सिद्धांतात्मक एन्ट्रापी की क्या भूमिका होती है, एक कंप्यूटिंग के लिए बस एक टूल (क्रॉस एन्ट्रापी के रूप में) प्रदान करने के विपरीत (जो MLE से मेल खाती है)?
softmax_cross_entropy_with_logits
है: वे अंडरस्लेट गणना करते हैं। और इस प्रकार जो एक नेटवर्क को परिभाषित करता है "संभावनाओं को उत्पन्न करने के लिए" (कम से कम लेबल स्थान पर)। नहीं? θएमएल(हे)