गहरे सीखने में MLE और क्रॉस एन्ट्रॉपी के बीच का संबंध कितना सार्थक है?


12

मैं समझता हूँ कि स्वतंत्र प्रेक्षणों का एक सेट दिया गया है अधिकतम संभावना अनुमानक (या, समतुल्य रूप, फ्लैट के साथ मानचित्र / वर्दी पहले) कि पहचान करता मापदंडों \ mathbf {θ} कि मॉडल वितरण उत्पादन P_ {मॉडल} \ बाएँ (\, \ cdot \;; \ mathbf {c} \ right) जो उन अवलोकनों से सबसे अधिक मेल खाते हैंmO={o(1),...,o(m)}θpmodel(;θ)

θML(O)=pmodel(O;θ)=argmaxθi=1mpmodel(o(i);θ)

या, और अधिक आसानी से

θML(O)=argminθi=1mlogpmodel(o(i);θ)

और उस भूमिका को देखें जो \ mathbf { the } _ {ML}θML मल्टी-क्लास डीप न्यूरल नेटवर्क के लिए एक फंक्शन फंक्शन को परिभाषित करने में खेल सकती है, जिसमें θ नेटवर्क के ट्रेनेबल मापदंडों (जैसे, \ mathbf {θ ) से मेल खाती है } = \ {\ _ mathbf {W}, \ mathbf {b} \})θ={W,b}) और अवलोकन इनपुट सक्रियण \ mathbf {x} के जोड़े हैं xऔर y[1,k] , o(i) = { x(i),y(i) }, लेने के द्वारा

pmodel(o(i);θ)pmodel(y(i)|x(i);θ)


मुझे समझ में नहीं आता कि यह कैसे (वेक्टरकृत) सही आउटपुट के तथाकथित "क्रॉस एन्ट्रॉपी" से संबंधित है, y(i) , और नेटवर्क की संबंधित आउटपुट सक्रियता, एच ( ( मैं ) ; θ ) = - y ( मैं )एल जीa(x(i);θ)

H(o(i);θ)=y(i)loga(x(i);θ)
जब प्रशिक्षण के दौरान त्रुटि / हानि को मापने कि व्यवहार में प्रयोग किया जाता है । कई संबंधित मुद्दे हैं:


सक्रियण "संभाव्यता के रूप में"

एमएलई और क्रॉस एन्ट्रॉपी के बीच संबंध स्थापित करने में एक कदम आउटपुट एक्टिविटीज का उपयोग करना है "जैसे कि" वे संभावनाएं हैं। लेकिन यह मेरे लिए स्पष्ट नहीं है कि वे हैं, या कम से कम वे all हैं।

प्रशिक्षण त्रुटि की गणना करने में - विशेष रूप से, इसे "क्रॉस एन्ट्रॉपी लॉस" कहने में - यह माना जाता है कि (सामान्य से 1 तक सक्रियण के बाद)

(1)pmodel(o(i);θ)ay(i)(x(i);θ)

या

logpmodel(o(i);θ)=logay(i)(x(i);θ)

ताकि हम लिख सकें

(3)logpmodel(o(i);θ)=y(i)loga(x(i);θ)

और इस तरह

θML(O)=argminθi=1mH(o(i);θ)

लेकिन जब यह निश्चित रूप से एक प्रायिकता बनाता है (इस हद तक कि कुछ भी हो), यह अन्य गतिविधियों पर कोई प्रतिबंध नहीं।ay(i)(x(i);θML)

क्या वास्तव में उस मामले में PMFs होने के लिए वास्तव में PMF कहा जाएगा? क्या ऐसा कुछ है जो बनाता है, वास्तव में संभाव्यता (और केवल "उन्हें" पसंद नहीं )? एक y ( मैं ) ( एक्स ( मैं ) ; θ एम एल )ay(i)(x(i);θML)ay(i)(x(i);θML)


श्रेणीकरण की सीमा

क्रॉस-एन्ट्रापी के साथ MLE की बराबरी करने में ऊपर दिया गया महत्वपूर्ण कदम पूरी तरह से " की" वन-हॉट "संरचना पर निर्भर करता है जो एक (एकल-लेबल) मल्टी-क्लास लर्निंग समस्या की विशेषता है। लिए कोई अन्य संरचना से तक प्राप्त करना असंभव बना देगी ।y ( i ) (1) (3)y(i)y(i)(1)(3)

क्या MLE और क्रॉस-एन्ट्रापी न्यूनीकरण का समीकरण उन मामलों तक सीमित है जहाँ " गणित" हैं? y(i)


विभिन्न प्रशिक्षण और भविष्यवाणी संभावनाएँ

भविष्यवाणी के दौरान, यह लगभग हमेशा ऐसा ही होता है

(2)pmodel(y(i)|x(i);θ)P(argmaxj[1,k]aj(x(i);θ)=y(i))

जिसके परिणामस्वरूप सही भविष्यवाणी संभावनाएं होती हैं जो प्रशिक्षण के दौरान सीखी गई संभावनाओं से भिन्न होती हैं जब तक कि यह मज़बूती से ऐसा न हो

ay(i)(x(i);θML)=P(argmaxj[1,k]aj(x(i);θML)=y(i))

क्या यह कभी विश्वसनीय रूप से मामला है? क्या यह कम से कम लगभग सच होने की संभावना है? या फिर कुछ अन्य तर्क है जो लेबल स्थिति पर सीखे गए सक्रियण के मूल्य के इस समीकरण को इस संभावना के साथ सही ठहराते हैं कि वहाँ सीखी गई क्रियाओं का अधिकतम मूल्य होता है?


एन्ट्रापी और सूचना सिद्धांत

यहां तक ​​कि यह मानते हुए कि उपरोक्त चिंताओं को संबोधित किया गया है और सक्रियण पीएमएफ मान्य हैं (या सार्थक रूप से ऐसा माना जा सकता है), ताकि कंप्यूटिंग में गणित में क्रॉस एन्ट्रॉपी द्वारा निभाई गई भूमिका अप्रमाणिक हो, यह स्पष्ट नहीं है मुझे क्यों यह उपयोगी या सार्थक करने के लिए बारे में बात करने के लिए सार्थक है , क्योंकि शैनन ट्रॉफी एक विशिष्ट पर लागू होती है ; एन्कोडिंग का प्रकार , जो नेटवर्क के प्रशिक्षण में उपयोग नहीं किया जा रहा है। एक( एक्स ( मैं ) ; θ एम एल )θMLa(x(i);θML)

कॉस्ट फंक्शन की व्याख्या करने में सूचना सिद्धांतात्मक एन्ट्रापी की क्या भूमिका होती है, एक कंप्यूटिंग के लिए बस एक टूल (क्रॉस एन्ट्रापी के रूप में) प्रदान करने के विपरीत (जो MLE से मेल खाती है)?

जवाबों:


5

तंत्रिका जाल आवश्यक रूप से संभावनाओं को आउटपुट के रूप में नहीं देते हैं, लेकिन उन्हें ऐसा करने के लिए डिज़ाइन किया जा सकता है। संभाव्यता के रूप में व्याख्या किए जाने के लिए, मूल्यों का एक सेट अपूर्व और एक के लिए योग होना चाहिए। आउटपुट संभावनाओं के लिए एक नेटवर्क डिज़ाइन करना आमतौर पर एक आउटपुट परत चुनने के लिए होता है जो इन बाधाओं को लगाता है। उदाहरण के लिए, कक्षाओं के साथ एक वर्गीकरण समस्या में , एक सामान्य विकल्प इकाइयों के साथ एक सॉफ्टमैक्स आउटपुट परत है । सॉफ्टमैक्स फ़ंक्शन आउटपुट को गैर-संवेदी और एक के योग के लिए मजबूर करता है। वें उत्पादन इकाई संभावना है कि वर्ग है देता है । बाइनरी वर्गीकरण की समस्याओं के लिए, एक अन्य लोकप्रिय विकल्प लॉजिस्टिक के साथ एकल आउटपुट यूनिट का उपयोग करना हैk j jkkjjसक्रियण समारोह। लॉजिस्टिक फ़ंक्शन का आउटपुट शून्य और एक के बीच है, और यह संभावना देता है कि वर्ग 1 है। यह संभावना है कि कक्षा 0 है, यह अनुमानित रूप से एक मान है। यदि नेटवर्क में कोई छिपी हुई परतें नहीं हैं, तो ये दो उदाहरण क्रमशः बहुराष्ट्रीय लॉजिस्टिक रिग्रेशन और लॉजिस्टिक रिग्रेशन के बराबर हैं।

क्रॉस एन्ट्रॉपी दो संभावना वितरण और बीच अंतर को मापता है । जब क्रॉस एन्ट्रापी का उपयोग भेदभावपूर्ण क्लासीफायर के लिए एक फंक्शन फ़ंक्शन के रूप में किया जाता है, तो और को क्लास लेबल पर वितरण होता है, जिसे इनपुट (अर्थात एक विशेष डेटा बिंदु) दिया जाता है। 'सत्य' वितरण है और मॉडल द्वारा अनुमानित वितरण है। विशिष्ट वर्गीकरण समस्याओं में, डेटासेट में प्रत्येक इनपुट सही वर्ग का प्रतिनिधित्व करने वाले पूर्णांक लेबल के साथ जुड़ा हुआ है। इस मामले में, हम लिए अनुभवजन्य वितरण का उपयोग करते हैंH(p,q)क्यू पी क्यू पी क्यू पी क्षpqpqpqp। यह केवल डेटा बिंदु के सच्चे वर्ग में प्रायिकता 1 और अन्य सभी वर्गों के लिए संभाव्यता 0 प्रदान करता है। नेटवर्क द्वारा अनुमानित वर्ग संभावनाओं का वितरण है (जैसे ऊपर वर्णित है)।q

कहें कि डेटा iid हैं, अनुभवजन्य वितरण है, और पूर्वानुमानित वितरण है ( वें डेटा बिंदु के लिए)। फिर, क्रॉस एन्ट्रॉपी लॉस को कम करना (यानी डेटा पॉइंट्स पर औसतन डेटा की संभावना को अधिकतम करने के बराबर है। प्रमाण अपेक्षाकृत सीधा है। मूल विचार यह दिखाना है कि क्रॉस एन्ट्रापी नुकसान डेटा बिंदुओं की नकारात्मक लॉग की अनुमानित संभावनाओं के योग के समानुपाती है। यह अनुभवजन्य वितरण के रूप के कारण बड़े करीने से गिरता है।q ipiqiH ( p i , q i )iH(pi,qi)

क्रॉस एन्ट्रापी लॉस को भी अधिक सामान्यतः लागू किया जा सकता है। उदाहरण के लिए, 'सॉफ्ट वर्गीकरण' समस्याओं में, हमें हार्ड क्लास लेबल के बजाय क्लास लेबल पर वितरण दिया जाता है (इसलिए हम अनुभवजन्य वितरण का उपयोग नहीं करते हैं)। मैं वर्णन करता हूं कि यहां उस मामले में क्रॉस एंट्रोपी लॉस का उपयोग कैसे किया जाए ।

अपने प्रश्न में कुछ अन्य बारीकियों को संबोधित करने के लिए:

विभिन्न प्रशिक्षण और भविष्यवाणी संभावनाएँ

ऐसा लगता है कि आप अधिकतम सक्रियण के साथ आउटपुट यूनिट ढूंढ रहे हैं और क्लास लेबल से इसकी तुलना कर रहे हैं। यह क्रॉस एन्ट्रॉपी लॉस का उपयोग करके प्रशिक्षण के लिए नहीं किया गया है। इसके बजाय, मॉडल द्वारा संभाव्यता आउटपुट की तुलना 'सही' संभावनाओं से की जाती है (आमतौर पर अनुभवजन्य वितरण के लिए लिया जाता है)।

शैनन एन्ट्रापी एक विशेष प्रकार के एन्कोडिंग पर लागू होता है, जो नेटवर्क के प्रशिक्षण में उपयोग नहीं किया जा रहा है।

क्रॉस एन्ट्रापी को प्रति वितरण बिट्स की संख्या के रूप में व्याख्या की जा सकती है (औसत पर) सही वितरण से खींची गई घटनाओं को सांकेतिक शब्दों में बदलना , यदि वितरण के लिए एक इष्टतम कोड का उपयोग करना । क्रॉस एन्ट्रापी की एक न्यूनतम मूल्य लेता (शैनन का entropy ) जब । और बीच बेहतर मैचपी क्यू एच ( पी ) पी क्यू = पी क्यू पीH(p,q)pqH(p)pq=pqpसंदेश की लंबाई कम है। क्रॉस एन्ट्रापी को कम करने के लिए एक मॉडल को प्रशिक्षित करना इसे सच्चे वितरण को बेहतर ढंग से समझने के लिए प्रशिक्षण के रूप में देखा जा सकता है। पर्यवेक्षित शिक्षण समस्याओं जैसे कि हम चर्चा कर रहे हैं, मॉडल इनपुट को देखते हुए संभावित आउटपुट पर संभाव्यता वितरण देता है। स्पष्ट रूप से वितरण के लिए इष्टतम कोड ढूंढना प्रक्रिया का हिस्सा नहीं है।


"यह क्रॉस एन्ट्रॉपी लॉस का उपयोग करके प्रशिक्षण के लिए नहीं किया गया है।" यह वही है जो TensorFlow के API को पसंद softmax_cross_entropy_with_logitsहै: वे अंडरस्लेट गणना करते हैं। और इस प्रकार जो एक नेटवर्क को परिभाषित करता है "संभावनाओं को उत्पन्न करने के लिए" (कम से कम लेबल स्थान पर)। नहीं? θएमएल(हे)argminθi=1mH(o(i);θ)θML(O)
ओरोम

हां, क्रॉस एन्ट्रापी कम से कम है और संभावना कम से कम (कम से कम स्थानीय रूप से) है। उस वाक्य में, मैं "अलग प्रशिक्षण और भविष्यवाणी संभावनाओं" खंड में समीकरणों का उल्लेख कर रहा था। इसे फिर से देखते हुए, यह मेरे लिए बिल्कुल स्पष्ट नहीं है कि आप उन समीकरणों से क्या मतलब रखते हैं, इसलिए मैं सिर्फ यह कहूंगा: यदि आप एक आउटपुट लेयर का उपयोग कर रहे हैं, जहां प्रत्येक यूनिट एक वर्ग संभावना (जैसे सॉफ्टमैक्स) देता है, तो )। प्रशिक्षण और भविष्यवाणी के दौरान मॉडल संभावनाएं समान हैं। pmodel(y(i)=jx(i);θ)=aj(x(i);θ)
user20160

मैं समझता हूं कि समान मानों का उपयोग किया जाता है - अर्थात, सीखे गए का उपयोग भविष्यवाणी में किया जाता है - लेकिन वे विभिन्न तरीकों से उपयोग किए जाते हैं। मॉडल लिए सीखता है कि संभावना वास्तव में , लेकिन संभावना है कि प्रशिक्षित मॉडल द्वारा भविष्यवाणी की जाएगी एक ही इनपुट के जवाब में, है । जब तक (2) सत्य नहीं है ये समान नहीं हैं। पी एम डी एल ( y ( मैं ) | एक्स ( मैं ) ; θ एम एल ) एक y ( मैं ) ( एक्स ( मैं ) ;apmodel(y(i)|x(i);θML)y ( मैंay(i)(x(i);θML)एक्स ( मैं ) पी ( आर्ग अधिकतम j [ 1 , कश्मीर ]y(i)x(i)P(argmaxj[1,k]aj(x(i);θML)=y(i))
ओरोम

और (पहला प्रश्न) मैं समझता हूं कि भूमिका के कारण, eq में परिभाषित किया गया है। (1), द्वारा खेला गया को अधिकतम करने के लिए खेला जाता है , मान रहे हैं संभावनाओं (क्योंकि नहीं सॉफ्टमैक्स की, जो केवल आश्वासन देता है कि वे 1 में जोड़ देंगे)। लेकिन वह अन्य पर कोई बाधा नहीं ; (इसके अलावा वे ) के योग हैं ।) इसलिए मैं नहीं देखता कि कैसे एक छेद के रूप में को एक PMF माना जा सकता है। पी एम डी एल ( हे ; θ ) एक y ( मैं ) ( एक्स ( मैं ) ; θ एम एल ) एक जे जे y ( मैं ) 1 - एक y ( मैं ) एक ( एक्स ( मैं ) ;ay(i)(x(i);θ)pmodel(O;θ)ay(i)(x(i);θML)ajjy(i)1ay(i)a(x(i);θML)
ओरोम

पहले प्रश्न का बिंदु बनाने का एक और तरीका यह है कि केवल कभी भी एमएल प्रक्रिया में भाग लेते हैं, और इस प्रकार केवल उन्हें संभाव्यता माना जा सकता है। और जब एक उपयुक्त सक्रियण फ़ंक्शन (जैसे सॉफ्टमैक्स) यह सुनिश्चित करता है कि शेष सक्रियणों का योग एक संभावना होगा, उनमें से किसी के बीच संबंधों का कोई मतलब नहीं है। ay(i)
ओरोम

3

मैं थोड़ा और सामान्य दृष्टिकोण से उत्तर दूंगा कि प्रकृति, कैसे, कब और क्यों हम एनएन आउटपुट को संभाव्यता वितरण के रूप में मान सकती है।

इस अर्थ में कि सॉफ्टमैक्स आउटपुट को 1 के योग के लिए लागू करता है और गैर-ऋणात्मक भी होता है, नेटवर्क का उत्पादन कक्षाओं में असतत संभाव्यता वितरण है, या कम से कम इस तरह से व्याख्या की जा सकती है। इसलिए क्रॉस-एंट्रॉपी और अधिकतम संभावना के बारे में बात करना पूरी तरह से उचित है।

हालांकि, जो मुझे लगता है कि आप देख रहे हैं (और यह सही है), यह है कि आउटपुट "संभाव्यता" का सहीपन की वास्तविक संभावना से कोई लेना-देना नहीं है । यह एमएल में एक प्रसिद्ध समस्या है, जिसे कैलिब्रेशन कहा जाता है । उदाहरण के लिए, यदि आपका क्लासिफायरियर of कुत्तों और बिल्लियों कहना कि , तो आप उम्मीद करेंगे कि यदि आप उदाहरणों का एक सेट ले लेते हैं तो जिनमें से सभी में , तब लगभग 30% इनपुट्स को गलत माना जाएगा (क्योंकि यह केवल 70% आत्मविश्वास था)। डी सी θ ( एक्स मैं , सी ) = पी ( एक्स मैं = सीfθDCfθ(xi,C)=P(xi=C|θ)=0.7S={xj} P(xj=C|θ)=0.7

हालांकि, यह पता चला है कि आधुनिक प्रशिक्षण विधियां इसे लागू नहीं करती हैं! इसके बारे में कुछ चर्चा देखने के लिए आधुनिक तंत्रिका नेटवर्क के अंशांकन पर गुओ एट अल देखें ।

दूसरे शब्दों में, सॉफ्टमैक्स से आउटपुट की "संभावना" का वास्तविक मॉडल आत्मविश्वास के साथ कोई लेना- देना नहीं है। और यह कोई आश्चर्य की बात नहीं है: हम केवल अपनी सटीकता को अधिकतम करना चाहते हैं, और प्रत्येक इनपुट उदाहरण में इसके लक्ष्य वर्ग के 1 होने की संभावना है। इस अधिकार को पाने के लिए मॉडल को प्रोत्साहित करना बहुत कम है। अगर इसे अनिश्चितता का अनुमान लगाने की आवश्यकता नहीं है तो यह क्यों होना चाहिए? क्रॉस-एन्ट्रॉपी इस मुद्दे को ठीक नहीं करता है; वास्तव में, आप इसे हर बार एक डेल्टा फंक्शन में जाने के लिए कह रहे हैं!

बायेसियन न्यूरल नेटवर्क पर हाल ही में बहुत सारे काम इस मुद्दे को सुधारने का प्रयास करते हैं। इस तरह के मॉडल डेटा दिए गए मापदंडों पर एक वितरण को नियोजित करते हैं , जिसे वास्तविक संभावना वितरण प्राप्त करने के लिए एकीकृत किया जा सकता है । यह उपयोगी अनिश्चितता माप और बेहतर अंशांकन की गारंटी देने में मदद करता है। हालांकि, यह कम्प्यूटेशनल रूप से अधिक समस्याग्रस्त है।P(θ|X)=P(X|θ)P(θ)/P(X)P(yi|xi,X)=P(yi|θ,xi)P(θ|X)dθ

उम्मीद है कि मैंने आपके प्रश्न को गलत नहीं समझा!


एक अच्छा संबंधित काम: arxiv.org/abs/1711.01297
user3658307

0

ठीक से प्रशिक्षित होने पर फ़ीड-फॉरवर्ड न्यूरल नेटवर्क सही वर्ग की संभावनाओं का अनुमान लगाते हैं।

1991 में, रिचर्ड एंड लिपमैन ने साबित किया कि फीड-फॉरवर्ड न्यूरल नेटवर्क, पिछली कक्षा की संभावनाओं को देखते हैं, जब {0,1} वर्ग-संकेतक लक्ष्य पैटर्न [ रिचर्ड एमडी, और लिपमैन आरपी (1991) के साथ प्रशिक्षित किया जाता है न्यूरल नेटवर्क क्लासिफायर का अनुमान बेयसियन के बाद की संभावनाओं को लगता है। तंत्रिका संगणना, 3, 461– 483. ]। सबूत की अपनी लाइन में, वे एक-छिपे हुए परत फ़ीड-फॉरवर्ड न्यूरल नेटवर्क का उपयोग करते हैं।

ड्यूडा एंड हार्ट [ ड्यूडा आरओ एंड हार्ट पीई (1973) पैटर्न वर्गीकरण और दृश्य विश्लेषण, विली ] के गणितीय एनोटेशन में , फ़ीड-फॉरवर्ड न्यूरल नेटवर्क के इनपुट वेक्टर के रूप में प्रदान की जाने वाली सुविधा वितरण को रूप में परिभाषित करें) , जहां उदाहरण के लिए डेटा वेक्टर 4 फ़ीचर-चर के साथ एक वर्गीकरण कार्य के लिए बराबर होता है । सूचकांक संभव वर्गों को इंगित करता है , ।x = ( 0.2 , 10.2 , 0 , 2 ) iP(xωi)x=(0.2,10.2,0,2)ii { 1 , , n }ni{1,,n}

फ़ीड-फ़ॉरवर्ड न्यूरल नेटवर्क वंश द्वारा प्रशिक्षित होने पर , पश्च-संभाव्यता, सीखता है । वांछित आउटपुट पैटर्न को उदाहरण के लिए दो-स्तरीय वर्गीकरण समस्या के लिए । फ़ीड-फ़ॉरवर्ड न्यूरल नेटवर्क में प्रति क्लास एक आउटपुट नोड होता है। वेक्टर इंगित करता है कि मनाया गया फीचर-वेक्टर 2'nd वर्ग का है। =(0,1)(0,1)P^(ωix)o=(0,1)(0,1)


यह सवाल नहीं है।
ओरोम

0

लॉग-संभावना आपके प्रश्न के संदर्भ में सीधे एन्ट्रापी से जुड़ी नहीं है। समानता सतही है: दोनों में प्रायिकता जैसे परिमाणों के लघुगणक होते हैं।

संख्यात्मक रूप से गणना के कारणों के लिए लॉग-लाइलीहुड (MLE) में लघुगणक विशुद्ध रूप से किया जाता है। संभावनाओं का उत्पाद बहुत छोटी संख्या हो सकती है, खासकर यदि आपका नमूना बड़ा है। फिर संभावना की सीमा 1 से गायब हो जाती है एक उत्पाद के गायब होने के छोटे मूल्य के लिए। जब आप लॉग प्राप्त करते हैं, तो उत्पाद एक योग बन जाता है, और लॉग फ़ंक्शन एक छोटे से अधिक प्रबंधनीय डोमेन के लिए मूल्यों की सीमा को संकुचित करता है। लॉगरिथम एक नीरस कार्य है, इसलिए लॉग-लाइबिलिटी का अधिकतम (न्यूनतम) समान होने की संभावना का एक ही उत्तर देगा। इसलिए, MLE अभिव्यक्ति में लॉग की उपस्थिति गणितीय अर्थों में महत्वपूर्ण नहीं है, और बस सुविधा की बात है।

एन्ट्रापी में एक लघुगणक समारोह की उपस्थिति अधिक महत्वपूर्ण है, और इसकी जड़ें सांख्यिकीय यांत्रिकी, भौतिकी की एक शाखा में हैं। यह बोल्ट्जमैन वितरण से जुड़ा हुआ है , जिसका उपयोग गैसों के सिद्धांत में किया जाता है। उदाहरण के लिए, आप इसका उपयोग करते हुए ऊंचाई के एक समारोह के रूप में हवा के दबाव को प्राप्त कर सकते हैं।


क्या आप इस प्रश्न के किस भाग पर प्रकाश डाल सकते हैं?
ओरोम

जैसा कि मैं ओपी में कहता हूं, यह स्पष्ट है कि एमएलई को व्यक्त करने के दूसरे तरीके में लॉग का उपयोग केवल सुविधा है (आपके पहले दो पैराग्राफ)। और आपका अंतिम पैराग्राफ सिर्फ यह कहना प्रतीत होता है कि एन्ट्रापी के लिए अभिव्यक्ति में लॉग की उपस्थिति अर्थपूर्ण है - एन्ट्रॉपी (विशेष रूप से भौतिकी) के संदर्भ में । लेकिन जो याद आ रहा है (और यह सवाल है) इन दो विशिष्ट (और सच) टिप्पणियों को जोड़ने का एक औचित्य है। मैं (3) के बाद समीकरण के अलावा अन्य नहीं देखता, MLE के लिए दूसरे समीकरण को व्यक्त करने का एक उपयोगी तरीका है। शायद यही आप कह रहे हैं?
ओरोम

@ हां, एन्ट्रापी की गणना करने के लिए आप एनएन बना सकते हैं, लेकिन यह नहीं है कि क्रॉस एन्ट्रॉपी फ़ंक्शन वास्तव में ज्यादातर मामलों में कैसे उपयोग किया जाता है। आप इसे एक अन्य प्रकार के लागत फ़ंक्शन के रूप में सोच सकते हैं, बस यही यहाँ है। ऐसा लगता है कि वांछित गुण हैं, और अच्छी तरह से सममित है।
अक्कल

हां, इसलिए इसे एन्ट्रापी कहें या यह सुझाव दें कि the सार्थक हैं; distrubutions (जिसके लिए "एन्ट्रॉपी" कोई अंतर्दृष्टि प्रदान करता है) भ्रामक हैay(i)(x(i);θML)
ओरोम

@ और, मैं नाम के बारे में नहीं कहूंगा। यह "काज हानि" फ़ंक्शन की तरह है जिसका टिका के साथ बहुत कम संबंध है। वे इसे "एन्ट्रॉपी लॉस" कहते हैं क्योंकि इसका कार्यात्मक रूप बिल्कुल एक सूचना एन्ट्रापी समीकरण की तरह है।
अक्कल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.