क्रॉस एन्ट्रापी को न्यूनतम करना अक्सर जेनरिक मॉडल में एक सीखने के उद्देश्य के रूप में उपयोग किया जाता है जहां पी सच वितरण है और क्यू सीखा वितरण है।
P और q का क्रॉस एन्ट्रापी, p और q के बीच KL प्लस के k के विचलन p के एन्ट्रापी के बराबर है।
एच( पी , क्यू) = एच( p ) + Dकएल( p | | q)
आप को एक स्थिर मान सकते हैं क्योंकि पी सीधे प्रशिक्षण डेटा से आता है और मॉडल द्वारा सीखा नहीं जाता है। तो, केवल KL विचलन शब्द ही महत्वपूर्ण है। केएल विचलन के लिए प्रेरणा वितरण के बीच की दूरी के रूप में प्रेरणा यह है कि यह आपको बताता है कि सन्निकटन क्यू के बजाय वितरण पी का उपयोग करके सूचना के कितने बिट प्राप्त किए जाते हैं।एच( पी )पी
ध्यान दें कि केएल विचलन उचित दूरी की मीट्रिक नहीं है। एक बात के लिए, यह पी और क्यू में सममित नहीं है। यदि आपको संभाव्यता वितरण के लिए दूरी मीट्रिक की आवश्यकता है तो आपको कुछ और उपयोग करना होगा। लेकिन, यदि आप अनौपचारिक रूप से "दूरी" शब्द का उपयोग कर रहे हैं तो आप केएल विचलन का उपयोग कर सकते हैं।