क्या प्रतिगमन लागत संदर्भ के संदर्भ में समझ में आता है?


14

क्या प्रति-प्रवेश लागत प्रतिगमन के संदर्भ में समझ में आता है (वर्गीकरण के विपरीत)? यदि हां, तो आप TensorFlow के माध्यम से एक खिलौना उदाहरण दे सकते हैं? यदि नहीं, तो क्यों नहीं?

मैं माइकल नील्सन द्वारा न्यूरल नेटवर्क्स और डीप लर्निंग में क्रॉस-एंट्रोपी के बारे में पढ़ रहा था और ऐसा कुछ ऐसा लगता है जो स्वाभाविक रूप से प्रतिगमन के साथ-साथ वर्गीकरण के लिए भी इस्तेमाल किया जा सकता है, लेकिन मुझे समझ नहीं आता कि आप इसे TensorFlow से कुशलतापूर्वक कैसे लागू करेंगे। नुकसान के कार्य लॉग को लेते हैं (जो मुझे वास्तव में समझ में नहीं आता है) और वे यहां वर्गीकरण के तहत सूचीबद्ध हैं


2
मैंने यहां क्वोरा पर पाया , जो इस प्रश्न के उत्तर के रूप में स्वीकार किए जाने से अलग है
सिद्धार्थ शाक्य

यदि आप पूरी प्रतिक्रिया पढ़ते हैं, तो आप देखते हैं कि वह क्रॉस-एन्ट्रापी का एक "निरंतर संस्करण" देता है जो बहुत अच्छा है, लेकिन यह केवल मीन स्क्वेर्ड एरर (एमएसई) हो जाता है।
याकूब

जवाबों:


11

नहीं, यह tf.nn.sigmoid_cross_entropy_with_logitsएक प्रतिगमन कार्य के लिए जैसे TensorFlow कार्यों का उपयोग करने के लिए समझ में नहीं आता है । TensorFlow में, "क्रॉस-एन्ट्रॉपी" शॉर्टहैंड (या शब्दजाल) है, जो "श्रेणीबद्ध एन्ट्रापी" के लिए है। श्रेणीबद्ध क्रॉस एन्ट्रापी संभावनाओं पर एक ऑपरेशन है। एक प्रतिगमन समस्या वर्गीकरण के बजाय निरंतर परिणामों की भविष्यवाणी करने का प्रयास करती है।

शब्दजाल "क्रॉस-एंट्रोपी" थोड़ा भ्रामक है, क्योंकि क्रॉस-एन्ट्रापी नुकसान कार्यों की कोई संख्या है; हालाँकि, यह मशीन लर्निंग में एक कन्वेंशन है जो इस विशेष नुकसान को "क्रॉस-एन्ट्रापी" लॉस के रूप में संदर्भित करता है।

यदि हम TensorFlow कार्यों से परे देखते हैं, जिनसे आप लिंक करते हैं, तो निश्चित रूप से संभावित क्रॉस-एन्ट्रॉपी कार्यों की संख्या है। ऐसा इसलिए है क्योंकि क्रॉस-एन्ट्रॉपी की सामान्य अवधारणा दो प्रायिकता वितरण की तुलना के बारे में है। जिस पर आप की तुलना करने के लिए दो संभावना वितरण के आधार पर, आप विशिष्ट श्रेणीगत-एन्ट्रापी नुकसान की तुलना में एक अलग नुकसान पर पहुंच सकते हैं। उदाहरण के लिए, कुछ अलग-अलग साधनों के साथ गॉसियन लक्ष्य का क्रॉस-एंट्रॉपी लेकिन निश्चित विकर्ण सहसंयोजक मतलब-चुकता त्रुटि को कम करता है। क्रॉस-एन्ट्रॉपी की सामान्य अवधारणा इन प्रश्नों में अधिक विस्तार से उल्लिखित है:


6
हालांकि, यह उल्लेख किया जाना चाहिए कि एक प्रतिगमन कार्य में हानि फ़ंक्शन के रूप में बाइनरी क्रॉसेंट्रॉपी का उपयोग करना जहां आउटपुट मान श्रेणी में वास्तविक मान हैं [0,1] एक बहुत ही उचित और वैध चीज है।
आज

@today मुझे लगता है कि यह एक प्रथा है जिसे कुछ लोग व्यावहारिक कारणों से अपनाते हैं (जैसे कि तंत्रिका नेटवर्क अधिक तेज़ी से परिवर्तित होता है), लेकिन मुझे यकीन नहीं है कि इस मॉडल का दो संभाव्यता वितरण की तुलना में कोई संबंध है। शायद आप दिखा सकते हैं कि और बाइनरी क्रॉस-एन्ट्रोपी में लगातार मूल्यवान लक्ष्य के बीच एक संबंध है ? [0,1]
साइकोरैक्स का कहना है कि मोनिका

6

@ साइकोरैक्स द्वारा दिया गया उत्तर सही है। हालांकि, यह ध्यान देने योग्य है कि एक प्रतिगमन कार्य में क्रॉस-एन्ट्रापी का उपयोग करना जहां आउटपुट मान रेंज में हैं [0,1] एक वैध और उचित काम करना है। दरअसल, यह इमेज ऑटोएन्कोडर्स (जैसे यहां और इस पेपर ) में उपयोग किया जाता है । आपको इस सवाल का एक सरल गणितीय प्रमाण देखने में रुचि हो सकती है कि वह इस उत्तर में इस मामले में क्यों काम करता है ।


हानि कार्यों को संभावना / पोस्टेरीयर या उनमें से कुछ मोनोटोनिक परिवर्तन के रूप में देखा जा सकता है। इसलिए, जबकि यह सच है कि कुछ प्रतिगमन मॉडल में क्रॉस-एन्ट्रॉपी के समान हानि का मतलब हो सकता है, यह किसी भी प्रतिगमन से निपटने के लिए एक उचित दृष्टिकोण नहीं हो सकता है जहां आउटपुट रेंज में हैं। [0,1]
InfProbSciX

@InfProbSciX "यह किसी भी प्रतिगमन से निपटने के लिए एक उचित दृष्टिकोण नहीं हो सकता है जहां आउटपुट [0,1] सीमा में हैं।" तो "उचित" किस अर्थ में? या आप किसी विशिष्ट कार्य के लिए नुकसान की कार्यक्षमता को कैसे परिभाषित करते हैं? मुझे संदेह है कि बयान किसी भी हानि समारोह के लिए सही हो सकता है। क्या कोई नुकसान कार्य है जो सभी प्रकार के प्रतिगमन कार्यों के लिए उपयोग करना उचित होगा , निश्चित रूप से "उचित" को परिभाषित करने के बाद?
आज

जिस तरह से मैं उचित परिभाषित करता हूं वह एक मॉडल कानून का निर्माण करता है। उदाहरण के लिए, प्रतिगमन ढांचे में जैसे कि जहां iid त्रुटियां हैं - सामान्य रूप से वितरित कहा जाता है, नकारात्मक लॉग-लाइबिलिटी बिल्कुल चुकता नुकसान है। सेटिंग में जहां मॉडल कानून की तरह दिखता है , नकारात्मक लॉग-लाइबिलिटी बिल्कुल बाइनरी क्रॉस एन्ट्रॉपी है। जहां कानून एक सामान्य से पहले एक रेखीय प्रतिगमन है, जहां चट्टानों पर नुकसान होता है, एल 2 दंड और इतने पर मेल खाता है। जहाँ संभव हो, मैं एक कानून का निर्माण करूँगा और फिर एक हानि प्राप्त करूँगा । ε Y ~ बी आर एन यू एल एल मैं ( पी θ )Y=fθ(X)+ϵϵYBernoulli(pθ)
InfProbSciX

@InfProbSciX आपके उत्तर के लिए धन्यवाद। जैसा कि आपने उल्लेख किया है, प्रतिगमन कार्य (और डेटा, त्रुटियों, आदि के वितरण पर मान्यताओं) के आधार पर, एक हानि फ़ंक्शन का उपयोग करने के लिए उचित नहीं हो सकता है। और, जैसा कि मैंने उल्लेख किया है, यह सभी नुकसान कार्यों के लिए सच है, जिसमें क्रॉसेंट्रोपी भी शामिल है। बेशक, मैं आपकी बात देखता हूं कि सिर्फ इसलिए कि आउटपुट वैल्यू [0,1] रेंज में है, इस बात की गारंटी नहीं है कि क्रॉसेंट्रॉपी इष्टतम विकल्प नुकसान फ़ंक्शन है और मैं अपने उत्तर में अन्यथा बताने की कोशिश नहीं कर रहा था।
आज

5

डीप लर्निंग फ्रेमवर्क अक्सर मॉडल और नुकसान को मिलाते हैं और सॉफ्टमैक्स नॉनलाइनरिटी के साथ एक बहुराष्ट्रीय मॉडल के क्रॉस-एंट्रोपी को संदर्भित करते हैं cross_entropy, जो भ्रामक है। सामान्य तौर पर, आप मनमाने मॉडल के लिए क्रॉस-एंट्रोपी को परिभाषित कर सकते हैं ।

गौसियन मॉडल के लिए अलग-अलग माध्य लेकिन निश्चित विकर्ण सहसंयोजक के साथ, यह MSE के बराबर है। एक सामान्य सहसंयोजक के लिए, क्रॉस-एन्ट्रापी एक वर्ग महालनोबिस दूरी के अनुरूप होगा । एक घातीय वितरण के लिए, क्रॉस-एन्ट्रापी नुकसान तरह दिखेगा जहां निरंतर लेकिन गैर-नकारात्मक है। तो हाँ , प्रतिगमन के लिए क्रॉस-एन्ट्रापी का उपयोग किया जा सकता है।

fθ(x)ylogfθ(x),
y


2

दुर्भाग्य से, @ साइकोरैक्स द्वारा अब स्वीकार किए गए उत्तर के रूप में, जबकि विस्तृत है, गलत है।

वास्तव में, स्पष्ट क्रोस एंट्रोपी के माध्यम से प्रतिगमन का एक प्रमुख उदाहरण - Wavenet - कर दिया गया है कार्यान्वित TensorFlow में

सिद्धांत यह है कि आप अपने आउटपुट स्पेस को अलग करते हैं और फिर आपका मॉडल केवल संबंधित बिन की भविष्यवाणी करता है; साउंड मॉडलिंग डोमेन में उदाहरण के लिए पेपर की धारा 2.2 देखें । इसलिए जब तकनीकी रूप से मॉडल वर्गीकरण करता है, तो हल किया गया अंतिम कार्य प्रतिगमन होता है।

एक स्पष्ट नकारात्मक पक्ष यह है कि आप आउटपुट रिज़ॉल्यूशन खो देते हैं। हालाँकि, यह एक समस्या नहीं हो सकती है (कम से कम मुझे लगता है कि Google के कृत्रिम सहायक ने बहुत ही मानवीय आवाज़ में बात की थी ) या आप कुछ पोस्ट-प्रोसेसिंग के साथ खेल सकते हैं, जैसे कि सबसे संभावित बिन के बीच में अंतर करना और यह दो पड़ोसी हैं।

दूसरी ओर, यह दृष्टिकोण सामान्य सिंगल-लीनियर-यूनिट आउटपुट की तुलना में मॉडल को बहुत अधिक शक्तिशाली बनाता है, अर्थात मल्टी-मोडल भविष्यवाणियों को व्यक्त करने की अनुमति देता है या यह आत्मविश्वास का आकलन करता है। ध्यान दें कि उत्तरार्द्ध अन्य तरीकों से स्वाभाविक रूप से प्राप्त किया जा सकता है, उदाहरण के लिए वैरिएबल ऑटोकेन्सर के रूप में एक स्पष्ट (लॉग) विचरण उत्पादन करके।

वैसे भी, यह दृष्टिकोण अधिक आयामी आउटपुट के लिए अच्छी तरह से पैमाने पर नहीं है, क्योंकि तब आउटपुट परत का आकार तेजी से बढ़ता है, जिससे यह कम्प्यूटेशनल और मॉडलिंग दोनों मुद्दों को बनाता है।


1
मैं देख रहा हूं कि आप क्या कह रहे हैं, लेकिन मैं व्यक्तिगत रूप से आपके आउटपुट स्पेस को "प्रतिगमन" के रूप में प्रदर्शित करने पर विचार नहीं करूंगा क्योंकि यह वर्गीकरण का उपयोग करके एक प्रतिगमन समस्या का अनुमान लगा रहा है ... लेकिन मुझे लगता है कि यह सिर्फ शब्दावली / सम्मेलन की बात है।
जैककेव

1
माना। 32-बिट फ़्लोट स्पेस वैसे भी असतत है :-)
समर्पण

-1

मैंने इस प्रश्न पर दोबारा विचार किया है क्योंकि अब मैं पहले से स्वीकार किए गए उत्तर से असहमत हूं। क्रॉस एन्ट्रापी लॉस का उपयोग प्रतिगमन में किया जा सकता है (हालांकि यह आम नहीं है।)

यह इस तथ्य से नीचे आता है कि क्रॉस-एन्ट्रॉपी एक अवधारणा है जो केवल दो संभावना वितरणों की तुलना करते समय समझ में आता है। आप एक तंत्रिका नेटवर्क पर विचार कर सकते हैं जो एक सामान्य वितरण के लिए औसत और मानक विचलन को इसकी भविष्यवाणी के रूप में आउटपुट करता है। इसके बाद खराब भविष्यवाणियों के बारे में अधिक आश्वस्त होने के लिए अधिक कठोर दंड दिया जाएगा। तो हाँ, यह समझ में आता है, लेकिन केवल तभी जब आप किसी अर्थ में वितरण का उत्पादन कर रहे हों। मेरे मूल प्रश्न के लिए एक टिप्पणी में @SiddharthShakya से लिंक यह दिखाता है।


1
यह उत्तर इस प्रश्न का उत्तर देने के लिए एक अलग तरीके से लगता है। आप जिन कार्यों से जुड़े हैं, वे एक विशिष्ट प्रकार के क्रॉस-एन्ट्रापी नुकसान के बारे में हैं, और आपका प्रश्न यह पूछने लगता है कि क्या उन कार्यों को प्रतिगमन में उपयोग किया जा सकता है, और मेरा उत्तर इस तरह लिखा है जैसे कि आप पूछ रहे हैं कि उन कार्यों का उपयोग कैसे करें आप लिंक करें यहाँ सवाल का जवाब लगता है "क्या वर्गीकरण से परे क्रॉस-एन्ट्रापी को सामान्यीकृत किया जा सकता है?" क्यू को संपादित करने से यह स्पष्ट हो जाएगा कि फोकस इस बात पर है कि गणितीय अवधारणाओं को कैसे परिभाषित किया जाता है, बजाय इसके कि टेंसोरफ्लो फ़ंक्शन का उपयोग कैसे किया जाए।
साइकोरैक्स का कहना है कि मोनिका

मुझे आपकी आपत्ति समझ में आती है, लेकिन मैं इस सवाल को छोड़ने की योजना बना रहा हूं क्योंकि यह मेरी मूल क्वेरी का प्रतिनिधित्व करता है जो मुझे लगता है कि उसी प्रश्न वाले लोगों की मदद कर सकता है। किसी भी दर पर, संपूर्ण पोस्ट में समग्र जानकारी होनी चाहिए।
जेकाउन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.