क्रमिक डेटा आउटपुट करने के लिए तंत्रिका नेटवर्क कैसे सेट करें?

मेरे पास एक तंत्रिका नेटवर्क है जो कुछ का अनुमान लगाने के लिए सेट किया गया है जहां आउटपुट चर सामान्य है। मैं नीचे तीन संभावित आउटपुट ए <बी <सी का उपयोग करके वर्णन करूंगा।

यह स्पष्ट है कि कैसे एक न्यूरल नेटवर्क का उपयोग श्रेणीबद्ध डेटा के उत्पादन के लिए किया जाता है: आउटपुट अंतिम (आमतौर पर पूरी तरह से जुड़ा हुआ) परत का एक सॉफ्टमैक्स है, प्रति श्रेणी, और पूर्वानुमानित श्रेणी सबसे बड़े आउटपुट मान के साथ एक है (यह है) कई लोकप्रिय मॉडल में डिफ़ॉल्ट)। मैं अध्यादेश के मूल्यों के लिए एक ही सेटअप का उपयोग कर रहा हूं। हालांकि, इस मामले में आउटपुट अक्सर समझ में नहीं आते हैं, उदाहरण के लिए ए और सी के लिए नेटवर्क आउटपुट उच्च हैं, लेकिन बी कम है: यह सामान्य मूल्यों के लिए प्रशंसनीय नहीं है।

मुझे इसके लिए एक विचार है, जो कि ए के लिए 1 0 0, बी के लिए 1 1 0 और सी के लिए 1 1 1 के साथ आउटपुट की तुलना के आधार पर नुकसान की गणना करना है। सटीक थ्रेसहोल्ड को बाद में एक और क्लासिफायरियर (जैसे बायेसियन) का उपयोग करके ट्यून किया जा सकता है ) लेकिन यह किसी विशिष्ट अंतराल पैमाने को निर्धारित किए बिना, इनपुट के आदेश के आवश्यक विचार पर कब्जा करने के लिए लगता है।

इस समस्या को हल करने का मानक तरीका क्या है? क्या कोई शोध या संदर्भ है जो विभिन्न दृष्टिकोणों के पेशेवरों और विपक्षों का वर्णन करता है?

neural-networks ordinal-data softmax

— एलेक्स मैं
स्रोत

मैं "क्रमसूचक रसद प्रतिगमन" जैसे के लिए गूगल पर दिलचस्प हिट के बहुत सारे मिल गया इस पत्र

— shadowtalker

@ssdecontrol: दिलचस्प। मैं इसे करने की कोशिश की; परिणाम उच्चतम मूल्य के साथ एक आउटपुट को लेने से बेहतर थे लेकिन अन्य तरीकों (भोले बेसेसियन, आदि) की तुलना में थोड़ा खराब थे। यह उपयोगी है, लेकिन यह नेटवर्क को प्रशिक्षित करने में मदद नहीं करता है, केवल इस तथ्य के बाद परिणामों में थोड़ा सुधार करता है ... या कम से कम मैं यह नहीं देखता कि यह नेटवर्क को प्रशिक्षित करने में कैसे मदद करता है।

— एलेक्स I

आपने कौन सी "कोशिश" की? मेरा एकमात्र बिंदु यह है कि सर्च इंजन आपकी अपेक्षा से अधिक मददगार हो सकता है

— शैडोअल्केर

इसके अलावा, मुझे यकीन नहीं है कि मैं समझता हूं कि "ए और सी के लिए नेटवर्क आउटपुट उच्च हैं, लेकिन बी कम है: यह प्रशंसनीय नहीं है"। आपका मतलब है कि आप बहुत से As और Cs लेकिन कुछ Bs की भविष्यवाणी कर रहे हैं? जब तक आपके पास ऐसा करने के लिए पर्याप्त या डोमेन-विशिष्ट कारण नहीं है, तब तक मुझे यह नहीं देखना चाहिए कि क्यों

— छायाकार

मैं यह भी नहीं जानता कि आप कभी भी "1 1 0" जैसे आउटपुट कैसे प्राप्त कर सकते हैं। मुझे लगता है कि यहां शब्दावली के बारे में कुछ भ्रम है। क्या आप संचयी क्रमिक परिणामों का वर्णन कर रहे हैं? एक संचयी लॉगिन मॉडल के रूप में?

— छायाकार

$K$ $K$

लेकिन कुछ लोग आपके क्रमिक वर्गों के लिए एक चतुर एन्कोडिंग का आविष्कार करने में कामयाब रहे हैं (यह स्टैकओवरफ़्लो उत्तर देखें )। यह एक तरह से एक गर्म एन्कोडिंग है,

कक्षा 1 को [0 0 0 0 ...] के रूप में दर्शाया गया है
कक्षा 2 को [1 0 0 0 ...] के रूप में दर्शाया गया है
कक्षा 3 को [1 1 0 0 ...] के रूप में दर्शाया गया है

$P(\hat y < k)$ np.sum

यह रणनीति फ्रैंक और हॉल से पहनावा जैसा दिखता है , और मुझे लगता है कि यह इस तरह का पहला प्रकाशन है।

— रिकार्डो क्रूज़
स्रोत

यह दृष्टिकोण बहुत अधिक आकर्षक लगता है। यह महसूस करना महत्वपूर्ण है कि इसे वर्गीकरण समस्या में बदलने के लिए पूर्वानुमानित मोड का उपयोग करना एक अच्छा विचार नहीं है। अनुमानित संचयी संभावनाओं को अनुमानित व्यक्तिगत संभावनाओं में बदल दिया जा सकता है, और इसलिए अंतिम निर्णय लेने के लिए उपयोगिता फ़ंक्शन को बहुत बाद में डाला जा सकता है जब उपयोगिताओं को जाना जाता है। Fharrell.com/post/classification देखें ।

— फ्रैंक हरेल

@ रिकार्डोक्रूज़ - हम्म, जो मैंने सुझाया था, बहुत कुछ लगता है: "ए के लिए 1 0 0, बी के लिए 1 1 0 और सी के लिए 1 1"। यह जानकर अच्छा लगा कि काम करता है! यह भी वाह कि 2007 से एक पेपर था, यह विचार लंबे समय से

— रहा है

हाँ, मुझे आश्चर्य हुआ जब मैंने उस कागज को पाया!

— रिकार्डो क्रूज़

नोट: जैसा कि "ए न्युरल नेटवर्क अप्रोच टू ऑर्डिनल रिग्रेशन" में कहा गया है: "... आउटपुट नोड्स के लिए स्वतंत्र सिग्मॉइड फ़ंक्शन का उपयोग करना मोनोटोनिक संबंध (o1> = o2> = .... = = oK) की गारंटी नहीं देता है, जो है आवश्यक नहीं है, लेकिन भविष्यवाणियां करने के लिए वांछनीय है। ” इसलिए, भविष्यवाणी के समय केवल "np.sum" का प्रदर्शन करना सबसे अच्छा तरीका नहीं है।

— sccrthlt

मेरी टिप्पणी के ऊपर संपादित करें: तंत्रिका नेटवर्क के आउटपुट पर "np.sum" करना भ्रामक है। निम्न स्थिति उत्पन्न हो सकती है जहां आउटपुट वेक्टर [0 1 0 1 0 0] है। इस सदिश पर एक सम्‍मिलन करने पर 2 के वर्ग पूर्वानुमान का निर्माण होगा, जब वास्तव में तंत्रिका नेटवर्क अनिश्चित होता है।

— sccrthlt