तंत्रिका नेटवर्क भविष्यवाणी के विश्वास का निर्धारण कैसे करें?


22

मेरे प्रश्न का वर्णन करने के लिए, मान लीजिए कि मेरे पास एक प्रशिक्षण सेट है जहां इनपुट में शोर की डिग्री है, लेकिन आउटपुट उदाहरण के लिए नहीं है;

# Training data
[1.02, 1.95, 2.01, 3.06] : [1.0]
[2.03, 4.11, 5.92, 8.00] : [2.0]
[10.01, 11.02, 11.96, 12.04] : [1.0]
[2.99, 6.06, 9.01, 12.10] : [3.0]

यहाँ आउटपुट इनपुट ऐरे का ग्रेडिएंट है यदि यह नीरव (वास्तविक ग्रेडिएंट नहीं) था।

नेटवर्क को प्रशिक्षित करने के बाद, आउटपुट को दिए गए इनपुट के लिए कुछ इस तरह दिखना चाहिए।

# Expected Output
[1.01, 1.96, 2.00, 3.06] : 95% confidence interval of [0.97, 1.03]
[2.03, 4.11, 3.89, 3.51] : 95% confidence interval of [2.30, 4.12]

मेरा सवाल यह है कि एक तंत्रिका नेटवर्क कैसे बनाया जा सकता है कि यह एक अनुमानित मूल्य और आत्मविश्वास का एक उपाय लौटाएगा, जैसे कि एक विचरण या विश्वास अंतराल?


3
यदि आप एक ऐसे अंतराल की तलाश कर रहे हैं जिसमें भविष्य का बोध होगा , तो आप एक भविष्यवाणी-अंतराल की तलाश कर रहे हैं , न कि एक आत्मविश्वास-अंतराल की , जो अप्रमाणित मापदंडों से संबंधित है । यह अक्सर भ्रमित होता है।
एस। कोलासा -

जवाबों:


20

ऐसा लगता है कि आप एक तलाश कर रहे हैं , यानी, एक अंतराल जिसमें भविष्य की वास्तविकताओं का एक निर्धारित प्रतिशत होता है। ( लिए और लिए टैग विकी देखें ।)

आपका सबसे अच्छा दांव एनएन आर्किटेक्चर के साथ सीधे काम करने की संभावना है जो एकल बिंदु भविष्यवाणियों को आउटपुट नहीं करते हैं, लेकिन संपूर्ण भविष्य कहनेवाला वितरण । फिर आप इन वितरणों से सीधे इच्छित पूर्वानुमान अंतराल (या माध्य या मध्य बिंदु बिंदु भविष्यवाणियां) निकाल सकते हैं। मैं और अन्य यह तर्क देते रहे हैं कि भविष्यवाणियां वितरण भविष्यवाणियों की तुलना में बहुत अधिक उपयोगी हैं , लेकिन ईमानदार होने के लिए, मैंने अभी तक तंत्रिका जाल के साथ भविष्य कहनेवाला वितरण पर बहुत काम नहीं देखा है, हालांकि मैं अपनी आँखें खुली रख रहा हूं। यह कागज ऐसा लगता है जैसे यह उपयोगी हो सकता है। आप थोड़ा खोज करना चाह सकते हैं, शायद "पूर्वानुमान वितरण" या "पूर्वानुमान घनत्व" जैसे अन्य कीवर्ड का उपयोग कर रहे हैं।

उस ने कहा, आप माइकल Feindt के NeuroBayes एल्गोरिथ्म में देखना चाहते हैं , जो भविष्य कहनेवाला घनत्व का पूर्वानुमान करने के लिए एक बायेशियन दृष्टिकोण का उपयोग करता है।


1
यह एक और उपयोगी पेपर हो सकता है - एक तंत्रिका जाल जो वितरण सीखता है: google.com/…
Pro Q

@ स्टेफ़न: लिंक का निधन हो गया है: (
मैथ्यू ड्र्यू

@MatthewDrury: आपको किस लिंक से मतलब है? तीनों मेरे लिए ठीक काम कर रहे हैं।
एस। कोलासा - मोनिका

क्या आप हमें एनएन प्रेडिक्टिव डिस्ट्रीब्यूशन के साथ एक सरल टर्नसोरफ़्लो डेमो / उदाहरण के लिए ले जा सकते हैं?
मार्टिन थोरसेन

@ MartinThøgeren: क्षमा करें, नहीं, मैं Tensorflow का उपयोग नहीं करता ...
एस। कोलासा - मोनिका

5

मुझे यकीन नहीं है कि आप एक एकल भविष्यवाणी के लिए एक आत्मविश्वास अंतराल की गणना कर सकते हैं, लेकिन आप वास्तव में पूरे डेटासेट की त्रुटि दर के लिए एक विश्वास अंतराल की गणना कर सकते हैं (आप सटीकता के लिए सामान्यीकरण कर सकते हैं और जो भी अन्य उपाय आप आकलन कर रहे हैं)।

तो अपने त्रुटि दर है, जबकि कुछ डेटा को वर्गीकृत एस आकार के n , अपने त्रुटि दर के लिए एक 95% विश्वास अंतराल द्वारा दिया जाता है: ± 1.96 eSn

e±1.96e(1e)n

(टॉम मिशेल, अध्याय 5 से "मशीन लर्निंग" पुस्तक देखें)

संपादित करें

लगता है कि मैं एक अधिक सामान्य मामले, जो होनी चाहिए: जहाँzN केलिए सामान्य विकल्पनिम्न तालिका में सूचीबद्ध हैं:

e±zNe(1e)n,
zN
confidence level    80%    90%    95%    98%    99%
values of zN       1.28   1.64   1.96   2.33   2.58

1
इसके लिए यह आवश्यक होगा कि एसिम्प्टोटिक वितरण सामान्य हो
user2879934

4
बड़े नमूनों के आकार के लिए (जो कि एमएल में काफी सामान्य है) यह आम तौर पर सुरक्षित ती है। कोई ज़रूरत नहीं थी डाउनवोट, बस स्पष्टीकरण के लिए पूछें, लेकिन ओह अच्छी तरह से।
mp85

4

गैर पैरामीट्रिक प्रतिगमन और वर्गीकरण समस्याओं में भविष्यवाणी अंतराल (पीआई), जैसे कि तंत्रिका जाल, एसवीएम, यादृच्छिक वन, आदि का निर्माण मुश्किल है। मुझे इस पर अन्य राय सुनना अच्छा लगेगा।

हालाँकि, जहाँ तक मुझे पता है, गैर-घटक प्रतिगमन और वर्गीकरण समस्याओं में भविष्यवाणी के लिए कैलिब्रेटेड PI के निर्माण के लिए Conformal Prediction (CP) एकमात्र राजसी विधि है। सीपी पर एक ट्यूटोरियल के लिए, Shfer & Vovk (2008), जे। मशीन लर्निंग रिसर्च 9 , 371-421 [pdf] देखें


3

मैं किसी भी विधि को सटीक तरीके से करने के लिए नहीं जानता।

μσ(xi,yi)logN(yiμ(xi),σ(xi))μ(xi)yiσ(xi)

यह जांचने के लिए कि सत्यापन डेटा के लिए आपकी धारणाएँ कितनी अच्छी हैं, आप को देखना चाहते हैं।yiμ(xi)σ(xi)N(0,1)


1
σ+

क्या कोई ठोस उदाहरण है जो किसी एनएनएन का उपयोग करते हुए किसी वितरण मापदंडों के आउटपुट के लिए देखा जाता है, लॉग संभावना पर प्रशिक्षित?
मिस पामर

3

मैंने किसी भी विधि के बारे में नहीं सुना है जो तंत्रिका नेटवर्क भविष्यवाणी के लिए एक आत्मविश्वास अंतराल देता है। औपचारिक पद्धति की कमी के बावजूद, ऐसा लगता है कि यह एक निर्माण के लिए संभव हो सकता है। मैंने इसकी गणना कभी नहीं की है कि गणना शक्ति की आवश्यकता होगी और मुझे इस पर कोई दावा नहीं करना है कि कुछ के लिए काम कर रहा है, लेकिन एक विधि जो एक छोटे तंत्रिका जाल के लिए काम कर सकती है (या तेज जीपीयू शक्ति के साथ यह मध्यम आकार के जाल के लिए काम कर सकती है) ) एक ही पैरामीटर और प्रारंभिक सेटिंग्स के साथ प्रशिक्षण सेट को फिर से बनाना और कई समान नेटवर्क (10,000 गुना कहना) का निर्माण करना होगा, और अपने प्रत्येक बूटस्ट्रैप्ड नेट के लिए भविष्यवाणियों के आधार पर विश्वास अंतराल का निर्माण करना होगा।

उदाहरण के लिए, ऊपर चर्चा की गई 10,000 नेटवर्कों में, किसी को 2.0 (तंत्रिका जाल प्रतिगमन भविष्यवाणियों के दौर के बाद) 9,000 मिल सकती है, इसलिए आप 2.0 की 90% सीआई के साथ भविष्यवाणी करेंगे। तब आप किए गए प्रत्येक पूर्वानुमान के लिए CI की एक सरणी बना सकते हैं और प्राथमिक CI के रूप में रिपोर्ट करने के लिए मोड का चयन कर सकते हैं।


2
मुझे उत्सुकता होगी कि इस सुझाव को क्यों वोट दिया गया क्योंकि यह अनिवार्य रूप से थोड़ा अपरंपरागत तरीके से बूटस्ट्रैपिंग है (समस्या का गोलाई घटक यह जांचना आसान बनाता है कि भविष्यवाणी के बारे में तंत्रिका जाल कितना आश्वस्त है)। मैं वास्तव में डाउन वोट को बुरा नहीं मानता अगर जिसने भी इसे वोट दिया वह समझा सकता है कि यह प्रस्तावित प्रश्न का एक वैध समाधान क्यों नहीं है। मैं खुद सीख रहा हूं और प्रतिक्रिया की सराहना करूंगा!
टोनी एस

1
मैंने वोट नहीं दिया, लेकिन जिस चीज से मैं समझता हूं कि प्रस्तावित पद्धति उन अंतरालों का उत्पादन करेगी जो मॉडल के अनुमानित मूल्यों को कैप्चर करते हैं, यह उन अंतरालों के समान नहीं है जो सच्चे मूल्यों को कैप्चर करते हैं।
मिस पामर

3

भविष्यवाणी के सीधे अंतराल के आउटपुट के संदर्भ में, 2011 का एक पेपर है ' तंत्रिका नेटवर्क आधारित भविष्यवाणी अंतराल की व्यापक समीक्षा '

वे चार दृष्टिकोणों की तुलना करते हैं:

1: डेल्टा विधि 2: बायेसियन विधि 3: माध्य विचरण अनुमान 4: बूटस्ट्रैप

वही लेखक तंत्रिका नेटवर्क-आधारित भविष्यवाणी अंतराल के निर्माण के लिए लोअर अपर बाउंड एस्टिमेशन विधि विकसित करने के लिए गए थे जो सीधे एनएन से एक कम और ऊपरी सीमा का उत्पादन करता है। दुर्भाग्य से यह बैकप्रॉप के साथ काम नहीं करता है, लेकिन हाल ही में काम ने इसे संभव बनाया है, डीप लर्निंग के लिए उच्च-गुणवत्ता की भविष्यवाणी अंतराल

भविष्यवाणी उत्पादन अंतराल, बायेसियन न्यूरल नेटवर्क (बीएनएन) मॉडल के सीधे एनएनएन के मापदंडों में अनिश्चितता उत्पन्न करने के लिए वैकल्पिक है, और इसलिए आउटपुट पर अनिश्चितता को पकड़ता है। यह करना कठिन है, लेकिन लोकप्रिय तरीकों में भविष्यवाणी के समय, या अनुगामी पर एमसी ड्रॉपआउट चलाना शामिल है ।


1
यह वास्तव में बायेसियन डीप लर्निंग के साथ करना काफी आसान है। उदाहरण के लिए देखें edwardlib.org/tutorials/bayesian-neural-network
DeltaIV

2

वास्तव में ड्रॉपआउट का उपयोग करने के तरीके हैं। ड्रॉपआउट सक्षम के साथ मूल्यांकन चलाएं (यह आमतौर पर मूल्यांकन के लिए अक्षम होता है, लेकिन प्रशिक्षण के समय चालू होता है), और मूल्यांकन को कई बार चलाएं।

कई अलग-अलग रनों से परिणाम वितरण को विश्वास अंतराल के रूप में उपयोग किया जा सकता है।

पेपर " ड्रॉपआउट बायेसियन अप्रोचेशन: डीप लर्निंग में मॉडल अनिश्चितता का प्रतिनिधित्व करते हुए देखें" यूट्यूब प्रस्तुति एंड्रयू रोवन - एडवर्ड के साथ बायेशियन डीप लर्निंग (और ड्रॉपआउट का उपयोग करके एक चाल) देखें


1

कोई रास्ता नहीं है, सभी एमएल मॉडल घटनाओं की समझ के बारे में नहीं हैं, यह आशा के साथ प्रक्षेप तरीके हैं "यह काम करता है"। ऐसे सवालों के आत्मविश्वास के साथ शुरू करें, शोर करने के लिए मजबूत जवाब नहीं है।

तो कुछ प्राप्त करने के लिए कृपया विभिन्न लागू और मौलिक विज्ञान का उपयोग करें:

  • नियंत्रण का उपयोग करें (और गतिशीलता के बारे में धारणा बनाएं)

  • उत्तल अनुकूलन का उपयोग करें (फ़ंक्शन पर कुछ अतिरिक्त स्थिति के साथ)

  • गणित के आंकड़ों का उपयोग करें (वितरण पर प्रारंभिक मान्यताओं के साथ)

  • सिग्नल प्रोसेसिंग का प्रयोग करें (कुछ मान्यताओं के साथ कि सिग्नल बैंड सीमित है)

वैज्ञानिक कुछ प्राप्त करने के लिए कुछ प्रारंभिक धारणाओं (जिसे स्वयंसिद्ध कहा जाता है) का उपयोग करते हैं।

कुछ प्रारंभिक धारणा के बिना कोई आत्मविश्वास देने का कोई तरीका नहीं है, इसलिए डीएल मेहटॉड में समस्या नहीं है, लेकिन यह किसी भी पद्धति में समस्या है जो बिना किसी प्रारंभिक धारणा के हस्तक्षेप करने की कोशिश करता है-एक धारणा के बिना बौद्धिक रूप से कुछ बीजगणित के माध्यम से प्राप्त करने का कोई तरीका नहीं है।

एनएन और विभिन्न एमएल तरीके "कुछ" बनाने के लिए तेजी से प्रोटोटाइप के लिए हैं जो काम करता है "क्रॉसए-सत्यापन के साथ चेक किए गए किसी" को लगता है।

और भी अधिक गहराई से प्रतिगमन फिटिंग E [Y | X] या यह अनुमान लगाने में बिल्कुल गलत समस्या हो सकती है (शायद बिंदु Y = E [Y | X] में pdf न्यूनतम है, अधिकतम नहीं), और ऐसे बहुत सारे सूक्ष्म हैं। बातें।

मुझे एआई / एमएल में दो अयोग्य समस्याओं की याद दिलाएं, जो कि कुछ कारणों से हो सकती हैं, सौंदर्य नारों के पीछे भूल सकते हैं:

(1) यह प्रक्षेप विधियां हैं, एक्सट्रपलेशन नहीं - इसमें नई समस्याओं से निपटने की कोई क्षमता नहीं है

(२) कोई नहीं जानता कि कोई भी मॉडल डेटा पर कैसा व्यवहार करेगा जो समान वितरण से नहीं है (पैदल यात्री स्थानीयकरण के लिए केले की पोशाक में आदमी)


कैसे मॉडलिंग डेटा से त्रुटि के बारे में अनुमान के लिए "भविष्यवाणी" त्रुटि के लिए सेट करें?
जैको

यहां तक ​​कि मान लीजिए कि यह "भविष्यवाणियों_प्रकार_मान_अनुकूलित" + "पूर्वानुमान_रूप_रूप" है। आप किसी भी स्कीमा की कल्पना कर सकते हैं कि संकेत और त्रुटि की अलग से भविष्यवाणी करें। लेकिन एक और समय - अगर हम "केवल प्रक्षेप करते हैं" तो हम आत्मविश्वास से कुछ नहीं कह सकते। हम सतह पर तापमान की भविष्यवाणी करते हैं। हां आप यह कह सकते हैं कि मेरी भविष्यवाणी "20" है और त्रुटि के लिए भविष्यवाणी "5" है। इसलिए यह कहता है कि मुझे लगता है कि असली प्रतिक्रिया [20-5, 20 + 5] में है, लेकिन वास्तव में यह समझने के लिए कि इसका क्या मतलब है, हमें वास्तविक घटनाओं और गणितीय मॉडल को समझने की आवश्यकता है। और ML दोनों के बारे में नहीं है। अन्य क्षेत्र कुछ प्रारंभिक धारणाएँ बनाते हैं।
ब्रुज़ुज

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.