नमूना के बिना उच्च आयामी अनुमान समस्याओं में अनिश्चितता का अनुमान?


9

मैं एक उच्च-आयामी अनुमान समस्या (लगभग 2000 मॉडल पैरामीटर) पर काम कर रहा हूं, जिसके लिए हम ढाल-आधारित अनुकूलन और एक आनुवंशिक एल्गोरिथ्म के संयोजन का उपयोग करके लॉग-पोस्टेरियर का वैश्विक अधिकतम पता लगाकर एमएपी अनुमान को मजबूत करने में सक्षम हैं।

मैं MAP अनुमान ढूँढने के अलावा मॉडल मापदंडों पर अनिश्चितताओं के कुछ अनुमान लगाने में सक्षम होना चाहता हूं।

हम मापदंडों के संबंध में लॉग-पोस्टियर के ग्रेडिएंट को कुशलतापूर्वक गणना करने में सक्षम हैं, इसलिए दीर्घकालिक हम हैमिल्टनियन एमसीएमसी का उपयोग कुछ नमूना करने के लिए कर रहे हैं, लेकिन अब मैं गैर-नमूना आधारित अनुमानों में रुचि रखता हूं।

एकमात्र तरीका जो मुझे पता है कि हेसियन के व्युत्क्रम की गणना करने के लिए मोड में लगभग मल्टीवेरियेट सामान्य के रूप में अनुमानित है, लेकिन यहां तक ​​कि यह इतनी बड़ी प्रणाली के लिए संभव है, भले ही हम गणना करें हेसियन के तत्व मुझे यकीन है कि हम इसका उलटा नहीं पा सकते हैं।4×106

क्या कोई सुझाव दे सकता है कि इस तरह के मामलों में आमतौर पर किस तरह के दृष्टिकोण का उपयोग किया जाता है?

धन्यवाद!

EDIT - समस्या के बारे में अतिरिक्त जानकारी

पृष्ठभूमि
यह एक बड़े भौतिकी प्रयोग से संबंधित उलटा समस्या है। हमारे पास 2 डी त्रिकोणीय जाल है जो कुछ भौतिक क्षेत्रों का वर्णन करता है, और हमारे मॉडल पैरामीटर मेष के प्रत्येक शीर्ष पर उन क्षेत्रों के भौतिक मूल्य हैं। मेष में लगभग 650 कोने हैं, और हम 3 क्षेत्रों को मॉडल करते हैं, इसलिए हमारे 2000 मॉडल पैरामीटर कहाँ से आते हैं।

हमारा प्रायोगिक डेटा ऐसे उपकरणों से है जो इन क्षेत्रों को सीधे मापते नहीं हैं, लेकिन वे मात्राएँ जो खेतों के जटिल गैर-रेखीय कार्य हैं। प्रत्येक अलग-अलग उपकरणों के लिए हमारे पास एक फॉरवर्ड-मॉडल है जो प्रायोगिक डेटा की भविष्यवाणियों के लिए मॉडल मापदंडों को मैप करता है, और भविष्यवाणी और माप के बीच तुलना एक लॉग-लाइबिलिटी पैदा करता है।

हम फिर इन सभी विभिन्न उपकरणों से लॉग-लाइबिलिटीज को जोड़ते हैं, और कुछ लॉग-पूर्व मान भी जोड़ते हैं जो कुछ भौतिक बाधाओं को खेतों में लागू करते हैं।

नतीजतन, मुझे संदेह है कि यह 'मॉडल' बड़े पैमाने पर एक श्रेणी में आता है - हमारे पास यह विकल्प नहीं है कि मॉडल क्या है, यह निर्धारित किया जाता है कि वास्तविक उपकरण कैसे काम करते हैं जो हमारे प्रयोगात्मक डेटा को इकट्ठा करते हैं।

डेटा सेट
डेटा सेट 500x500 छवियों से बना है, और प्रत्येक कैमरे के लिए एक छवि है इसलिए कुल डेटा बिंदु 500x500x4 = ।106

त्रुटि मॉडल
हम समस्या में सभी त्रुटियों को वर्तमान में गाऊसी होने के लिए लेते हैं। कुछ बिंदु पर मैं सिर्फ कुछ अतिरिक्त लचीलेपन के लिए एक छात्र-टी त्रुटि मॉडल पर जाने की कोशिश कर सकता हूं, लेकिन अभी भी सिर्फ गॉसियन्स के साथ काम करना अच्छा लगता है।

संभावना उदाहरण
यह एक प्लाज्मा भौतिकी प्रयोग है, और हमारे डेटा का विशाल बहुमत केवल प्रकाश स्पेक्ट्रम के विशिष्ट भागों को देखने के लिए लेंस के सामने विशेष फिल्टर के साथ प्लाज्मा पर इंगित कैमरों से आता है।

डेटा को पुन: उत्पन्न करने के लिए दो चरण हैं; पहले हमें उस प्रकाश को मॉडल करना होगा जो कि मेष पर प्लाज्मा से आता है, फिर हमें उस प्रकाश को एक कैमरा छवि पर वापस लाना होगा।

दुर्भाग्य से प्लाज्मा से आने वाली प्रकाश की मॉडलिंग इस बात पर निर्भर करती है कि प्रभावी रूप से गुणांक क्या हैं, जो कहते हैं कि अलग-अलग प्रक्रियाओं द्वारा दिए गए क्षेत्रों में कितना प्रकाश उत्सर्जित होता है। इन दरों की भविष्यवाणी कुछ महंगे संख्यात्मक मॉडल द्वारा की जाती है, इसलिए हमें उनके आउटपुट को ग्रिड पर संग्रहीत करना होगा, और फिर मूल्यों को देखने के लिए प्रक्षेपित करना होगा। रेट फ़ंक्शन डेटा केवल एक बार गणना की जाती है - हम इसे स्टोर करते हैं फिर कोड शुरू होने पर उसमें से एक स्पिलिन बनाते हैं, और फिर उस स्पलाइन को सभी फ़ंक्शन मूल्यांकन के लिए उपयोग किया जाता है।

मान लें कि और रेट फ़ंक्शंस हैं (जिसे हम प्रक्षेप के द्वारा मूल्यांकन करते हैं), तो 'th vertex of the mesh पर द्वारा दिया जाता है जहां वे 3 फ़ील्ड हैं जो हम मेष पर मॉडल करते हैं। एक कैमरा छवि के लिए उत्सर्जन के वेक्टर को प्राप्त करना आसान है, यह सिर्फ एक मैट्रिक्स साथ गुणा है, जो प्रत्येक कैमरा पिक्सेल के जाल के किन हिस्सों को एनकोड करता है।R1R2iEi

Ei=R1(xi,yi)+ziR2(xi,yi)
(x,y,z)G

चूँकि त्रुटियाँ गौसियन हैं, इस विशेष कैमरे के लिए लॉग- तब

L=12(GEd)Σ1(GEd)

जहां कैमरा डेटा है। कुल लॉग- उपर्युक्त अभिव्यक्तियों में से 4 का योग है, लेकिन विभिन्न कैमरों के लिए, जिनमें सभी में अलग-अलग संस्करण हैं जो फ़ंक्शन क्योंकि वे प्रकाश स्पेक्ट्रम के विभिन्न भागों को देख रहे हैं।dR1,R2

पूर्व उदाहरण में
हमारे पास कई पुजारी हैं जो प्रभावी रूप से विभिन्न मात्राओं पर केवल कुछ ऊपरी और निचले सीमा निर्धारित करते हैं, लेकिन ये समस्या पर बहुत दृढ़ता से कार्य नहीं करते हैं। हमारे पास एक पूर्व है जो दृढ़ता से कार्य करता है, जो प्रभावी रूप से खेतों में लाप्लासियन-प्रकार चौरसाई पर लागू होता है। यह एक गाऊसी रूप भी लेता है:

log-prior=12xSx12ySy12zSz


1
क्या मॉडल आप फिटिंग कर रहे हैं? रेखीय प्रतिगमन? जीपी? एक पदानुक्रमित गणना मॉडल? कंप्यूटर मॉडल का बायेसियन अंशांकन? कृपया आपके द्वारा हल की जा रही समस्या पर अधिक विवरण जोड़ें, और मैं VI के पेशेवरों और विपक्षों के साथ उत्तर लिखूंगा।
12

1
@DeltaIV मैंने कुछ और जानकारी के साथ सवाल को अपडेट किया है - यह हो सकता है कि मैं उस बारे में विस्तार से नहीं बता पाया जो आप देख रहे थे। यदि ऐसा है तो मुझे बताएं और मैं एक और संपादन करूंगा, धन्यवाद!
CBowman

1
@DeltaIV फिर से धन्यवाद! अधिक जानकारी जोड़ी गई, मुझे बताएं कि क्या कुछ और है जो मैं जोड़ सकता हूं।
CBowman

1
@ डेटाप्लेइव डेटा 500x500 हैं, और प्रत्येक कैमरे के लिए एक है इसलिए कुल डेटा बिंदु 500x500x4 = । रेट फंक्शन डेटा को केवल एक बार गणना की जाती है - हम इसे स्टोर करते हैं फिर कोड शुरू होने पर उसमें से एक स्पलाइन बनाते हैं, और फिर उस फंक्शन को सभी फंक्शन मूल्यांकन के लिए उपयोग किया जाता है। 106
CBowman

1
मेरे पास कोई संदर्भ नहीं है, लेकिन मैट्रिक्स व्युत्क्रम की गणना करने के लिए बहुत कम रैंक सन्निकटन हैं। उदाहरण के लिए सबसे बड़ा eigenvalues ​​खोजें, शेष समान हैं, और निम्न eigenvalue के समान eigenvectors के लिए किसी न किसी सन्निकटन का उपयोग करें। मुझे पूरा यकीन है कि लगभग अनुमानित / पुनरावृत्ति करने वाले चोल्स्की डिकम्पोजिशन भी हैं जो सटीक मूल्य में परिवर्तित होते हैं। आपके द्वारा पुनरावृत्तियों को समाप्त करने के बाद, अधिकतम समय क्या है2000-
प्रायिकताश्लोगिक

जवाबों:


4

सबसे पहले, मुझे लगता है कि आपका सांख्यिकीय मॉडल गलत है। मैं आपके अंकन को एक और सांख्यिकीविद् से परिचित कराता हूं, इस प्रकार बदल देता हूं

=y=(y1,...,yएन), एन=106

अवलोकन (डेटा) के अपने वेक्टर हो, और

एक्स=θ=(θ1,...,θपी)y=φ=(φ1,...,φपी)z=ρ=(ρ1,...,ρपी), पी650

कुल आयाम के मापदंडों के आपके वैक्टर । फिर, अगर मैं सही ढंग से समझ गया, तो आप एक मॉडल मान लेते हैं=3पी2000

y=जीआर1(θ,φ)+ρजीआर2(θ,φ))+ε, ε~एन(0,मैंएन)

जहां है पट्टी प्रक्षेप मैट्रिक्स।जीएन×

यह स्पष्ट रूप से गलत है। एक ही कैमरे से छवि में विभिन्न बिंदुओं पर त्रुटियों का कोई रास्ता नहीं है, और विभिन्न कैमरों से छवियों में एक ही बिंदु पर स्वतंत्र हैं। आपको स्थानिक आँकड़े और मॉडल जैसे कि सामान्यीकृत कम से कम वर्ग, अर्धवृत्तात्मक अनुमान, सिंचाई, गौसियन प्रक्रियाएँ आदि देखने चाहिए।


यह कहते हुए कि, चूंकि आपका प्रश्न यह नहीं है कि क्या मॉडल वास्तविक डेटा जनरेट करने की प्रक्रिया का अच्छा अनुमान है, लेकिन इस तरह के मॉडल का अनुमान कैसे लगाया जाए, तो मैं आपको कुछ विकल्प दिखाऊंगा।

एचएमसी

2000 पैरामीटर एक बहुत बड़ा मॉडल नहीं है, जब तक कि आप इस चीज़ को लैपटॉप पर प्रशिक्षित नहीं करते हैं। डेटासेट बड़ा है ( डेटा पॉइंट्स), लेकिन फिर भी, यदि आपके पास क्लाउड इंस्टेंसेस या GPU के साथ मशीनें हैं, तो Pyro या Tensorflow Probability जैसे फ्रेमवर्क इस तरह की समस्या को कम कर देंगे। इस प्रकार, आप बस GPU द्वारा संचालित हैमिल्टनियन मोंटे कार्लो का उपयोग कर सकते हैं।106

पेशेवरों : चेन से नमूनों की एक अनंत संख्या की सीमा में "सटीक" अनुमान।

विपक्ष : अनुमान त्रुटि पर कोई तंग बाध्य नहीं है, कई अभिसरण नैदानिक ​​मीट्रिक मौजूद हैं, लेकिन कोई भी आदर्श नहीं है।

बड़ा नमूना सन्निकटन

संकेतन के दुरुपयोग के साथ, आइए अपने तीन मापदंडों के मापदंडों को हुए वेक्टर द्वारा प्राप्त किए गए वेक्टर को देखें। फिर, बायेसियन केंद्रीय सीमा प्रमेय (बर्नस्टीन-वॉन मिज़) का उपयोग करते हुए, आप साथ , जहां "सही" पैरामीटर मान है, है, जो MLE का का अनुमान है और फिशर सूचना मैट्रिक्स का मूल्यांकन है। । निस्संदेह, अज्ञात होने के कारण, हमθपी(θ|y)एन(θ0^n,मैंn-1(θ0))θ0θ0^nθ0मैंn-1(θ0)θ0θ0मैंn-1(θ0^n)बजाय। बर्नस्टीन-वॉन मिज़ प्रमेय की वैधता कुछ परिकल्पनाओं पर निर्भर करती है जो आप पा सकते हैं, ee g।, यहाँ : आपके मामले में, यह मानते हुए कि चिकनी और भिन्न हैं, प्रमेय मान्य है, क्योंकि एक गाऊसी का समर्थन है। पूर्व पूरे पैरामीटर स्थान है। या, बेहतर है, यह मान्य होगा , यदि आपका डेटा वास्तव में iid था जैसा कि आप मानते हैं, लेकिन मुझे विश्वास नहीं है कि वे हैं, जैसा कि मैंने शुरुआत में समझाया था।आर1,आर2

पेशेवरों : विशेष रूप से मामले में उपयोगी है । Iid सेटिंग में, सही उत्तर में धर्मान्तरित होने की गारंटी, जब संभावना चिकनी और भिन्न हो और पूर्व में पड़ोस में ।पी<<एनθ0

विपक्ष : सबसे बड़ा चोर, जैसा कि आपने नोट किया, फिशर सूचना मैट्रिक्स को पलटने की आवश्यकता है। इसके अलावा, मुझे नहीं पता होगा कि कैसे अनुमानित रूप से सटीकता का न्याय किया जा सकता है, से नमूने खींचने के लिए MCMC नमूना का उपयोग करने की कमी । बेशक, यह पहली जगह में बी-वीएम का उपयोग करने की उपयोगिता को हरा देगा।पी(θ|y)

परिवर्तन संबंधी अनुमान

इस मामले में, सटीक खोजने के बजाय (जिसमें एक -अभिन्न इंटीग्रल की गणना की आवश्यकता होगी ), हम साथ अनुमानित को चुनते हैं। , जहां पैरामीट्रिक परिवार है, जिसे वेक्टर वेक्टर द्वारा अनुक्रमित किया गया है । हम और बीच विसंगति के कुछ माप को देखते हुए को देखते हैं। केएल विचलन होने के लिए इस उपाय को चुनना, हम भिन्नता संबंधी विधि प्राप्त करते हैं:पी(θ|y)-पीक्षφ(θ)क्षक्यूφφφ*क्षपी

φ*=आरजीमैंnφΦडीएल(क्षφ(θ)||पी(θ|y))

पर आवश्यकताओं के :क्षφ(θ)

  • यह संबंध में भिन्न होना चाहिए , ताकि हम बड़े पैमाने पर अनुकूलन के लिए तरीकों को लागू कर सकें, जैसे कि स्टोचस्टिक ग्रेडिएंट डिसेंट, कम से कम समस्या को हल करने के लिए।φ
  • यह इतना लचीला होना चाहिए कि यह कुछ मान के लिए लगभग को सटीक रूप से अनुमानित कर सके , लेकिन इतना सरल भी है कि इससे नमूना लेना आसान है। ऐसा इसलिए है क्योंकि केएल डाइवर्जेंस (हमारे अनुकूलन उद्देश्य) का अनुमान लगाने के लिए एक अपेक्षा wrt अनुमान लगाना आवश्यक है ।पी(θ|y)φक्ष

आप पूरी तरह से फैक्टराइज्ड होने के लिए को चुन सकते हैं , अर्थात, univariate प्रायिकता वितरण के उत्पाद :क्षφ(θ)

क्षφ(θ)=Πमैं=1क्षφमैं(θमैं)

यह तथाकथित माध्य-क्षेत्र भिन्न-भिन्न खाड़ी विधि है। कोई भी साबित कर सकता है (देखें, उदाहरण के लिए, इस पुस्तक के अध्याय 10 ) कि प्रत्येक कारक लिए इष्टतम समाधान हैक्षφजे(θजे)

लॉगक्षजे*(θजे)=मैंजे[लॉगपी(y,θ)]+स्थिरांक।

जहां मापदंडों और डेटा का संयुक्त वितरण है (आपके मामले में, यह आपके गाऊसी संभावना और मापदंडों पर गाऊसी पादरियों का उत्पाद है) और उम्मीद अन्य चर के संबंध में है univariate वितरण । बेशक, चूंकि कारकों में से एक के लिए समाधान सभी अन्य कारकों पर निर्भर करता है, इसलिए हमें सभी पुनरावृत्तियों को लागू करना होगा, सभी वितरणों को शुरू करते हुए को कुछ प्रारंभिक अनुमान और फिर पुनरावृत्तियों में से एक को अपडेट करना होगा। एक बार ऊपर के समीकरण के साथ। ध्यान दें कि एक रूप में ऊपर उम्मीद की गणना के बजायपी(y,θ)क्ष1*(θ1),...,क्षजे-1*(θजे-1),क्षजे+1*(θजे+1),...,क्ष*(θ)क्षमैं(θमैं)(-1)-आयामी अभिन्न, जो आपके मामले में निषेधात्मक होगा जहां पादरियों और संभावना को संयुग्मित नहीं किया जाता है, आप अपेक्षा को अनुमानित करने के लिए मोंटे कार्लो अनुमान का उपयोग कर सकते हैं।

माध्य-क्षेत्र भिन्नता संबंधी बेयर्स अल्गोरिद्म एकमात्र संभव VI एल्गोरिथ्म नहीं है जिसका आप उपयोग कर सकते हैं: किंग्मा एंड वेलिंग, 2014 में प्रस्तुत वैरिएंट आटोकेनोडर , "आटो-एन्कोडिंग वैरेशनल बेसेस " एक दिलचस्प विकल्प है, जहां, एक पूर्ण रूप से कारक रूप ग्रहण करने के बजाय, के लिए , और उसके बाद के लिए एक पूर्ण-सूत्र अभिव्यक्ति पाने , मल्टीवेरिएट गाऊसी माना जाता है, लेकिन में से प्रत्येक में संभवतः विभिन्न मापदंडों के साथ डेटा बिंदुओं। अनुमान की लागत को बढ़ाने के लिए, एक न्यूरल नेटवर्क का उपयोग इनपुट स्पेस को वैरिएबल पैरामीटर स्पेस में मैप करने के लिए किया जाता है। एल्गोरिथ्म के विस्तृत विवरण के लिए पेपर देखें: VAE कार्यान्वयन सभी प्रमुख डीप लर्निंग फ्रेमवर्क में फिर से उपलब्ध हैं।क्षक्षमैंक्षएन


वीबी स्वतंत्रता मॉडल सटीकता उपायों के लिए एक भयानक दृष्टिकोण हो सकता है । यह आमतौर पर एक प्लग-इन प्रकार के समायोजन के बिना होता है। सरल उदाहरण आप में स्वतंत्रता की "डिग्री" का उपयोग नहीं कर रहे हैं और टी वितरण के बजाय सामान्य का उपयोग कर। विशेष रूप से अति मानकों के लिए एक समस्यारों2
probabilityislogic

@ डेल्टिव आमतौर पर सांख्यिकीय मॉडल वास्तव में बहुत अच्छा होता है, विभिन्न कैमरों के बीच की त्रुटियां बहुत अधिक स्वतंत्र होती हैं, और एक ही कैमरे में अलग-अलग पिक्सेल मूल रूप से स्वतंत्र होने के लिए जा रहे हैं जब तक कि वे शाब्दिक रूप से आसन्न न हों। हम एक गाऊसी प्रक्रिया की संभावना का उपयोग करके आसन्न पिक्सल में कुछ स्थानिक सहसंबंध को सांकेतिक शब्दों में बदलना कर सकते हैं, लेकिन इससे हमें या तो सीधे तौर पर सहसंयोजक मैट्रिक्स को पलटना होगा, या हर बार एक विरल रैखिक प्रणाली को हल करना होगा जो संभावना का मूल्यांकन करना चाहते हैं, जो बहुत अधिक है महंगा (हालांकि सवाल से बाहर नहीं)।
CBowman

2

आप "बायेसएक्स" सॉफ़्टवेयर में से कुछ को देखना चाहते हैं और संभवतः "इनला" सॉफ़्टवेयर को भी। इन दोनों में कुछ विचार होने की संभावना है जो आप कोशिश कर सकते हैं। यह गूगल

दोनों ही सटीक मैट्रिक्स (Ie सशर्त स्वतंत्रता, मार्कोव टाइप मॉडल) के पैरामीटराइजेशन में बहुत कम निर्भरता पर भरोसा करते हैं - और इसके लिए डिज़ाइन किया गया उलटा एल्गोरिदम है। अधिकांश उदाहरण मल्टी लेवल या ऑटो रिग्रेसिव गासियन मॉडल पर आधारित होते हैं। आपके द्वारा पोस्ट किए गए उदाहरण के समान होना चाहिए

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.