क्या मशीन लर्निंग या डीप लर्निंग एल्गोरिदम का उपयोग एमसीएमसी तकनीक की नमूना प्रक्रिया को "बेहतर" करने के लिए किया जा सकता है?


21

MCMC (मार्कोव चेन मोंटे कार्लो) के बारे में मेरे पास जो थोड़ा ज्ञान है, उसके आधार पर, मैं समझता हूं कि नमूना उपरोक्त तकनीक का एक महत्वपूर्ण हिस्सा है। सबसे अधिक इस्तेमाल किए जाने वाले नमूने के तरीके हैंमिल्टन और मेट्रोपोलिस हैं।

क्या अधिक कुशल MCMC नमूना बनाने के लिए मशीन लर्निंग या डीप लर्निंग का उपयोग करने का कोई तरीका है?


5
क्या आप बता सकते हैं कि आपके मन में किस तरह का "सुधार" है और आप इसे सीखने में मशीन की भूमिका को कैसे देखते हैं ..?
टिम

2
आम तौर पर, MCMC में आमतौर पर बिना किसी बंद फॉर्म वाले भावों से मूल्यों का आकलन करना शामिल होता है जो विश्लेषणात्मक समाधान खोजने के लिए बहुत जटिल होते हैं। यह संभव है कि बहुभिन्नरूपी क्लस्टरिंग (या समान दृष्टिकोण) का उपयोग सरल बहुभिन्नरूपी घनत्व का अनुमान लगाने के लिए किया जा सकता है, लेकिन मैं इसे एमसीएमसी का उपयोग करने के विकल्प के रूप में अधिक देखूंगा।
एडम जूल

1
@ अदमो, उसे उत्तर में परिवर्तित क्यों नहीं किया? ऐसा लगता है कि यह उतना अच्छा हो सकता है जितना हम यहां पहुंच सकते हैं।
गुंग - को पुनः स्थापित मोनिका

@ समय पर, जो मैंने पढ़ा है, एमसीएमसी ने ह्रासमान मात्रा की गणना करने के लिए वितरण से नमूने खींचे। एमएच एल्गोरिथ्म बेतरतीब ढंग से "स्थान" उठाता है और फिर स्वीकार्य होने पर जोर देता है। क्या मैं सोच रहा था कि क्या एमएल वैकल्पिक तकनीकें हैं। मुझे पता है कि यह अस्पष्ट लगता है, और मैं इसके लिए माफी मांगता हूं, लेकिन मुझे एमसीएमसी पेचीदा लगता है और मैं स्वयं अध्ययन करके सिद्धांत और व्यावहारिक अनुप्रयोगों पर पकड़ बनाने की कोशिश कर रहा हूं।
जेसपेर

जवाबों:


27

हाँ। अन्य उत्तरों के विपरीत, 'ठेठ' मशीन-सीखने के तरीके जैसे कि नॉनपरमेट्रिक्स और (डीप) न्यूरल नेटवर्क बेहतर एमसीएमसी नमूने बनाने में मदद कर सकते हैं।

MCMC का लक्ष्य एक (असमान्य) लक्ष्य वितरण से नमूने खींचना है । प्राप्त नमूनों का उपयोग लगभग किया जाता है और ज्यादातर (यानी, उच्च-आयामी इंटीग्रल्स) के तहत कार्यों की अपेक्षाओं की गणना करने की अनुमति देता है और, विशेष रूप से, गुण (जैसे क्षण)।f (एक्स)

सैम्पलिंग को आमतौर पर हैमिल्टन मोंटे कार्लो (HMC) जैसे तरीकों के लिए बड़ी संख्या में के मूल्यांकन की आवश्यकता होती है , और संभवतः इसके ढाल की भी। यदि का मूल्यांकन करना महंगा है, या ढाल अनुपलब्ध है, तो कभी-कभी कम खर्चीला सरोगेट फ़ंक्शन का निर्माण करना संभव होता है जो नमूने को निर्देशित करने में मदद कर सकता है और स्थान पर मूल्यांकन किया (एक तरह से जो अभी भी MCMC के गुणों को संरक्षित करता है)।F

उदाहरण के लिए, एक मौलिक कागज ( रासमुसेन 2003 ) का उपयोग करने का प्रस्ताव गाऊसी प्रक्रियाओं (एक nonparametric समारोह अनुमान) के लिए एक सन्निकटन निर्माण करने के लिए और एच एम सी के ही स्वीकृति / अस्वीकृति कदम के आधार पर के साथ, सरोगेट समारोह पर एचएमसी प्रदर्शन । यह मूल के मूल्यांकन की संख्या को कम करता है , और MCMC को pdfs पर प्रदर्शन करने की अनुमति देता है जो अन्यथा मूल्यांकन के लिए बहुत महंगा होगा।f लॉग

MCMC को तेज करने के लिए सरोगेट का उपयोग करने के विचार को पिछले कुछ वर्षों में बहुत अधिक खोजा गया है, अनिवार्य रूप से सरोगेट फ़ंक्शन के निर्माण के विभिन्न तरीकों की कोशिश करके और इसे कुशलतापूर्वक / अनुकूल रूप से अलग-अलग MCMC विधियों (और एक तरह से जो 'शुद्धता बनाए रखता है) के संयोजन से किया जाता है। 'एमसीएमसी नमूनाकरण)। आपके प्रश्न से संबंधित, ये दो बहुत हाल के कागजात उन्नत मशीन लर्निंग तकनीक - रैंडम नेटवर्क ( झांग एट अल। 2015 ) या सरोगेट फ़ंक्शन बनाने के लिए अनुकूलनीय कर्नेल फ़ंक्शंस ( स्ट्रैथमैन एट अल 2015 ) का उपयोग करते हैं।

एचएमसी एमसीएमसी का एकमात्र रूप नहीं है जो सरोगेट्स से लाभान्वित हो सकता है। उदाहरण के लिए, निशिरा एट अल। (२०१४) एक मल्टीवेरेट स्टूडेंट के डिस्ट्रीब्यूशन को एक असेम्बल सैंपलर की मल्टी-चेन स्टेट में फिट करके लक्ष्य घनत्व का एक अनुमान बनाएँ , और इसका उपयोग अण्डाकार स्लाइस सैम्पलिंग के सामान्यीकृत रूप को करने के लिए करें ।टी

ये केवल उदाहरण हैं। सामान्य तौर पर, कई अलग-अलग एमएल तकनीकों (ज्यादातर फ़ंक्शन सन्निकटन और घनत्व के आकलन के क्षेत्र में) का उपयोग उन सूचनाओं को निकालने के लिए किया जा सकता है जो एमसीएमसी के नमूने की दक्षता में सुधार कर सकते हैं । उनकी वास्तविक उपयोगिता - जैसे "प्रति सेकंड प्रभावी प्रभावी नमूनों" की संख्या में मापा जाता है - महंगा होने या गणना करने के लिए कुछ हद तक सशर्त है ; इसके अलावा, इन विधियों में से कई को अपने स्वयं के या अतिरिक्त ज्ञान के ट्यूनिंग की आवश्यकता हो सकती है, जिससे उनकी प्रयोज्यता सीमित हो जाती है।

संदर्भ:

  1. रासमुसेन, कार्ल एडवर्ड। "गॉसियन महंगा बायेसियन इंटीग्रल्स के लिए हाइब्रिड मोंटे कार्लो को गति देने की प्रक्रिया करता है।" बायसियन सांख्यिकी 7. 2003।

  2. झांग, चेंग, बाबक शाहबाबा, और होंगकाई झाओ। "हैमिल्टनियन मोंटे कार्लो एक्सीलरेशन रैंडम बेस के साथ सरोगेट फंक्शंस का उपयोग कर।" arXiv प्रीप्रिंट arXiv: 1506.05555 (2015)।

  3. स्ट्रैथमैन, हेइको, एट अल। "कुशल कर्नेल घातीय परिवारों के साथ स्नातक-मुक्त हैमिल्टन मोंटे कार्लो।" न्यूरल इन्फर्मेशन प्रोसेसिंग सिस्टम्स में प्रगति। 2015।

  4. निशिहारा, रॉबर्ट, इयान मरे और रयान पी। एडम्स। "सामान्यीकृत अण्डाकार स्लाइस नमूने के साथ समानांतर MCMC।" जर्नल ऑफ़ मशीन लर्निंग रिसर्च 15.1 (2014): 2087-2112।


2
मुझे यकीन नहीं है कि आपके द्वारा सूचीबद्ध तरीके वास्तव में "मशीन लर्निंग के तरीकों" की श्रेणी में हैं, बल्कि केवल मानक एमसीएमसी तरीके हैं (हालांकि यह लाइनों का सबसे धुंधला है)। केवल वही जो निश्चित रूप से एक एमएल / डीएल विधि लगता है 3 था , जो तब से "तंत्रिका नेटवर्क" को शीर्षक से हटा दिया है (और पाठ में स्वीकार करना लगता है कि मानक एमएल विधियों का उपयोग करना बहुत धीमा होगा)।
क्लिफ एबी

2
@ क्लिफब धन्यवाद। मैं मानता हूं कि इन विधियों में से कुछ के लिए रेखा थोड़ी धुंधली है (उदाहरण के लिए, 4 एक साधारण छात्र के फिट का उपयोग करता है - लेकिन उनकी विधि कुछ अधिक जटिल घनत्व अनुमान तकनीक का उपयोग कर सकती है)। बाकी के लिए, ठीक है, यह इस बात पर निर्भर करता है कि आप जीपीआर या घनत्व अनुमान, एक एमएल तकनीक या नहीं जैसे फ़ंक्शन (नॉनपैमेट्रिक) फ़ंक्शन सन्निकटन पर विचार करते हैं या नहीं। यदि आप पर्याप्त नहीं हैं, लेकिन मुझे यकीन नहीं है कि एक एमएल तकनीक क्या है । (ओपी ने एमसीएमसी को बेहतर बनाने के लिए एमएल या डीएल तकनीकों के लिए कहा ।)टी
लैकर्बी

1
बहुत बहुत शुक्रिया @lacerbi मुझे खुशी है कि मैं आगे के शोध के लिए आपके संदर्भों को आधार के रूप में उपयोग कर सकता हूं।
जेसपर

6

एक विधि जो दो अवधारणाओं को जोड़ सकती है वह है एक बहुभिन्नरूपी मेट्रोपोलिस हेस्टिंग्स एल्गोरिथम। इस मामले में, हमारे पास एक लक्ष्य वितरण (पीछे वितरण) और एक प्रस्ताव वितरण (आमतौर पर एक बहुभिन्नरूपी सामान्य या टी-वितरण) है।

एक सर्वविदित तथ्य यह है कि प्रस्ताव वितरण आगे वितरण से है, कम कुशल नमूना है। इसलिए एक प्रस्ताव वितरण का निर्माण करने के लिए किसी प्रकार की मशीन लर्निंग विधि का उपयोग करने की कल्पना की जा सकती है जो एक साधारण बहुभिन्नरूपी सामान्य / टी वितरण की तुलना में सही पीछे वितरण के लिए बेहतर रूप से मेल खाती है।

हालांकि, यह स्पष्ट नहीं है कि यह दक्षता में कोई सुधार होगा। गहन शिक्षण का सुझाव देकर, मुझे लगता है कि आप किसी प्रकार के तंत्रिका नेटवर्क दृष्टिकोण का उपयोग करने में रुचि रख सकते हैं। ज्यादातर मामलों में, यह हो सकता है काफी अधिक computationally पूरे वेनिला एमसीएमसी विधि से भी महंगा है। इसी तरह, मैं किसी भी कारण से नहीं जानता कि एनएन विधियां (या यहां तक ​​कि अधिकांश मशीन सीखने के तरीके) मनाया स्थान के बाहर पर्याप्त घनत्व प्रदान करने का एक अच्छा काम करते हैं , जो एमसीएमसी के लिए महत्वपूर्ण है। यहां तक ​​कि मशीन सीखने के मॉडल के निर्माण से जुड़ी कम्प्यूटेशनल लागतों को नजरअंदाज करते हुए, मैं एक अच्छा कारण नहीं देख सकता कि यह नमूना दक्षता में सुधार क्यों करेगा।


क्लिफ एबी मुझे लगता है कि आपने और @ अडामो ने एमसीएमसी और एमएल कॉन्सेप्ट को एक और किताब पर घंटों बिताने से ज्यादा मुझे स्पष्ट किया। मैं आपके प्रयासों की सराहना करता हूं और मुझे खुशी है कि आपने कुछ क्षेत्रों का उल्लेख किया है जिन्हें मैं आगे बढ़ा सकता हूं।
जेसपर

@ कहीं आप किस किताब का जिक्र कर रहे हैं?
एडम जूल 18'16

@ अदमो वर्तमान में मैं रिचर्ड सुटन और मशीन लर्निंग द्वारा सुदृढीकरण सीखना पढ़ रहा हूं: केविन मर्फी द्वारा एक संभाव्य परिप्रेक्ष्य जिसे एमसीएमसी अध्याय शामिल है; और विभिन्न एमएल और कम्प्यूटेशनल सांख्यिकी पत्रिकाओं से प्रकाशन भी।
जेसपर

3

मशीन लर्निंग का संबंध पर्यवेक्षण, वर्गीकरण, या पर्यवेक्षण या अनुपयोगी सेटिंग में क्लस्टरिंग से है। दूसरी ओर, MCMC बस एक जटिल इंटरग्रेअल (आमतौर पर बिना किसी बंद फॉर्म के) का मूल्यांकन करने के लिए संभाव्य संख्यात्मक संख्यात्मक तरीकों का उपयोग करने से संबंधित है। महानगरों नमूने निश्चित रूप से है सबसे अधिक इस्तेमाल किया दृष्टिकोण। वास्तव में, यह केवल एमसीएमसी विधि है नहीं किसी भी संभाव्य घटक है। इसलिए एमएल इस मामले में MCMC के साथ कुछ भी सूचित नहीं करेगा।

महत्व के आधार नमूना करता है एक संभाव्य घटक की आवश्यकता है। यह कुछ बुनियादी मान्यताओं के तहत महानगर से अधिक कुशल है। एमएल तरीकों का उपयोग इस संभाव्य घटक का अनुमान लगाने के लिए किया जा सकता है अगर यह कुछ मान्यताओं के साथ काम करता है। एक जटिल उच्च आयामी गाऊसी घनत्व का अनुमान लगाने के लिए उदाहरण बहुभिन्नरूपी क्लस्टरिंग हो सकते हैं। मैं इस समस्या के गैर-पैरामीट्रिक दृष्टिकोण से परिचित नहीं हूं, लेकिन यह विकास का एक दिलचस्प क्षेत्र हो सकता है।

फिर भी, एमएल एक उच्च आयामी जटिल संभाव्यता मॉडल का आकलन करने की प्रक्रिया में एक अलग कदम के रूप में मेरे लिए खड़ा है जो बाद में संख्यात्मक पद्धति में उपयोग किया जाता है। मैं यह नहीं देखता कि इस मामले में एमएलएमसी वास्तव में कैसे सुधार करता है।


शुक्रिया @ अदमो, कम से कम अब मुझे इस क्षेत्र की बेहतर समझ है।
जेसपेर

1
मुझे लगता है कि यह उत्तर अधूरा है और संभवतः गलत है (ओपी के वास्तविक प्रश्न की व्याख्या के आधार पर, जो पूरी तरह से स्पष्ट नहीं है)। इस तरह के nonparametrics और तंत्रिका नेटवर्क के रूप में विशिष्ट एमएल तरीकों कर सकते हैं और कर रहे हैं एमसीएमसी samplers सुधार करने के लिए इस्तेमाल किया। वास्तव में, यह अनुसंधान का एक सक्रिय क्षेत्र है। शुरू करने के लिए मेरा जवाब और उसके संदर्भ देखें।
लाकरी

1
पी

धन्यवाद @ अडामो फिर भी, ईमानदार होने के लिए, मैं आपके स्पष्टीकरण को नहीं समझता, या यह आपके उत्तर को कैसे सही बनाता है। उदाहरण के लिए, मुझे समझ में नहीं आता है कि जब आप कहते हैं कि मेट्रोपोलिस के पास "कोई संभाव्य घटक" नहीं है तो इसका क्या मतलब है। इसके अलावा, आप कहते हैं कि एमएल नमूने में मदद नहीं कर सकता है, जो कि केवल असत्य है (यहां तक ​​कि एक उच्च-आयामी अभिन्न के आकलन के रूप में नमूना की संकीर्ण परिभाषा में), जैसा कि मेरा जवाब दिखाता है।
लैकरबी

3
@ अडमो: गॉसियन प्रक्रियाएं, कर्नेल विधियां, यादृच्छिक आधार नेटवर्क। सामान्य तौर पर, फ़ंक्शन सन्निकटन या घनत्व अनुमान का कोई भी रूप काम करेगा। यदि ये एमएल विधियां नहीं हैं, तो मुझे यकीन नहीं है कि क्या है ... (कृपया ध्यान दें कि ओपी ने एमएल या डीएल तरीकों के लिए पूछा )। इसके अलावा, जैसा कि मैंने ऊपर पूछा था, क्या आप यह समझा सकते हैं कि जब आपने लिखा था कि मेट्रोपोलिस के पास एक संभाव्य घटक नहीं है, तो आप क्या कर सकते हैं? धन्यवाद!
लाकरी

0

कम्प्यूटेशनल भौतिकी में कुछ हालिया काम थे जहां लेखकों ने संभावना वितरण को मॉडल करने के लिए प्रतिबंधित बोल्ट्जमैन मशीनों का उपयोग किया और फिर प्रस्तावित (उम्मीद है) कुशल मोंटे कार्लो अपडेट arXiv: 1610.02746 । यह विचार ऊपर दिए गए @lacerbi द्वारा दिए गए संदर्भों के समान है।

1702.08586 के एक अन्य प्रयास में , लेखक ने स्पष्ट रूप से बोल्ट्जमैन मशीनों का निर्माण किया, जो प्रसिद्ध क्लस्टर मोंटे कार्लो अपडेट को प्रदर्शित कर सकते हैं (और यहां तक ​​कि) ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.