कुछ मामलों में हैमिल्टन डायनेमिक्स MCMC में यादृच्छिक वॉक प्रस्ताव से बेहतर क्यों है?


10

हैमिल्टन डायनेमिक्स हमेशा कुछ मामलों में मेट्रोपोलिस एल्गोरिथ्म में यादृच्छिक चलने की तुलना में बेहतर प्रदर्शन करता है। क्या कोई बहुत ज्यादा गणित के बिना सरल शब्दों में कारण बता सकता है?


1
@JuhoKokkala, आम तौर पर, उच्च आयाम समस्या में, यादृच्छिक चलने का प्रस्ताव अच्छा प्रदर्शन नहीं है, हालांकि, हैमोनियल डायनेमिक्स है।
फ्लाई_बैक

@ जूहूकोक्कल एचएमसी के बारे में मेरी समझ यह है कि हम हैमिल्टनियन डायनेमिक सिस्टम में कम ऊर्जा एच के साथ नमूने प्राप्त करते हैं, फिर मैं इस क्विज़ के साथ आता हूं कि हैमिल्टन डायनेमिक्स द्वारा प्रस्तावित नमूना हमेशा क्यों स्वीकार किया जा सकता है।
फ्लाई_बैक

3
नवंबर की शुरुआत में, एंड्रयू गेलमैन ने माइकल बेटनकोर्ट द्वारा "सुंदर नए पेपर" के बारे में एक नोट पोस्ट किया कि एचएमसी यादृच्छिक एमसीएमसी से बेहतर क्यों है। गेलमैन का मुख्य बिंदु यह था कि एचएमसी कम से कम दोगुनी तेजी से प्रतिस्पर्धी तरीकों के रूप में है। andrewgelman.com/2016/11/03/…
माइक हंटर

2
यह सवाल थोड़ा अस्वाभाविक है, लेकिन नीचे दिए गए उत्तरों को देखते हुए, मुझे नहीं लगता कि इसका उत्तर दिया जाना बहुत अस्पष्ट है। मैं खुले में छोड़ने के लिए मतदान कर रहा हूं।
गूँग - मोनिका

जवाबों:


14

सबसे पहले, मुझे बताएं कि मुझे विश्वास नहीं है कि HMC (हैमिल्टनियन मोंटे कार्लो) के लिए स्वीकृति दर हमेशा महानगर एल्गोरिथम की तुलना में अधिक है। जैसा कि @JuhoKokkala ने उल्लेख किया है, मेट्रोपोलिस की स्वीकृति दर ट्यून करने योग्य है और उच्च स्वीकृति दर का मतलब यह नहीं है कि आपका एल्गोरिथ्म पीछे वितरण की खोज का अच्छा काम कर रहा है। यदि आप सिर्फ एक अत्यंत संकीर्ण प्रस्ताव वितरण का उपयोग करते हैं (उदाहरण के लिएT(q|q)=N(q,σI) बहुत छोटे से σ), आपको अत्यधिक उच्च स्वीकृति दर मिलेगी, लेकिन सिर्फ इसलिए कि आप मूल रूप से एक ही स्थान पर हमेशा रहे, बिना पूर्ण उत्तरोत्तर वितरण की खोज के।

मुझे लगता है कि आप वास्तव में पूछ रहे हैं (और अगर मैं सही हूं, तो कृपया अपने प्रश्न को तदनुसार संपादित करें) यही कारण है कि हैमिल्टन के मोंटे कार्लो में (कुछ मामलों में) महानगर की तुलना में बेहतर प्रदर्शन है। "बेहतर प्रदर्शन" के साथ मेरा मतलब है कि, कई अनुप्रयोगों के लिए, यदि आप एचएमसी द्वारा उत्पन्न श्रृंखला की तुलना एक समान लंबाई (समान संख्या में नमूने) से करते हैंN) मेट्रोपोलिस एल्गोरिथ्म द्वारा निर्मित श्रृंखला, HMC श्रृंखला महानगर श्रृंखला की तुलना में जल्द ही स्थिर अवस्था में पहुँच जाती है, नकारात्मक लॉग-लाइबिलिटी (या समान मूल्य, लेकिन कम पुनरावृत्तियों में) के लिए एक कम मान पाता है, प्रभावी नमूना आकार छोटा होता है, नमूने का निरंकुशता अंतराल, आदि के साथ तेजी से घटता है।

मैं इस बात का अंदाजा लगाने की कोशिश करूंगा कि ऐसा क्यों होता है, बिना गणितीय विवरण के। इसलिए, सबसे पहले याद रखें कि सामान्य रूप से MCMC एल्गोरिदम एक फ़ंक्शन (या अधिक फ़ंक्शन) के उच्च-आयामी इंटीग्रल (अपेक्षाएँ) की गणना करने के लिए उपयोगी हैंf लक्ष्य घनत्व के संबंध में π(q), जब हम सीधे लक्ष्य घनत्व से सीधे नमूना करने के लिए एक रास्ता नहीं है:

Eπ[f]=Qf(q)π(q)dq1dqd

कहाँ पे q का वेक्टर है d जिस पर पैरामीटर f तथा π निर्भर, और Qपैरामीटर स्थान है। अब, उच्च आयामों में, पैरामीटर स्पेस की मात्रा जो उपरोक्त अभिन्न के लिए सबसे अधिक योगदान देती है, मोड के पड़ोस नहीं हैπ(q) (यानी, यह MLE के अनुमान के आसपास एक संकीर्ण मात्रा नहीं है) q), क्योंकि यहां π(q) बड़ा है, लेकिन वॉल्यूम बहुत छोटा है।

उदाहरण के लिए, मान लीजिए कि आप किसी बिंदु की औसत दूरी की गणना करना चाहते हैं q के मूल से Rd, जब इसके निर्देशांक शून्य माध्य और इकाई विचरण के साथ स्वतंत्र गाऊसी चर हैं। फिर उपरोक्त अभिन्न हो जाता है:

Eπ[X]=Q||q||(2π)d/2exp(||q||2/2)dq1dqd

अब, लक्ष्य घनत्व π(q)=(2π)d/2exp(||q||2/2) जाहिर तौर पर एक अधिकतम है 0. हालांकि, गोलाकार निर्देशांक और बदलने के द्वारा r=||q||, आप देख सकते हैं कि इंटीग्रैंड आनुपातिक हो जाता है rd1exp(r2/2)dr। यह कार्य स्पष्ट रूप से मूल से कुछ दूरी पर अधिकतम है। अंदर का क्षेत्रQजो अभिन्न के मूल्य में सबसे अधिक योगदान देता है उसे विशिष्ट सेट कहा जाता है , और इस इंटीग्रल के लिए विशिष्ट सेट त्रिज्या का एक गोलाकार खोल होता हैRd

अब, कोई यह दिखा सकता है कि आदर्श परिस्थितियों में, MCMC द्वारा निर्मित मार्कोव श्रृंखला पहले एक सेट में एक बिंदु पर परिवर्तित होती है, फिर पूरे सेट की खोज शुरू करती है, और अंत में सेट के विवरण का पता लगाना जारी रखती है। ऐसा करने में, अपेक्षा के MCMC अनुमान पूर्वाग्रह और विचरण के साथ और अधिक सटीक हो जाते हैं, जो बढ़ते कदमों के साथ कम हो जाते हैं।

हालांकि, जब ठेठ सेट की ज्यामिति जटिल होती है (उदाहरण के लिए, यदि यह दो आयामों में एक पुच्छल है), तो मानक यादृच्छिक-चलने वाले मेट्रोपोलिस एल्गोरिथ्म में सेट के "रोगविज्ञानी" विवरणों की खोज करने में बहुत मुश्किलें हैं। यह इन क्षेत्रों को बेतरतीब ढंग से "चारों ओर" कूदता है, बिना उनकी खोज के। व्यवहार में, इसका मतलब यह है कि अभिन्न के लिए अनुमानित मूल्य सही मूल्य के आसपास दोलन करता है, और श्रृंखला को एक सीमित संख्या में बाधित करने के परिणामस्वरूप एक बुरी तरह से पक्षपाती अनुमान होगा।

हैमिल्टन मोंटे कार्लो लक्ष्य वितरण में निहित जानकारी (इसके ढाल में) का उपयोग करके, नए नमूना बिंदु के प्रस्ताव को सूचित करने के बजाय, केवल लक्ष्य एक से संबंधित एक प्रस्ताव वितरण का उपयोग करके इस समस्या को दूर करने की कोशिश करता है। इसलिए, इसलिए हम कहते हैं कि एचएमसी लक्ष्य वितरण के डेरिवेटिव का उपयोग पैरामीटर स्थान को अधिक कुशलता से तलाशने के लिए करता है। हालांकि, लक्ष्य वितरण की ढाल, स्वयं द्वारा, प्रस्ताव कदम को सूचित करने के लिए पर्याप्त नहीं है । के मूल से एक यादृच्छिक बिंदु की औसत दूरी के उदाहरण के रूप मेंRd, लक्ष्य वितरण की ढाल, अपने आप से, हमें वितरण के मोड की ओर निर्देशित करती है, लेकिन मोड के आसपास का क्षेत्र जरूरी नहीं है कि वह क्षेत्र जो ऊपर दिए गए अभिन्न अंग में सबसे अधिक योगदान देता है, यानी यह विशिष्ट सेट नहीं है।

सही दिशा प्राप्त करने के लिए, एचएमसी में हम चर का एक सहायक सेट पेश करते हैं, जिसे गति चर कहा जाता है। एक भौतिक एनालॉग यहां मदद कर सकता है। किसी ग्रह के चारों ओर परिक्रमा करने वाला उपग्रह तभी स्थिर कक्षा में रुकेगा, जब उसकी गति का "सही" मान होगा, अन्यथा यह या तो खुली जगह पर बह जाएगा, या इसे गुरुत्वाकर्षण आकर्षण द्वारा ग्रह की ओर खींच लिया जाएगा (यहाँ भूमिका निभा रहा है) लक्ष्य घनत्व का ढाल, जो "मोड की ओर" खींचता है)। इसी तरह, गति के मापदंडों को नए नमूनों को ठेठ सेट के अंदर रखने की बजाय, उन्हें पूंछ की ओर या मोड की ओर स्थानांतरित करने की बजाय होती है।

यह अत्यधिक गणित के बिना हैमिल्टन मोंटे कार्लो को समझाने पर माइकल बेटनकोर्ट द्वारा एक बहुत ही दिलचस्प पेपर का एक छोटा सा सारांश है। आप कागज पा सकते हैं, जो काफी अधिक विवरण में है, यहां

एक बात जो पेपर में पर्याप्त रूप से शामिल नहीं होती है, वह है, IMO, जब और क्यों HMC रैंडम-वॉक मेट्रोपोलिस से भी बदतर हो सकती है। यह अक्सर (मेरे सीमित अनुभव में) नहीं होता है, लेकिन ऐसा हो सकता है। आखिरकार, आप ग्रेडिएंट का परिचय देते हैं, जो आपको उच्च-आयामी पैरामीटर स्थान में अपना रास्ता खोजने में मदद करता है, लेकिन आप समस्या की गतिशीलता को भी दोगुना करते हैं। सिद्धांत रूप में, यह हो सकता है कि आयामीता में वृद्धि के कारण धीमे-धीमे ग्रेडिएंट्स के शोषण द्वारा दिए गए त्वरण पर काबू पा लिया जाए। इसके अलावा (यह कागज में कवर किया गया है) यदि विशिष्ट सेट में उच्च वक्रता वाले क्षेत्र हैं, तो एचएमसी "ओवरशूट" कर सकता है, अर्थात, यह पूंछ में बहुत दूर बेकार अंकों का नमूना शुरू कर सकता है जो अपेक्षा के लिए कुछ भी योगदान नहीं देता है। तथापि, यह सहानुभूति इंटीग्रेटर की अस्थिरता का कारण बनता है जो संख्यात्मक रूप से एचएमसी को लागू करने के लिए अभ्यास में उपयोग किया जाता है। इस प्रकार, इस तरह की समस्या का आसानी से निदान किया जाता है।


1
मैं देखता हूं कि जब मैं अपना उत्तर लिख रहा था, @DJohnson ने भी बेटनकोर्ट के पेपर का हवाला दिया। हालाँकि, मुझे लगता है कि उत्तर अभी भी उपयोगी हो सकता है क्योंकि एक कागज़ में क्या मिल सकता है।
डेल्फी

3

जैसा कि @JuhoKokkala ने टिप्पणियों में उल्लेख किया है, उच्च स्वीकृति दर जरूरी अच्छा प्रदर्शन नहीं देती है। प्रस्ताव वितरण को छोटा करके मेट्रोपोलिस हेस्टिंग्स की स्वीकृति दर बढ़ाई जा सकती है। लेकिन, इससे छोटे कदम उठाए जाएंगे, जिससे लक्ष्य वितरण का पता लगाने में अधिक समय लगेगा। व्यवहार में, चरण आकार और स्वीकृति दर के बीच एक व्यापार है, और अच्छा प्रदर्शन प्राप्त करने के लिए एक उचित संतुलन की आवश्यकता होती है।

हैमिल्टनियन मोंटे कार्लो मेट्रोपोलिस हेस्टिंग्स से आगे निकल जाता है क्योंकि यह स्वीकृति की उच्च संभावना के साथ अधिक दूर के बिंदुओं तक पहुंच सकता है। तो, सवाल यह है: एचएमसी अधिक दूर के बिंदुओं के लिए एमएच की तुलना में उच्च स्वीकृति संभावना क्यों रखता है ?

एमएच को दूर के बिंदुओं तक पहुंचने में परेशानी होती है क्योंकि इसके प्रस्ताव लक्ष्य वितरण के बारे में जानकारी का उपयोग किए बिना किए जाते हैं। प्रस्ताव वितरण आम तौर पर आइसोट्रोपिक (जैसे एक सममित गौसियन) है। इसलिए, प्रत्येक बिंदु पर, एल्गोरिथ्म यादृच्छिक दिशा में एक यादृच्छिक दूरी को स्थानांतरित करने की कोशिश करता है। यदि दूरी छोटी है कि लक्ष्य वितरण कितनी जल्दी उस दिशा में बदल जाता है, तो एक अच्छा मौका है कि वर्तमान और नए बिंदुओं पर घनत्व समान होगा, जिससे स्वीकृति का कम से कम मौका मिलेगा। अधिक से अधिक दूरी पर, लक्ष्य वितरण वर्तमान बिंदु के सापेक्ष काफी बदल गया हो सकता है। इसलिए, समान या (उम्मीद के साथ) उच्च घनत्व वाले बिंदु को खोजने का मौका खराब हो सकता है, विशेष रूप से जैसा कि आयामी बढ़ता है। उदाहरण के लिए, यदि वर्तमान बिंदु एक संकीर्ण रिज पर स्थित है, तो '

इसके विपरीत, एचएमसी लक्ष्य वितरण की संरचना का शोषण करता है। इसका प्रस्ताव तंत्र एक भौतिक सादृश्य का उपयोग करने के बारे में सोचा जा सकता है, जैसा कि नील (2012) में वर्णित है। एक पहाड़ी, घर्षण रहित सतह पर एक पॉकिंग फिसलने की कल्पना करें। पक का स्थान वर्तमान बिंदु का प्रतिनिधित्व करता है, और सतह की ऊंचाई लक्ष्य वितरण के नकारात्मक लॉग का प्रतिनिधित्व करती है। एक नया प्रस्तावित बिंदु प्राप्त करने के लिए, पक को यादृच्छिक दिशा और परिमाण के साथ एक गति प्रदान की जाती है, और इसकी गतिशीलता को फिर से सिम्युलेटेड किया जाता है क्योंकि यह सतह पर स्लाइड करता है। पक डाउनहिल दिशाओं में तेजी लाएगा और ऊपर की दिशाओं में गिरावट (शायद फिर से डाउनहिल को रोकना और फिसलना)। घाटी की दीवार के साथ बग़ल में चलने वाले प्रक्षेपवक्र नीचे की ओर वक्र होंगे। तो, परिदृश्य स्वयं प्रक्षेपवक्र को प्रभावित करता है और उच्च संभावना वाले क्षेत्रों की ओर खींचता है। मोमेंटम छोटी पहाड़ियों पर पकने की अनुमति दे सकता है, और छोटे घाटियों की देखरेख भी कर सकता है। कुछ समय के चरणों के बाद पक का स्थान नया प्रस्तावित बिंदु देता है, जिसे मानक मेट्रोपोलिस नियम का उपयोग करके स्वीकार या अस्वीकार किया जाता है। लक्ष्य वितरण (और इसकी ढाल) को उजागर करने से एचएमसी को उच्च स्वीकृति दर के साथ दूर के बिंदुओं तक पहुंचने की अनुमति मिलती है।

यहाँ एक अच्छी समीक्षा है:

नील (2012) । हैमिल्टनियन गतिशीलता का उपयोग करते हुए एम.एम.सी.


0

एक ढीले उत्तर के रूप में (जो लगता है कि आप क्या देख रहे हैं) हैमिल्टनियन तरीके लॉग संभावना के व्युत्पन्न को ध्यान में रखते हैं, जबकि मानक एमएच एल्गोरिथ्म नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.