छिपे हुए मार्कोव मॉडल और तंत्रिका नेटवर्क के बीच अंतर क्या हैं?


40

मैं सिर्फ अपने पैरों को आंकड़ों में गीला कर रहा हूं इसलिए मुझे खेद है कि अगर यह सवाल समझ में नहीं आता है। मैंने खोज इंजन पर उपयोगकर्ताओं के क्लिक का अध्ययन करने के लिए छिपे हुए राज्यों (अनुचित कैसीनो, डाइस रोल, आदि) और तंत्रिका नेटवर्क की भविष्यवाणी करने के लिए मार्कोव मॉडल का उपयोग किया है। दोनों ने छिपाया था कि हम टिप्पणियों का उपयोग करके यह पता लगाने की कोशिश कर रहे हैं।

मेरी समझ से वे दोनों छिपे हुए राज्यों की भविष्यवाणी करते हैं, इसलिए मैं सोच रहा हूं कि कोई तंत्रिका नेटवर्क पर मार्कोव मॉडल का उपयोग कब करेगा? क्या वे समान समस्याओं के लिए अलग-अलग दृष्टिकोण हैं?

(मुझे सीखने में दिलचस्पी है, लेकिन मेरे पास एक और प्रेरणा भी है, मुझे एक समस्या है जो मैं छिपे हुए मार्कोव मॉडल का उपयोग करके हल करने की कोशिश कर रहा हूं, लेकिन मुझे ड्राइविंग करने वाले बोनर्स तो मुझे यह देखने में दिलचस्पी थी कि क्या मैं कुछ और उपयोग करने के लिए स्विच कर सकता हूं।)


2
आप यहाँ देखना चाह सकते हैं: आंकड़े
Nucular

क्या आप एक जवाब चुनने के लिए परवाह करेंगे, या आगे स्पष्ट करेंगे कि आप क्या खोज रहे हैं?
संयुक्ताक्षर

जवाबों:


27

क्या छिपा है और क्या मनाया जाता है

छिपी हुई मार्कोव मॉडल में छिपी हुई बात वही है जो असतत मिश्रण मॉडल में छिपी हुई है, इसलिए स्पष्टता के लिए, छिपे हुए राज्य की गतिशीलता के बारे में भूल जाओ और एक उदाहरण के रूप में एक परिमित मिश्रण मॉडल के साथ रहो। इस मॉडल में 'स्थिति' उस घटक की पहचान है जो प्रत्येक अवलोकन का कारण बना। मॉडल के इस वर्ग में ऐसे कारणों को कभी नहीं देखा जाता है, इसलिए 'छिपे हुए कारण' को सांख्यिकीय रूप से इस दावे में अनुवादित किया जाता है कि देखे गए डेटा में सीमांत निर्भरताएं हैं जो स्रोत घटक के ज्ञात होने पर हटा दी जाती हैं। और स्रोत घटकों का अनुमान है कि जो भी इस सांख्यिकीय संबंध को सच बनाता है।

सिग्मॉइड मध्य इकाइयों के साथ एक फीडफॉर्वर्ड मल्टीलेयर न्यूरल नेटवर्क में छिपी हुई चीज उन इकाइयों के राज्य हैं, न कि आउटपुट जो अनुमान का लक्ष्य हैं। जब नेटवर्क का आउटपुट एक वर्गीकरण होता है, यानी, संभावित आउटपुट श्रेणियों पर एक संभाव्यता वितरण, ये छिपी हुई इकाइयां मान एक स्थान को परिभाषित करती हैं जिसके भीतर श्रेणियां अलग-अलग होती हैं। इस तरह के एक मॉडल को सीखने की चाल एक छिपी जगह (इनपुट इकाइयों से मैपिंग को समायोजित करके) बनाना है, जिसके भीतर समस्या रैखिक है। नतीजतन, सिस्टम से गैर-रैखिक निर्णय सीमाएं पूरी तरह से संभव हैं।

पीढ़ीगत बनाम भेदभावपूर्ण

मिश्रण मॉडल (और HMM) डेटा जनरेटिंग प्रक्रिया का एक मॉडल है, जिसे कभी-कभी एक संभावना या 'फॉरवर्ड मॉडल' कहा जाता है। प्रत्येक राज्य की पूर्व संभावनाओं के बारे में कुछ मान्यताओं के साथ युग्मित होने पर आप बेयस प्रमेय (जनरेटिव एप्रोच) का उपयोग करके छिपे हुए राज्य के संभावित मूल्यों पर वितरण का अनुमान लगा सकते हैं। ध्यान दें, जबकि 'पूर्व' कहा जाता है, संभावना में पूर्व और पैरामीटर दोनों को आमतौर पर डेटा से सीखा जाता है।

मिश्रण मॉडल (और HMM) के विपरीत तंत्रिका नेटवर्क सीधे आउटपुट श्रेणियों (एक भेदभावपूर्ण दृष्टिकोण) पर एक पीछे वितरण सीखता है। यह संभव है क्योंकि आउटपुट मान अनुमान के दौरान देखे गए थे। और जब से वे देखे गए थे, तब इस तरह के मिश्रण के रूप में संभावना के लिए एक पूर्व और एक विशिष्ट मॉडल से एक पीछे वितरण का निर्माण करना आवश्यक नहीं है। पोस्टीरियर को सीधे डेटा से सीखा जाता है, जो अधिक कुशल और कम मॉडल पर निर्भर है।

मिश्रण और मैच

चीजों को और अधिक भ्रमित करने के लिए, इन तरीकों को एक साथ मिलाया जा सकता है, उदाहरण के लिए जब मिश्रण मॉडल (या HMM) स्थिति कभी-कभी देखी जाती है। जब यह सच है, और कुछ अन्य परिस्थितियों में यहां प्रासंगिक नहीं है, तो अन्यथा जनरेटिव मॉडल में भेदभावपूर्ण रूप से प्रशिक्षित करना संभव है। इसी तरह एचएमएम के मिश्रण मॉडल की मैपिंग को अधिक लचीले फॉरवर्ड मॉडल, जैसे, एक न्यूरल नेटवर्क से बदलना संभव है।

प्रश्न

तो यह बिल्कुल सच नहीं है कि दोनों मॉडल छिपे हुए राज्य की भविष्यवाणी करते हैं। एचएमएम का उपयोग छिपे हुए राज्य की भविष्यवाणी करने के लिए किया जा सकता है, भले ही उस तरह का हो जो आगे मॉडल की उम्मीद कर रहा है। तंत्रिका नेटवर्क का उपयोग भविष्य में नहीं देखा गया राज्य की भविष्यवाणी करने के लिए किया जा सकता है , उदाहरण के लिए भविष्य के राज्य जिसके लिए भविष्यवक्ता उपलब्ध हैं। इस तरह की स्थिति सिद्धांत रूप में छिपी नहीं है, यह अभी तक नहीं देखी गई है।

आप एक के बजाय एक का उपयोग कब करेंगे? खैर, तंत्रिका नेटवर्क मेरे अनुभव में अजीब समय श्रृंखला मॉडल बनाते हैं। वे यह भी मानते हैं कि आपने आउटपुट देखा है। HMMs नहीं है, लेकिन वास्तव में छिपा हुआ राज्य क्या है, इसका आपको कोई नियंत्रण नहीं है। फिर भी वे उचित समय श्रृंखला मॉडल हैं।


2
+1 यह बहुत अच्छा है। द्वारा: Similarly it is possible to replace the mixture model mapping of an HMM with a more flexible forward model, e.g., a neural network.क्या आपको लगता है कि एन फ़ीड फ़ीड फॉरवर्ड एनएन के साथ उत्सर्जन संभावनाओं की जगह पी (अवलोकित। छिपा हुआ) है? मैं कुछ स्थानों पर इस पार आया हूं, लेकिन कोई भी स्पष्टीकरण नहीं देता है; वे सिर्फ उल्लेख करते हैं कि उन्होंने इसे लागू किया है। मुझे लगता है कि वे उत्सर्जन सीखने के लिए MLE कदम की जगह लेते हैं लेकिन समझ नहीं पाते कि कैसे। क्या आप किसी भी कोड या व्याख्यात्मक उदाहरण के बारे में जानते हैं? किसी भी संकेत का स्वागत करते हैं, धन्यवाद।
ज़ुर्बर्ब

ऐसा लगता है कि इस तरह कम उपयोग किया जा रहा है (कुछ और एमएल व्यक्ति मुझे यहां ठीक कर सकते हैं)। था ने कहा, राज्य वेक्टर (या कम से कम इसकी अपेक्षित मूल्य जानने पर, जैसा कि एक ईएम एल्गोरिथ्म में है) को जानने के लिए एनएन मापदंडों का आकलन करते हैं। उस हिस्से के बारे में कहने के लिए कुछ खास नहीं।
conjugateprior

इसका उत्तर अच्छा है, सिवाय इसके: तंत्रिका नेटवर्क या तो भेदभावपूर्ण हो सकता है (आगे फ़ीड आदि) या जनरेटिव (प्रतिबंधित बोलज़मैन मशीन)। इसके अलावा, LSTM और जलाशय कम्प्यूटिंग मॉडल जैसे आवर्तक तंत्रिका नेटवर्क समय श्रृंखला के साथ-साथ HMM मॉडल कर सकते हैं - और कभी-कभी HMM से भी बेहतर, विशेष रूप से मजबूत nonlinear गतिशीलता और लंबे समय के सहसंबंध के साथ समय श्रृंखला के मामले में।
गूसुकु

10

छिपे हुए मार्कोव मॉडल का उपयोग भाषा उत्पन्न करने के लिए किया जा सकता है, अर्थात, तार के परिवार से तत्वों को सूचीबद्ध करना। उदाहरण के लिए, यदि आपके पास एक HMM है जो अनुक्रमों का एक सेट मॉडल करता है, तो आप इस परिवार के सदस्यों को उत्पन्न करने में सक्षम होंगे, उन अनुक्रमों को सूचीबद्ध करके जो हम मॉडलिंग कर रहे हैं, उन अनुक्रमों के समूह में आते हैं।

न्यूरल नेटवर्क, एक हाई-डायमेंशनल स्पेस से एक इनपुट लेते हैं और बस इसे एक लो-डायमेंशनल स्पेस में मैप करते हैं (जिस तरह से न्यूरल नेटवर्क्स इस इनपुट को मैप करते हैं वह ट्रेनिंग, उसके टोपोलॉजी और अन्य फैक्टर्स पर आधारित है)। उदाहरण के लिए, आप किसी संख्या की 64-बिट छवि ले सकते हैं और इसे एक सच्चे / गलत मान पर मैप कर सकते हैं, जो बताता है कि यह संख्या 1 या 0 है।

जब भी दोनों विधियाँ सक्षम हैं (या कम से कम कोशिश कर सकते हैं) भेदभाव करने के लिए कि क्या कोई आइटम एक वर्ग का सदस्य है या नहीं, तो तंत्रिका नेटवर्क ऊपर वर्णित के रूप में एक भाषा उत्पन्न नहीं कर सकता है।

छिपे हुए मार्कोव मॉडल के विकल्प उपलब्ध हैं, उदाहरण के लिए आप एक अधिक सामान्य बायेसियन नेटवर्क, एक अलग टोपोलॉजी या एक स्टोचैस्टिक संदर्भ-मुक्त व्याकरण (एससीएफजी) का उपयोग करने में सक्षम हो सकते हैं यदि आप मानते हैं कि समस्या एचएमएम के भीतर निहित है, तो शक्ति की कमी है। अपनी समस्या को मॉडल करें - अर्थात, यदि आपको एक एल्गोरिथ्म की आवश्यकता है जो अधिक जटिल परिकल्पनाओं के बीच भेदभाव करने में सक्षम है और / या डेटा के व्यवहार का वर्णन करता है जो बहुत अधिक जटिल है।


6
दूसरे पैराग्राफ के लिए +1। मैं यह बताना चाहूंगा कि जो कोई भी स्पष्ट रूप से इस उत्तर के सभी तत्वों को समझता है, वह मूल प्रश्न नहीं पूछेगा। यह शायद किसी के लिए औपचारिक व्याकरण का उल्लेख करने के लिए उपयोगी नहीं है, जिसका पद "मैं सिर्फ अपने पैरों को आंकड़ों में गीला हो रहा हूं ..." के साथ आता है, यहां दूसरा पैराग्राफ ओपी पूछ रहा है कि क्या का सार कैप्चर करता है। पहले पैराग्राफ के बजाय, आप कह सकते हैं: एचएमएम मॉडल छिपे हुए राज्यों की सशर्त निर्भरता, जहां प्रत्येक राज्य में टिप्पणियों पर एक संभावना वितरण है।
फिलिप क्लाउड

7
यह उत्तर केवल गलत है। यहां के न्यूरल नेटवर्क को फीडफॉरवर्ड माना जाता है। यह तंत्रिका नेटवर्क का केवल एक वर्ग है। आवर्तक मॉडल केवल एकल इनपुट को निम्न-आयामी प्रतिनिधित्व के लिए मैप नहीं करते हैं, और वे भाषा उत्पन्न कर सकते हैं। उदाहरण के लिए देखें arxiv.org/abs/1308.0850
rd11

एक अनुक्रम उत्पन्न करना (जैसा कि लिंक्ड पेपर में है) भाषा उत्पन्न करने के समान नहीं है। मुझे लगता है कि आप उन्हें एक सेट के तत्वों के बीच विचार करने के लिए लागू कर सकते हैं और अन्यथा यदि आप चाहें, तो, एक आवर्तक मॉडल की परिकल्पना के साथ व्यक्तिगत इनपुट पर फैले एक बड़े इनपुट लेने और एक बड़े आउटपुट को वापस करने के रूप में परिकल्पित किया जा सकता है। निश्चित नहीं है कि यदि आवर्तक तंत्रिका नेटवर्क आपको बिना किसी इनपुट के आउटपुट दे सकता है।
एंड्रयू

हम्म। क्या आप कुछ ऐसा उदाहरण दे सकते हैं जो आपको लगता है कि एक एचएमएम उत्पन्न कर सकता है, और आपको लगता है कि आरएनएन के साथ उत्पन्न नहीं किया जा सकता है?
rd11

उदाहरण जो मन में आता है वह निम्नलिखित है: एचएमएम दिए जाने पर आप उन तत्वों का एक क्रम प्राप्त कर सकते हैं जो एचएमएम का प्रतिनिधित्व करते हैं। RNN ऐसा करने के लिए, आपको इसके ऊपर और ऊपर कुछ जोड़ने की जरूरत है (जैसे अलग-अलग इनपुट्स आज़माएं और किसी वर्ग के सदस्य के रूप में इनपुट को चिह्नित करें अन्यथा) - हालाँकि RNN के मामले में आप संभवतः कई इनपुट देख रहे हैं (एक के बाद एक) एक "आइटम" का प्रतिनिधित्व करने के रूप में। भाषा उत्पन्न करने के उद्देश्य से HMM अधिक स्वाभाविक रूप से अनुकूल हैं।
एंड्रयू

3

इस सवाल का सबसे अच्छा जवाब जो मुझे मिला है वह यह है: क्या भेस में एक मार्कोव श्रृंखला को सीखना आसान है । यह वही है जो मैंने समझा था, लेकिन चूंकि इंटरनेट में पहले से ही कहीं और एक चर्चा थी, मैं यहां लिंक डाल रहा हूं।

मार्कोव चेन मॉडल:

p(x1....xn)=p(x1)p(x2|x1)p(x3|x2)...

RNN मॉडल का प्रयास करता है:

p(x1....xn)=p(x1)p(x2|x1)p(x3|x2,x1)p(x4|x3,x2,x1)...

हम एकल वर्ण के बजाय इनपुट के रूप में एक वर्ण अनुक्रम का उपयोग कर सकते हैं। इस तरह, हम राज्य को बेहतर तरीके से पकड़ सकते हैं (संदर्भ के आधार पर)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.