भाषण मान्यता एक उदाहरण के रूप में जटिल नहीं है जितना आपको लगता है।
सबसे पहले, एक मार्कोव चेन (एमसी) बनाने की कल्पना करें जो पाठ की पहचान करता है। आपका कार्यक्रम (त्रुटियों के बिना, परिपूर्ण) पाठ का एक गुच्छा (राज्यों (शब्दों) और राज्य परिवर्तनों (अगले शब्दों) की गणना करता है। लगता है कि आपने इसे नीचे पा लिया है। अब आप पाठ उत्पन्न कर सकते हैं, या कुछ पाठ राज्यों और अपने MC की संक्रमण संभावनाओं का उपयोग करके अगले शब्द की भविष्यवाणी कर सकते हैं।
अब कल्पना करें कि आप भाषण के साथ अपने एमसी का उपयोग करना चाहते हैं। आपको बस ऐसे लोग पढ़ने होंगे जो आपके MC के समान हैं और आप सेट हैं, ठीक है? ठीक है ... सिवाय इसके कि वे अलग-अलग शब्दों का उच्चारण करने जा रहे हैं: जहाँ लिखित पाठ "आलू" कहता है, आप वास्तव में "po-TAY-toh" और "po-TAH-toh" और "pu-TAY" सुनेंगे। -तो ", आदि और इसके विपरीत: पाठ" खाया "और" आठ "दो अलग-अलग राज्यों का प्रतिनिधित्व करते हैं, लेकिन (आमतौर पर) समान उच्चारण होते हैं।
आपका एल्गोरिथ्म अब अंतर्निहित स्थितियों (शब्दों) को नहीं देखता है, यह प्रत्येक शब्द के लिए उच्चारण का एक संभावित वितरण देखता है। आपका मूल MC उच्चारण के पीछे छिपा हुआ है, और अब आपके मॉडल को दो-स्तरित होने की आवश्यकता है।
इसलिए आप बहुत से लोगों को अपने मूल प्रशिक्षण के लिए उपयोग किए जाने वाले पाठ को जोर से पढ़ सकते हैं, आप प्रत्येक शब्द के लिए उच्चारण का वितरण प्राप्त कर सकते हैं, और फिर अपने मूल मॉडल को उच्चारण मॉडल के साथ जोड़ सकते हैं और आपके पास एक हिडन मार्कोव मॉडल है ( एक HMM)।
अधिकांश वास्तविक दुनिया की समस्याएं इस तरह की होंगी, क्योंकि वास्तविक दुनिया शोर करती है। आप वास्तव में यह नहीं जान पाएंगे कि कोई चीज किस राज्य में है। इसके बजाय, आपको प्रत्येक राज्य के लिए विभिन्न प्रकार के संकेतक मिलेंगे: कभी-कभी विभिन्न राज्यों के लिए समान संकेतक ("खाया" और "आठ") और कभी-कभी एक ही राज्य के लिए अलग-अलग संकेतक। ("पु-ताय-टो" और "पह-ता-टो")। इसलिए, एचएमएम वास्तविक दुनिया की समस्याओं के लिए अधिक उपयुक्त हैं।
[दो पक्ष नोट: 1) वास्तविक भाषण मान्यता ध्वनि स्तर पर काम करती है, शब्द स्तर नहीं, और 2) मेरा मानना है कि एचएमएम भाषण मान्यता के लिए पहाड़ी के राजा थे, लेकिन हाल ही में गहरे तंत्रिका नेटवर्क द्वारा अलग किया गया है।]