System.Speech.Recognition और Microsoft.Speech.Recognition में क्या अंतर है?

Question 1

.NET में वाक् पहचान के लिए दो समान नामस्थान और असेंबली हैं। मैं मतभेदों को समझने की कोशिश कर रहा हूं और जब एक या दूसरे का उपयोग करना उचित हो।

विधानसभा System.Speech से System.Speech.Recognition है (System.Speech.dll में)। System.Speech.dll .NET फ्रेमवर्क क्लास लाइब्रेरी 3.0 और बाद में एक कोर DLL है

असेंबली से Microsoft.Speech.Recognition भी है। Microsoft (microsoft.speech.dll में)। Microsoft.Speech.dll UCMA 2.0 SDK का हिस्सा है

मुझे भ्रमित करने वाले दस्तावेज़ मिले हैं और मेरे पास निम्नलिखित प्रश्न हैं:

System.Speech.Recognition का कहना है कि यह "विंडोज डेस्कटॉप स्पीच टेक्नोलॉजी" के लिए है, क्या इसका मतलब यह है कि इसका उपयोग सर्वर OS पर नहीं किया जा सकता है या इसका उपयोग उच्च स्तर के अनुप्रयोगों के लिए नहीं किया जा सकता है?

UCMA 2.0 स्पीच SDK ( http://msdn.microsoft.com/en-us/library/dd266409%28v=office.13%29.aspx ) का कहना है कि इसके लिए Microsoft Office कम्युनिकेशंस सर्वर 2007 R2 की आवश्यकता होती है। हालाँकि, मुझे सम्मेलनों और बैठकों में कहा गया है कि अगर मुझे उपस्थिति और वर्कफ़्लो जैसी OCS सुविधाओं की आवश्यकता नहीं है तो मैं OCS के बिना UCMA 2.0 स्पीच API का उपयोग कर सकता हूं। क्या ये सच है?

यदि मैं एक सर्वर एप्लिकेशन के लिए एक साधारण मान्यता ऐप बना रहा हूं (जैसे कि मैं स्वचालित रूप से वॉयस मेल ट्रांसफर करना चाहता था) और मुझे ओसीएस की विशेषताओं की आवश्यकता नहीं है, तो दो एपीआई के बीच अंतर क्या हैं?

Question 2

संक्षिप्त उत्तर यह है कि Microsoft.Speech.Recognition SAPI के सर्वर संस्करण का उपयोग करता है, जबकि System.Speech.Recognition SAPI के डेस्कटॉप संस्करण का उपयोग करता है।

एपीआई ज्यादातर समान हैं, लेकिन अंतर्निहित इंजन अलग हैं। आमतौर पर, सर्वर इंजन को कमांड और नियंत्रण अनुप्रयोगों के लिए टेलीफोन-गुणवत्ता ऑडियो स्वीकार करने के लिए डिज़ाइन किया गया है; डेस्कटॉप इंजन को कमांड और नियंत्रण और श्रुतलेख अनुप्रयोगों दोनों के लिए उच्च-गुणवत्ता वाले ऑडियो को स्वीकार करने के लिए डिज़ाइन किया गया है।

आप किसी सर्वर OS पर System.Speech.Recognition का उपयोग कर सकते हैं, लेकिन इसे लगभग Microsoft.Speech.Recognition के पैमाने पर डिज़ाइन नहीं किया गया है।

अंतर यह है कि सर्वर इंजन को प्रशिक्षण की आवश्यकता नहीं होगी, और निम्न-गुणवत्ता वाले ऑडियो के साथ काम करेगा, लेकिन डेस्कटॉप इंजन की तुलना में कम मान्यता गुणवत्ता होगी।

Question 3

मुझे एरिक का जवाब वास्तव में मददगार लगा, मैं बस कुछ और विवरण जोड़ना चाहता था जो मुझे मिला।

System.Speech.Recognition का उपयोग डेस्कटॉप पहचानकर्ताओं को प्रोग्राम करने के लिए किया जा सकता है। SAPI और डेस्कटॉप पहचानकर्ताओं ने उत्पादों में भेज दिया है:

Windows XP: SAPI v5.1 और कोई पहचानकर्ता नहीं है
विंडोज एक्सपी टैबलेट संस्करण: एसएपीआई v5.1 और रिकॉगनाइजर v6.1
विंडोज विस्टा: SAPI v5.3 और रिकॉगनाइजर v8.0
विंडोज 7: SAPI v5.4 और रिकॉगनाइजर v8.0?

सर्वर SAPI के साथ आते हैं, लेकिन कोई भी पहचानकर्ता नहीं है:

विंडोज सर्वर 2003: SAPI v5.1 और कोई पहचानकर्ता नहीं
Windows सर्वर 2008 और 2008 R2: SAPI v5.3? और कोई पहचानकर्ता नहीं है

डेस्कटॉप पहचानकर्ताओं ने कार्यालय जैसे उत्पादों में भी भेज दिया है।

Microsoft Office 2003: पहचानकर्ता v6.1

Microsoft.Speech.Recognition सर्वर पहचानकर्ताओं को प्रोग्राम करने के लिए इस्तेमाल किया जा सकता है। सर्वर पहचानकर्ताओं ने उत्पादों में भेज दिया है:

भाषण सर्वर (विभिन्न संस्करण)
कार्यालय संचार सर्वर (OCS) (विभिन्न संस्करण)
UCMA - जो OCS के लिए एक प्रबंधित API है (मेरा मानना है कि) में एक पुनर्वितरण पहचानकर्ता शामिल था
Microsoft सर्वर भाषण प्लेटफ़ॉर्म - पहचानकर्ता v10.2

Microsoft सर्वर भाषण प्लेटफ़ॉर्म 10.2 संस्करण के लिए पूरा SDK http://www.microsoft.com/downloads/en/details.aspx?FamilyID=1b1604d3-4f66-4241-9a21-90a294a5c9a4 पर उपलब्ध है । भाषण इंजन एक मुफ्त डाउनलोड है। संस्करण 11 अब http://www.microsoft.com/download/en/details.aspx?id=27226 पर उपलब्ध है ।

Microsoft भाषण प्लेटफ़ॉर्म SDK 11 जानकारी और डाउनलोड के लिए, देखें:

भाषा पैक - http://www.microsoft.com/en-us/download/details.aspx?id=27224
रनटाइम इंजन - http://www.microsoft.com/en-us/download/details.aspx?id=27225
एसडीके - http://www.microsoft.com/en-us/download/details.aspx?id=27226
MSDN प्रलेखन - http://msdn.microsoft.com/en-us/library/dd266409

डेस्कटॉप पहचानकर्ताओं को inproc या साझा करने के लिए डिज़ाइन किया गया है। साझा पहचानकर्ता डेस्कटॉप पर उपयोगी होते हैं जहां किसी भी खुले अनुप्रयोगों को नियंत्रित करने के लिए वॉइस कमांड का उपयोग किया जाता है। सर्वर पहचानकर्ता केवल inproc चला सकते हैं। Inproc पहचानकर्ताओं का उपयोग तब किया जाता है जब एक एकल अनुप्रयोग पहचानकर्ता का उपयोग करता है या जब wav फ़ाइलों या ऑडियो धाराओं को पहचानने की आवश्यकता होती है (साझा पहचानकर्ता ऑडियो फ़ाइलों को संसाधित नहीं कर सकते हैं, बस इनपुट उपकरणों से ऑडियो)।

केवल डेस्कटॉप भाषण पहचानकर्ताओं में एक श्रुतलेख व्याकरण (मुक्त पाठ श्रुतलेख के लिए प्रयुक्त व्याकरण प्रदान किया गया सिस्टम) शामिल है। वर्ग System.Speech.Recognition.DictationGrammar में Microsoft.Speech नामस्थान का कोई पूरक नहीं है।

आप अपने इंस्टॉल किए गए रिकॉन्गाइजर्स को निर्धारित करने के लिए एपीआई का उपयोग कर सकते हैं

डेस्कटॉप: System.Speech.Recognition.SpeechRecognitionEngine.InstalledRecognizers ()
सर्वर: Microsoft.Speech.Recognition.SpeechRecognitionEngine.InstalledRecognizers ()

मैंने पाया कि मैं यह भी देख सकता हूं कि रजिस्ट्री कुंजियों को देखकर क्या पहचानकर्ता स्थापित होते हैं:

डेस्कटॉप पहचानकर्ता: HKEY_LOCAL_MACHINE \ SOFTWARE \ Microsoft \ Speech \ Recognizers \ टोकन
सर्वर पहचानकर्ता: HKEY_LOCAL_MACHINE \ SOFTWARE \ Microsoft \ Speech Server \ v10.0 \ Recognizers और टोकन

--- अपडेट करें ---

जैसा कि Microsoft भाषण मान्यता में चर्चा की गई है - मुझे क्या संदर्भ जोड़ना है? , Microsoft.Speech भी Kinect पहचानकर्ता के लिए उपयोग किया जाने वाला API है। यह MSDN लेख http://msdn.microsoft.com/en-us/library/hh855387.aspx में प्रलेखित है

Question 4

यहां स्पीच लाइब्रेरी (एमएस सर्वर स्पीच प्लेटफॉर्म) के लिए लिंक दिया गया है:

Microsoft सर्वर भाषण प्लेटफ़ॉर्म 10.1 जारी (SR और TTS 26 भाषाओं में)

Question 5

लगता है कि Microsoft ने एक लेख लिखा है जो Microsoft भाषण प्लेटफ़ॉर्म और विंडोज SAPI - https://msdn.microsoft.com/en-us/library/jj127858.aspx के बीच अंतर के बारे में बातें स्पष्ट करता है । Microsoft.Speech से System.Speech ( http://github.com/birbilis/Hotspotizer देखें ) के लिए Kinect से स्पीच रिकग्निशन कोड को परिवर्तित करते समय मैंने खुद को पाया था कि पूर्व में टैग-प्रारूप = शब्दार्थ / 1.0 के साथ SGRS व्याकरण का समर्थन किया गया था शाब्दिक, जबकि उत्तरार्द्ध नहीं है और आपको x = आउट "x" को बदलकर शब्दार्थ / 1.0 में बदलना है; टैग पर