जवाबों:
सॉफ्टवेयर आप उपयोग कर सकते हैं CMUSphinx है । एक अन्य उत्तर में सुझाव के विपरीत जूलियस उपयुक्त नहीं है, क्योंकि इसके लिए मॉडल की आवश्यकता होती है। बड़ी शब्दावली भाषण मान्यता के लिए मॉडल जूलियस के लिए उपलब्ध नहीं हैं।
ऑडियो फ़ाइल में कनवर्ट करने के लिए आप पॉकेट्सफिंक्स का उपयोग कर सकते हैं । उन दो आज्ञाओं को अवश्य करना चाहिए। पहले आप फ़ाइल को आवश्यक प्रारूप में बदलते हैं और फिर आप इसे पहचानते हैं:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
रन पॉकेटफिनिक्स
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt
परिणाम result.txt में संग्रहीत किया जाएगा।
speech recognition
और voice command
टूल का एक अच्छा डेमो यहां है: youtube.com/…
pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log
काम किया। शायद वे इष्टतम पैकेज नहीं हैं, लेकिन वे सबसे अच्छे मैच थे जो मुझे रिपॉजिटरी में मिल सकते थे।
मुझे पता है कि यह पुराना है, लेकिन निकोले के जवाब पर विस्तार करने के लिए और उम्मीद है कि भविष्य में किसी को बचाने के लिए कुछ समय के लिए पॉकेट्सफिनिक्स के एक अप-टू-डेट संस्करण को प्राप्त करने के लिए आपको जीथब या सोर्सगेज रिपॉजिटरी से संकलन करने की आवश्यकता है (निश्चित नहीं) जिसे अधिक रखा गया हो)। नोट -j8 का अर्थ है कि यदि संभव हो तो समानांतर में 8 अलग-अलग नौकरियां चलाएं; यदि आपके पास अधिक CPU कोर हैं तो आप संख्या बढ़ा सकते हैं।
git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
फिर, से: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/
के नवीनतम संस्करण डाउनलोड cmusphinx-en-us-....tar.gz
औरen-70k-....lm.gz
tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz
तब आप अंततः निकोले के उत्तर के चरणों के साथ आगे बढ़ सकते हैं:
ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
-hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
2>pocketsphinx.log >book.txt
स्फिंक्स ठीक काम करता है। मैं पाठ के एक पठनीय संस्करण बनाने के लिए इस पर भरोसा नहीं करता, लेकिन यह काफी अच्छा है कि आप इसे खोज सकते हैं यदि आप किसी विशेष उद्धरण की तलाश कर रहे हैं। यदि आप Xapian ( http://www.lesbonscomptes.com/recoll/ ) जैसे खोज एल्गोरिथ्म का उपयोग करते हैं, जो विशेष रूप से अच्छी तरह से काम करता है, जो वाइल्डकार्ड स्वीकार करता है और सटीक खोज अभिव्यक्तियों की आवश्यकता नहीं होती है।
उम्मीद है की यह मदद करेगा।
pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory
-------> export LD_LIBRARY_PATH=/usr/local/lib
------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
मुझे लगता है कि आप भाषण को पाठ में परिवर्तित करना चाहते हैं जो आप अपने उबंटू सॉफ्टवेयर केंद्र को खोलने और जूलियस को खोजने का प्रयास कर सकते हैं
विवरण
"जूलियस" एक उच्च-प्रदर्शन है, भाषण-संबंधित शोधकर्ताओं और डेवलपर्स के लिए दो-पास बड़ी शब्दावली निरंतर भाषण मान्यता (LVCSR) डिकोडर सॉफ्टवेयर है।
या एक अन्य विकल्प जो सॉफ्टवेयर सेंटर में नहीं है वह साइमन है
... एक ओपन-सोर्स भाषण मान्यता कार्यक्रम है और माउस और कीबोर्ड की जगह लेता है।
संदर्भ लिंक
http://julius.sourceforge.jp/en_index.php
आप speechpad.pw ट्रांसक्रिप्शन पैनल का उपयोग कर सकते हैं