एमपी 3 को टेक्स्ट में बदलने के लिए स्पीच-रिकग्निशन ऐप?

27

क्या किसी ऐसे एप्लिकेशन का पता है जो ऑडियो को टेक्स्ट में बदल सके? मैं ubuntu 12.04 LTS चला रहा हूं।

software-recommendation speech-recognition

— Kopano
स्रोत

मुझे लगता है कि यह बोला गया पाठ है। वह पाठ किस भाषा में है?

— मार्टिन यूडिंग

भाषण पाठ सरल अंग्रेजी में है।

— कोपानो

21

सॉफ्टवेयर आप उपयोग कर सकते हैं CMUSphinx है । एक अन्य उत्तर में सुझाव के विपरीत जूलियस उपयुक्त नहीं है, क्योंकि इसके लिए मॉडल की आवश्यकता होती है। बड़ी शब्दावली भाषण मान्यता के लिए मॉडल जूलियस के लिए उपलब्ध नहीं हैं।

ऑडियो फ़ाइल में कनवर्ट करने के लिए आप पॉकेट्सफिंक्स का उपयोग कर सकते हैं । उन दो आज्ञाओं को अवश्य करना चाहिए। पहले आप फ़ाइल को आवश्यक प्रारूप में बदलते हैं और फिर आप इसे पहचानते हैं:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

रन पॉकेटफिनिक्स

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

परिणाम result.txt में संग्रहीत किया जाएगा।

— निकोले श्यामरेव
स्रोत

इस उत्तर के अतिरिक्त, दोनों speech recognitionऔर voice commandटूल का एक अच्छा डेमो यहां है: youtube.com/…

— Daithí

आप सिस्टम में एक ध्वनिक मॉडल कैसे जोड़ते हैं?

— जारो

आप बस इसे डाउनलोड करें और अनपैक करें, "सिस्टम में जोड़ें" जैसी कोई चीज नहीं है

— निकोले शिमरेव

@NikolayShmyrev मुझे कहाँ से अनपैक करना चाहिए ताकि पॉकेट्सफिनक्स_कॉन्टिनस इसे ढूंढे?

— जारो

4

ठीक है, मैंने उबंटू 14.04 के ब्रह्मांड भंडार में पॉकेट्सफिनक्स-बर्तन, पॉकेट्सफिंक्स-एचएम-एन-हब 4 एसजे और पॉकेट्सफिंक्स-एलएम-एन-हब 4 पैकेज स्थापित किए। फिर pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logकाम किया। शायद वे इष्टतम पैकेज नहीं हैं, लेकिन वे सबसे अच्छे मैच थे जो मुझे रिपॉजिटरी में मिल सकते थे।

— जारो

12

मुझे पता है कि यह पुराना है, लेकिन निकोले के जवाब पर विस्तार करने के लिए और उम्मीद है कि भविष्य में किसी को बचाने के लिए कुछ समय के लिए पॉकेट्सफिनिक्स के एक अप-टू-डेट संस्करण को प्राप्त करने के लिए आपको जीथब या सोर्सगेज रिपॉजिटरी से संकलन करने की आवश्यकता है (निश्चित नहीं) जिसे अधिक रखा गया हो)। नोट -j8 का अर्थ है कि यदि संभव हो तो समानांतर में 8 अलग-अलग नौकरियां चलाएं; यदि आपके पास अधिक CPU कोर हैं तो आप संख्या बढ़ा सकते हैं।

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

फिर, से: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ के नवीनतम संस्करण डाउनलोड cmusphinx-en-us-....tar.gzऔरen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

तब आप अंततः निकोले के उत्तर के चरणों के साथ आगे बढ़ सकते हैं:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

स्फिंक्स ठीक काम करता है। मैं पाठ के एक पठनीय संस्करण बनाने के लिए इस पर भरोसा नहीं करता, लेकिन यह काफी अच्छा है कि आप इसे खोज सकते हैं यदि आप किसी विशेष उद्धरण की तलाश कर रहे हैं। यदि आप Xapian ( http://www.lesbonscomptes.com/recoll/ ) जैसे खोज एल्गोरिथ्म का उपयोग करते हैं, जो विशेष रूप से अच्छी तरह से काम करता है, जो वाइल्डकार्ड स्वीकार करता है और सटीक खोज अभिव्यक्तियों की आवश्यकता नहीं होती है।

उम्मीद है की यह मदद करेगा।

— जोनाथन पेरी-होट्स
स्रोत

4

हर चीज़ एक आकर्षण की तरह काम करती है, लेकिन मेरे मामले में मुझे तय करने के लिए कमांड चलाना पड़ा

pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory

-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig

— विजय डोहरे

यह भी cmusphinx.github.io/wiki/tutorialpocketsphinx/…

— andrybak

11

मुझे लगता है कि आप भाषण को पाठ में परिवर्तित करना चाहते हैं जो आप अपने उबंटू सॉफ्टवेयर केंद्र को खोलने और जूलियस को खोजने का प्रयास कर सकते हैं

विवरण

"जूलियस" एक उच्च-प्रदर्शन है, भाषण-संबंधित शोधकर्ताओं और डेवलपर्स के लिए दो-पास बड़ी शब्दावली निरंतर भाषण मान्यता (LVCSR) डिकोडर सॉफ्टवेयर है।

या एक अन्य विकल्प जो सॉफ्टवेयर सेंटर में नहीं है वह साइमन है

... एक ओपन-सोर्स भाषण मान्यता कार्यक्रम है और माउस और कीबोर्ड की जगह लेता है।

संदर्भ लिंक

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

— CoalaWeb
स्रोत

1

आप speechpad.pw ट्रांसक्रिप्शन पैनल का उपयोग कर सकते हैं

प्रतिलेखन का उपयोग करने का वीडियो देखें

— अलेक्सई
स्रोत

यह अच्छा लग रहा है, हालांकि मुझे नहीं लगता कि यह उस सवाल का जवाब देता है जो किसी मौजूदा फ़ाइल का ट्रांसक्रिप्शन प्राप्त करना था। कहा जा रहा है, मैं सिर्फ स्फिंक्स की कोशिश की और यह बुरी तरह से विफल रहा ... प्रतिलेखन 99.9% गलत था।

— एलेक्सिस विल्के