YouTube पर वीडियो अपलोड किए बिना Google के YouTube भाषण पहचान का उपयोग कैसे करें?


15

मेरे पास बहुत सी व्याख्यान वीडियो सामग्री है जो मुझे उपशीर्षक के लिए चाहिए। YouTube स्वचालित रूप से कुछ शर्तों के तहत वीडियो के लिए सबटाइटल बनाता है (वे स्थितियाँ अभी भी मेरे लिए कुछ रहस्य की तरह हैं)।

मैं YouTube के बाहर इस भाषण पहचान तकनीक का उपयोग करने में सक्षम होना चाहूंगा। मैं हर वीडियो सिर्फ ट्रांसस्क्रिप्ट (बहुत अधिक समय लेने वाला) प्राप्त करने के लिए अपलोड नहीं करना चाहता, इसके अलावा, मुझे नहीं लगता कि YouTube इसे उन वीडियो के लिए करेगा जो लगभग 30 मिनट से अधिक हैं (उनमें से अधिकांश), आगे, मैं ऐसा मत सोचो कि यह गैर-सार्वजनिक सूचीबद्ध वीडियो के लिए करेगा (जो एक समस्या है क्योंकि यह प्रीमियम सामग्री है जिसे बेचा जाना है)।

सही परिदृश्य: एक प्रोग्राम है जिसे मैं अपने डेस्कटॉप से ​​चला सकता हूं ताकि इन वीडियो से ट्रांस्क्रिप्ट प्राप्त की जा सके और यह YouTube के समान या बेहतर गुणवत्ता वाला हो और इसमें SRT या XML के समान समय कोड हो, जो YouTube उत्पन्न करता है [ कैसे करें] YouTube उपशीर्षक प्राप्त करें ]।

स्वीकार्य परिदृश्य: कुछ तरकीबें हैं जिनसे मैं YouTube को वीडियो प्रसारित करने के लिए मजबूर कर सकता हूं, चाहे वह निजी या सार्वजनिक पर सेट हो और लंबाई के बावजूद।

उपयुक्त परिदृश्य: एक पुस्तकालय या कुछ ऐसा है जिसे मैं अपने स्वयं के कार्यक्रम को कोड करने के लिए उपयोग कर सकता हूं। मैं C # के साथ अच्छा हूं और C ++ के साथ ठीक हूं (लेकिन मैं वास्तव में C # पसंद करता हूं)।


2
ऊपर लिंक के लिए धन्यवाद - एक बहरा दृष्टिकोण से, बहुत कैसे इस काम करता है ... सुनने के लिए रुचि
studiohack

@studiohack कोई दंड नहीं है।
1935 पर 287352

LOL, मुझे भी इसका एहसास नहीं था! : पी
studiohack

जवाबों:


10

Google ने क्रोम में वेब स्पीच एपीआई (भाषण मान्यता और संश्लेषण दोनों के लिए) लागू किया, जिसका उपयोग आप डेवलपर होने पर कर सकते हैं। यह वही है जो YouTube कुछ वीडियो पर करीबी कैप्शन उत्पन्न करने के लिए उपयोग करता है। शायद आपको इसके साथ बातचीत करने के लिए कोड मिल जाएगा।

डेटा प्रवाह शायद होगा:

एक वीडियो फ़ाइल => अर्क निकालें और ऑडियो => इसे Google API पर भेजें => पाठ प्राप्त करें => SRT में लिखें।

संपादित करें: W3C कल्पना के अलावा कोई आधिकारिक API पेज नहीं लगता है। तो यहाँ और अधिक लिंक हैं:

ये उदाहरण क्रोम के अंदर से एपीआई का उपयोग करने के बारे में हैं, लेकिन आप सीधे Google के ऑनलाइन भाषण मान्यता इंजन को क्वेरी कर सकते हैं। उदाहरण के लिए, रैस्परबरी पाई के लिए एक भाषण पहचानने वाला निजी सहायक , जैस्पर , आपको Google को भाषण पहचान इंजन के रूप में चुनने देता है ।


धन्यवाद! मैं निश्चित रूप से यह कोशिश करूंगा। यदि यह जल्दी से किया जा सकता है (प्रसंस्करण समय को छोड़कर) तो मैं इसे अपने उत्पाद में लागू कर सकता हूं। क्या वरदान होगा।
287352

एपीआई का एक अन्य स्रोत एक नोडवेबकिट वातावरण हो सकता है
जॉन ड्वोरक

1

"ऑटोसब" नामक एक उपकरण है (जीथब पर एगरमिडिस / ऑटोसब देखें) जो ठीक यही करता है, हालांकि यह पुराने Google भाषण एपीआई का उपयोग करता है। उपकरण ऑडियो को FLAC फ़ाइलों में पट्टी करने के लिए ffmpeg का उपयोग करता है और फिर प्रतिलेखन के लिए Google को FLAC फ़ाइलें भेजता है। यह SRT या VTT फ़ाइल का निर्माण करता है।

पुराने Google API के कारण सटीकता कम है। एक और हालिया एपीआई ( https://cloud.google.com/speech/docs/apis पर "क्लाउड स्पीच रेस्ट एपीआई" ) है। यह एपीआई बहुत सरल है और कुछ बिंदु पर, मैं उस का उपयोग करने के लिए ऑटोसब को कांटा करने वाला था।

विकल्प YouTube पर अपलोड करने और कैप्शन पूरा होने पर VTT फ़ाइल डाउनलोड करने का है। इसके साथ जटिलता यह है कि YouTube उदाहरण वाक्य के बजाय बहुत महीन दाने वाले कैप्शन (जैसे शब्दों के एक जोड़े) का उत्पादन करता है। इससे मैन्युअल स्कैन करते समय कैप्शन की जांच करना कठिन हो जाता है।


1

सबसे आसान तरीका यह है: Google डॉक्स पर जाएं, एक नया टेक्स्ट डॉक्यूमेंट खोलें और टूल्स "वॉयस टाइपिंग" से चुनें, फिर अपना टेप चलाएं। हाँ। इट्स दैट ईजी! (और कई भाषाओं का समर्थन करता है)

अन्यथा आप HTML5 के साथ एक स्थानीय वेबपेज का उपयोग कर सकते हैं: https://www.labnol.org/software/add-speech-recognition-to-website/19989/

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.