खिलाड़ी नोटिस से पहले अधिकतम ऑडियो देरी?

38

किसी खेल में किसी घटना को देखते हुए, ऑडियो के निर्माण में अधिकतम देरी क्या होती है कि खिलाड़ी ऑडियो को उस घटना के साथ ठीक से जोड़ देगा (और नहीं देख सकता)?

audio

— edA-qa मोर्ट-ओर-वाई
स्रोत

बहुत ज्यादा नहीं। मुझे लगता है कि यह एक सेकंड के 1/10 से कम होना चाहिए। हालांकि व्यक्तिगत रूप से, मैं इसे नोटिस कर सकता हूं अगर यह 60 एफपीएस पर कुछ फ्रेम से अधिक था।

— अल्मो

मत भूलो कि ज्यादातर मामलों में प्रदान किए गए आउटपुट में कुछ अंतराल होगा, जिनमें से कुछ मॉनिटर से आएंगे। स्क्रीन पर प्रदर्शित किए जाने वाले प्लेयर इनपुट के परिणाम में 100 से अधिक एमएस हो सकते हैं। देखिए anandtech.com/show/2803

— एडम

1

जब आप एक श्रोता हो तो लगभग an० मिलीसेकंड के आसपास, जब यह एक उपकरण बजाता है, तो लगभग २० मिलीसेकंड होता है। यह सिर्फ मेरा व्यक्तिगत अनुभव है, आपका माइलेज अलग हो सकता है।

— rwols

किसी भी विशिष्ट समय से अधिक आपको निरंतरता की आवश्यकता होती है। जब तक सब कुछ एक ही देरी है आप कारण के भीतर हो सकता है। यदि सब कुछ 100ms देर से है, तो आप वास्तव में इसे नोटिस नहीं कर सकते हैं, लेकिन अगर कुछ आवाज़ें तत्काल के पास हैं और बाकी 100ms या कुछ इनबेटीन हैं तो आप नोटिस करेंगे।

— 0xFADE

यदि आप किसी भी तरह के यथार्थवादी व्यवहार में रुचि रखते हैं, तो आप श्रोता से कुछ सकारात्मक घटनाओं के लिए कुछ देरी को सकारात्मक मान सकते हैं।

— डार्कविंग्स

48

निम्न परिणाम की गणना लिप सिंक्रोनाइज़ेशन के लिए की जाती है, जिसे "सबसे अधिक ध्यान देने योग्य ए / वी सिंक त्रुटि" माना जाता है ।

विकिपीडिया कहता है

टेलीविजन अनुप्रयोगों के लिए, ऑडियो को 15 मिलीसेकंड से अधिक नहीं वीडियो का नेतृत्व करना चाहिए और ऑडियो को 45 मिलीसेकंड से अधिक नहीं होना चाहिए। फिल्म के लिए, स्वीकार्य होंठ सिंक को किसी भी दिशा में 22 मिलीसेकंड से अधिक नहीं माना जाता है।

द मीडिया एंड एकाउटिक्स परसेप्शन लैब कहती है

प्रयोग के परिणामों ने निर्धारित किया कि 42.32 एमएस के मानक विचलन के साथ / v सिंक पता लगाने के लिए औसत ऑडियो अग्रणी सीमा 185.19 एमएस थी।

ACS का कहना है

पहली नज़र में यह ढीला लगता है: +90 एमएस टू -185 एमएस एक "स्वीकार्यता की खिड़की" के रूप में

तथा

अंडरटेक करने योग्य -100 एमएस से लेकर एनवाई एमएस तक

पता लगाने योग्य -125 एमएस और +45 एमएस

-185 एमएस और +90 एमएस में अस्वीकार्य हो जाता है

(- ध्वनि में देरी, + ध्वनि उन्नत)

समाप्त करने के लिए

परिणाम अब तक एक दूसरे से नहीं हैं। ऐसा लगता है कि अधिकतम स्वीकार्य देरी 150ms के आसपास है, जो 60 फ्रेम प्रति सेकंड पर 9 फ्रेम है।

— Heckel
स्रोत

3

"यदि आपके पास देरी है, तो यह वीडियो होना चाहिए जो देरी हो।" ऐसा लगता है कि इसे उलट दिया जाना चाहिए, एटीएससी लेख में स्पष्ट रूप से कहा गया है कि लोग दृष्टि के बाद होने वाली ध्वनि की अपेक्षा / सहन करते हैं (क्योंकि वास्तविक जीवन में ध्वनि लगभग लगभग 1 एमबी प्रति फीट की दूरी पर है), लेकिन घटनाओं को ठीक से नहीं जोड़ते हैं। अगर ध्वनि के बाद वीडियो घटना होती है।

— पीटरिस

आप सही हैं, मुझे पूरी तरह से गलत समझा गया। धन्यवाद। (मैंने संपादित किया)

— हेकेल

1

मैं आपको व्यक्तिगत अनुभव से बता सकता हूं कि यह एक ही व्यक्ति में कानों के बीच भी भिन्न होता है। मेरे पास एक दुर्लभ वेस्टिबुलर स्थिति है जो वास्तव में मेरे मस्तिष्क को मेरे बाएं कान में श्रवण उत्तेजना को संसाधित करने का कारण बनती है। खराब दिन पर यह चक्कर आता है, लेकिन ज्यादातर समय यह सहन करने योग्य होता है। तो हाँ, यह अत्यंत व्यक्तिपरक है।

— एंडन एम। कोलमैन

आपको 150ms कहां से मिलेंगे? आपके स्रोत स्पष्ट रूप से लगभग 45ms औसत हैं।

— माइल्स रूट

विकिपीडिया 45ms कहता है, लेकिन यह सबसे विश्वसनीय स्रोत नहीं है। दूसरा स्रोत 185.19 एमएस और तीसरा 125 सेमी कहता है जब तक कि यह ध्यान देने योग्य नहीं हो जाता। क्या आप मुझे गलत समझने में मदद करने के लिए स्रोत उद्धृत कर सकते हैं?

— हेकेल

9

यह घटना पर निर्भर करता है

यह महसूस करना कि, कहना, एक विस्फोट जिसे आप देखते और सुनते हैं, वह एक घटना है, जिसमें अन्य उत्तरों में वर्णित सहनशीलता होगी - ~ 50ms से अधिक नहीं; कुछ लोग अधिक संवेदनशील हो सकते हैं (जैसे संगीतकार), इसलिए मैं 30ms या 60fps पर 2 से अधिक फ्रेम करने का लक्ष्य नहीं रखूंगा।

मेरा मानना है कि कथित दूरी को उन सहिष्णुताओं को प्रभावित करना चाहिए। लोगों को उम्मीद है कि दूर की आवाज़ें थोड़ी देरी से होंगी, क्योंकि वास्तविक जीवन में ध्वनि प्रत्येक पैर की दूरी पर लगभग 1ms है। इसलिए एक ज़ूम आउट आरटीएस गेम 'मैप' पर एक धमाके के लिए साउंड लैग के लिए एक बड़ी सहिष्णुता हो सकती है, जैसे खिलाड़ी एफपीएस में अपनी बंदूक से फायरिंग करता है।

विशेष मामलों, जैसे कि संगीत / रीतम खेल के लिए उचित अनुभव होना, बहुत अधिक सख्त सहिष्णुता की आवश्यकता हो सकती है, 15-20ms या इससे भी कम - उदाहरण के लिए, यदि खिलाड़ी दोनों "इनपुट एक्शन" को सुनता है जैसे कि एक माइक में गाना या एक बैंग करना। प्लास्टिक इंस्ट्रूमेंट, और एक ही घटना के लिए आपके सिस्टम द्वारा उत्पन्न ध्वनि भी, फिर एक 50ms अंतराल अजीब तरह से मिश्रण करने के लिए "मूल" और "खेला" ध्वनियों का कारण होगा।

इसके अलावा, ऑडियो फ़ाइल की शुरुआत और उस ऑडियो फ़ाइल के अंदर "ईवेंट" के बीच के अंतराल को ध्यान में रखें - कई ऑडियो क्लिप में, "ईवेंट" किनारे पर सही नहीं होगा, आपके पास बिजली की आवाज़ हो सकती है स्ट्राइक जहां which स्ट्राइक ’शुरुआत के बाद 200ms की होती है, जो हर किसी के लिए स्पष्ट होगी, और बहुत सारी साउंड फाइलें, यहां तक कि ड्रम-हिट भी, वहां कुछ देरी होगी ।

औसत माप न करें - सबसे खराब स्थिति को देखें

दृष्टि और श्रवण मानव धारणा में गहराई से जुड़े हुए हैं, और यदि उनमें से एक अपेक्षाकृत दूसरे से टकराता है, तो यह उल्लेखनीय होगा। यह ठीक नहीं है अगर ज्यादातर समय बहुत तेज है लेकिन कभी-कभी 0.2 सेकंड की देरी होती है जबकि कुछ लोड हो रहा है - लोग ऐसी स्थितियों को नोटिस करेंगे। यही कारण है कि ऑडियो को अक्सर एक अलग थ्रेड पर रखा जाता है, अन्य गतिविधियों से अलग किया जाता है और केवल प्रीलोडेड क्लिप को खेला जाना चाहिए।

— पीटर है
स्रोत

5

किसी भी स्थिति में जहां एक खिलाड़ी ध्वनि का कारण बनता है (संगीत खेल, एफपीएस में बंदूकें) बहुत कम देरी की आवश्यकता होगी क्योंकि खिलाड़ी ने उस समय ऐसा करने के लिए एक आवेग भेजा है, इसलिए एक संगीतकार को सुनने के साथ उनके उपकरण में देरी हो रही है, विशेष रूप से जागरूक होगा बहुत छोटे विलंब से। साउंड इंजीनियर "देरी" को बर्बाद करते हुए 5 mec से नीचे रिकॉर्डिंग देरी के बारे में झल्लाहट करते हैं

द अमेरिकन एकेडमी ऑफ ऑडियोलॉजी के जर्नल में कहा गया है कि लोग (सिर्फ संगीतकार नहीं), जब उनकी खुद की आवाज को सुनने में देरी होती है, तो देरी के बारे में पता चलता है कि 3mecec जितना छोटा है, और 10 mSec से अधिक की देरी 90% समय आपत्तिजनक थी।

मनुष्य दिशात्मक जानकारी के लिए अपने कानों के बीच समय की देरी का उपयोग करते हैं, और इस प्रकार 1mSec से नीचे की देरी से जानकारी को संसाधित करने और निकालने में सक्षम होना चाहिए

185.19 एमएस ऊपर उद्धृत अप्रासंगिक है क्योंकि यह एक प्रमुख ध्वनि त्रुटि का जिक्र है, और किसी भी तरह, जो लोगों को स्वीकार्य लगता है जब निष्क्रिय रूप से एक फिल्म देख रहे हैं, सक्रिय रूप से एक खेल में नहीं लगे हुए हैं।

— Samb
स्रोत

4

यहां स्वीकृत उत्तर मुख्य रूप से निष्क्रिय रूप से देखने वाले वीडियो में ऑडियो सिंक्रनाइज़ेशन की धारणा पर चर्चा करता है। इन मामलों में, दर्शकों को आसानी से ठीक से पिन नहीं किया जा सकता है जब वीडियो में टेलटैल संकेतों को शामिल करके ऑडियो को खेलना चाहिए। इसका मतलब है कि उनके पास ध्वनि की सीमित प्रत्याशा है।

खेल में दो महत्वपूर्ण मामले हैं जहाँ यह कम प्रत्याशा धारणा धारण नहीं करती है:

जब खिलाड़ी खुद ध्वनि का कारण बनता है (जैसा कि सैमबी बताते हैं), तो उसी समय से वे बटन को दबाने का इरादा बनाते हैं, जब वे ध्वनि को सुनने की उम्मीद करते हैं, तो वे वास्तव में जानते हैं।
जब ध्वनि को आवधिक बीट पर संगीत के खेल या टिक टिक टाइमर / काउंटर के साथ किसी भी चीज़ पर उतरना चाहिए , तो यह ताल खिलाड़ी को अगली ध्वनि और सूचना का अनुमान लगाने की अनुमति देता है, यदि वह समय से बाहर बजता है।

जीडीसी 2013 से इस बात में, मैथ्यू पवाग्यू का तर्क है कि खिलाड़ियों को लगभग 5ms से ऊपर की सिंक्रोनस परिशुद्धता में अंतर महसूस हो सकता है , लिप सिंकिंग से उदाहरणों की तुलना में बहुत कम क्षमा करना सुझाव देगा। अपने लिए इसे सुनने के लिए "टाइम परसेप्शन उदाहरण" और "यूबीसॉफ्ट गेम्स का उदाहरण" अनुभाग देखें। आप सुन सकते हैं कि रेमन ओरिजिन्स मेनू 16 सेकंड (वीडियो फ्रेम) के भीतर सिंक किए जाने पर "लैगी" नहीं लगता, लेकिन जब 5 एमएस के भीतर सिंक किया जाता है तो यह बेहतर और तंग लगता है।

यदि आप इस प्रकार की तंग-लयबद्ध गेमप्ले चाहते हैं, तो इस तरह की सब-फ्रेम परिशुद्धता प्राप्त करने के लिए, पावेगाव निम्न-स्तरीय ऑडियो कॉलबैक का उपयोग करने की वकालत करता है।

— DMGregory
स्रोत

2

उन खेलों के लिए जिन्हें ऑडियो संकेतों पर प्रतिक्रिया करने के लिए एक व्यक्ति की आवश्यकता होती है, प्रत्येक मिलीसेकंड जिसके द्वारा ध्वनि में देरी होती है, उसी कारण व्यक्ति की प्रतिक्रिया में देरी होगी। कोई व्यक्ति जो केवल एक फिल्म या कट-सीन देख रहा है, वह बहुत ज्यादा नोटिस नहीं कर सकता है यदि ऑडियो और वीडियो बिल्कुल सिंक में नहीं हैं, लेकिन यह अक्सर महत्वपूर्ण होता है और कभी-कभी महत्वपूर्ण होता है कि ऑडियो उस चीज के साथ सिंक हो सकता है जो खिलाड़ी से होने की उम्मीद है ।

— supercat
स्रोत

-1

सिद्धांत रूप में, 50ms से ऊपर सब कुछ ध्यान देने योग्य हो सकता है जब यह चित्रों के साथ जुड़ता है, तो 25ms पर आप एक ध्वनि सुनना शुरू कर सकते हैं और दो अलग-अलग ध्वनियों के रूप में इसकी देरी हो सकती है, इसलिए मैं कहूंगा कि मैं आपको 50ms से कम रहने की सलाह दूंगा और यदि आप यहां तक कि 5ms से 15ms तक कुछ पर रह सकते हैं यह वास्तव में अच्छा होगा।

उम्मीद है इससे आपको मदद मिलेगी!

https://en.wikipedia.org/wiki/Delayed_Auditory_Feedback

— एक्स-Raysounds
स्रोत

यह उत्तर किसी भी नई सलाह को पहले से मौजूद उत्तरों में शामिल नहीं करता है, इसलिए यह आपकी संपर्क जानकारी के लिए सिर्फ एक प्लग या विज्ञापन के रूप में बंद होने का खतरा है। StackExchange सेवाओं को बढ़ावा देने के लिए अभिप्रेत नहीं है, इसलिए मैं उस हिस्से को हटाने की सलाह दूंगा (लोग अब भी आपको अपने उपयोगकर्ता नाम से देख सकते हैं), और इस बारे में अधिक विवरण जोड़ते हैं कि आप मौजूदा उत्तरों में शामिल होने से परे विशेष समय की अनुशंसा क्यों करेंगे।

— DMGregory

हमारे द्वारा देखे गए उत्तरों में से कोई भी हमारे लिए सही नहीं था, हम साउंड इंजीनियर और ध्वनिकी की एक टीम है जो हमने सीखी पहली बात है। कुछ जवाब 100ms दूसरों पर कह रहे थे जहां -100s और + 85s कैसे एक जवाब है? -50ms या + 50ms यह अभी भी 50ms का अंतर कार्रवाई और ध्वनि को धोखा देता है। हम केवल यह कोशिश कर रहे हैं कि अगर हमारा ईमेल दे तो हम उसे हटा दें।

— X-Raysounds

उदाहरण के लिए, 3 साल पहले के पीटरिस का उत्तर, जो 50 एमएस की एक ही पूर्ण ऊपरी टोपी देता है और इस उत्तर को कम करने की सिफारिश करता है, या मैथ्यू पवाग्यू बात के संदर्भ में आदर्श लक्ष्य के रूप में 5ms की सिफारिश करता है। जब तक आप सिफारिशों पर विस्तार नहीं करना चाहते हैं, तब तक इस उत्तर में क्या शामिल है के सरगम को कवर करना प्रतीत होता है? उदाहरण के लिए, यदि आपको लगता है कि विकिपीडिया लिंक से विवरण प्रासंगिक हैं, तो कम से कम उन्हें उत्तर के पाठ में संक्षेप में प्रस्तुत करने का अच्छा अभ्यास है (यदि भविष्य में लिंक किए गए पृष्ठ में परिवर्तन होता है)।

— DMGregory

इस बारे में खेद है कि हमने उन सभी उत्तरों को नहीं पढ़ा है जिन्हें हम कुछ लोगों को छोड़ देते हैं फिर हमने कहा कि हम क्या जानते हैं और इसे एक विकिपीडिया लिंक के साथ लागू करते हैं, हम अभी भी मंच पर नए-नए हैं, हम ध्वनि पर कुछ मदद देने की कोशिश कर रहे हैं संबंधित समस्याएं लेकिन हमें बहुत हाहा नहीं हुआ

— X-Raysounds

कोई चिंता नहीं। नए उपयोगकर्ताओं को कोचिंग देना इन टिप्पणियों के मौजूद होने का एक कारण है। :) आपको StackExchange के उत्तर बहुत जल्दी मिलेंगे - इसका मतलब है कि उनके बारे में सोचना मंच के जवाबों के बजाय दीर्घकालिक संदर्भ संसाधनों के रूप में है।

— DMGregory