अगर मनुष्य केवल 20 kHz की आवृत्ति ध्वनि तक सुन सकता है, तो संगीत ऑडियो 44.1 kHz पर क्यों नमूना है?


60

मैंने कुछ स्थानों पर पढ़ा कि संगीत अधिकतर ४४.१ kHz पर नमूना लिया जाता है जबकि हम केवल २० kHz तक सुन सकते हैं। यह ऐसा क्यों है?


1
छोटे लोग उच्च आवृत्तियों को सुन सकते हैं। अन्य रिकॉर्डिंग तकनीकें 48 kHz तक का उपयोग करती हैं।
थोरबजोरन रावन एंडरसन

15
Nyquist प्रमेय: एक लहर की आवृत्ति को बताने के लिए आपको हर नमूने के दो नमूने चाहिए।
मैथ्रेडलर

क्योंकि प्रोसेसर तेज हैं, मेमोरी सस्ती है, लेकिन अच्छे एनालॉग फिल्टर अभी भी मुश्किल हैं, यहां तक ​​कि उच्च नमूना दर भी समझ में आ सकती है (96 या 192 kHz)
निक टी

2
@ ThorbjørnRavnAndersen मुझे लगता है कि 48 kHz आम है क्योंकि यह वीडियो उत्पादन में 24, 25 और 30 एफपीएस में विभाजित है। 24 समान रूप से 44100 में नहीं जाता है। यही विकिपीडिया का उल्लेख है।
निक टी

4
@SohamDe ऐसा इसलिए है क्योंकि यदि आप 20 kHz पर 20 kHz ऑडियो सिग्नल का नमूना लेते हैं, तो आपको कुछ भी नहीं सुनाई देगा । यह चित्र, एक साइन लहर जो हर 1 / 20,000 सेकंड में बोलती है। ठीक है, अगर आप उसी दर पर नमूना लेते हैं, तो आप केवल चोटियों (या नोड्स, या जो भी स्तर पर आप इसे नमूना करने के लिए करते हैं) का नमूना लेंगे। इसलिए जब आप डिजिटल से सिग्नल को फिर से बनाते हैं, तो आपको एक फ्लैट लाइन मिलती है। इस अवधारणा को एलियासिंग कहा जाता है और यह इसे ऐसा बनाता है कि आपको कम से कम दो बार अधिकतम आवृत्ति का नमूना लेना चाहिए जिसे आप सुनने में सक्षम होना चाहते हैं। 44 100 हर्ट्ज सुविधाजनक है क्योंकि 2 की शक्ति से विभाज्य है
माइकलके

जवाबों:


89
  1. एक वास्तविक सिग्नल की सैंपलिंग दर सिग्नल बैंडविड्थ से दोगुनी से अधिक होनी चाहिए। ऑडियो व्यावहारिक रूप से 0 हर्ट्ज से शुरू होता है, इसलिए 44.1 kHz पर रिकॉर्ड किए गए ऑडियो में मौजूद उच्चतम आवृत्ति 22.05 kHz (22.05 kHz बैंडविड्थ) है।
  2. सही ईंटवॉल फिल्टर गणितीय रूप से असंभव हैं, इसलिए हम 20 किलोहर्ट्ज़ से अधिक आवृत्तियों को पूरी तरह से काट नहीं सकते हैं। अतिरिक्त 2 kHz फ़िल्टर के रोल-ऑफ के लिए है; यह "wiggle कमरा" है जिसमें अपूर्ण फ़िल्टर के कारण ऑडियो उर्फ हो सकता है , लेकिन हम इसे नहीं सुन सकते।
  3. 44.1 kHz का विशिष्ट मूल्य PAL और NTSC वीडियो फ्रेम दर के साथ संगत था।

ध्यान दें कि औचित्य कई स्थानों पर प्रकाशित हुआ है: विकिपीडिया: ४४.१ kHz क्यों?


9
नमस्ते, मैं वास्तव में आपके उत्तर से सहमत हूं, लेकिन ".. उच्चतम आवृत्ति" की बात बहुत जल्द शुरू होती है, क्योंकि Nyquist बैंडविड्थ के बारे में है, उच्चतम आवृत्ति नहीं; मैं आगे बढ़ा और आपके उत्तर को थोड़ा संशोधित किया। कृपया जांचें कि क्या यह आपके साथ ठीक है।
मार्कस मूलर

2
@ रूसन: विकिपीडिया इसके बारे में काफी अच्छा है।
jojek

2
@BrianDrummond तो इसे संपादित करें?
एंडोलिथ

3
@ MarcusMüller शुरुआत करने वाले को "Nyqvist द्वारा सबसे अधिक अनुमति दी गई आवृत्ति" काट दिया जाता है, वैसे भी, कलाकृतियों को अलियास करने से काट लिया जाएगा ... उसके बाद, वे यह भी समझेंगे कि बैंडविड्थ की आवृत्तियों की कोई भी सीमा और बीच में से किसी एक को जाती है। । Δf0Δf=fs/2
वामावर्तबाउट

1
दस हार्मोनिक्स के साथ 19,999.9Hz ध्वनि या नौ के साथ 20,000.1Hz ध्वनि के बीच अंतर बताने में सक्षम नहीं हो सकता है अगर कोई उन्हें अलग से सुनता है, लेकिन इसका मतलब यह नहीं है कि दोनों के बीच संक्रमण श्रव्य नहीं होगा। अधिक क्रमिक कट-ऑफ के साथ फिल्टर होने से ऐसे मुद्दों से बचा जा सकता है।
सुपरकैट

72

44,100 को सोनी द्वारा चुना गया था क्योंकि यह पहले चार अभाज्य संख्याओं के वर्ग का उत्पाद है। यह कई अन्य संपूर्ण संख्याओं द्वारा इसे विभाज्य बनाता है , जो डिजिटल नमूने में एक उपयोगी संपत्ति है।

44100 = 2^2 * 3^2 * 5^2 * 7^2

आपने ध्यान दिया होगा, 44100 भी है बस ऊपर मानव सुनवाई की सीमा दोगुनी हो गई। बस ऊपर भाग फिल्टर कुछ छूट देता है, इसलिए उन्हें कम खर्चीला बनाने (कम चिप्स को अस्वीकार कर दिया)।

जैसा कि रसेल टिप्पणियों में बताते हैं, कई अन्य पूर्ण संख्याओं के पहलू से नमूना दर के चयन के समय एक तत्काल लाभ हुआ था। प्रारंभिक डिजिटल ऑडियो मौजूदा एनालॉग वीडियो रिकॉर्डिंग मीडिया पर दर्ज किया गया था, जो कि क्षेत्र पर निर्भर करता है, या तो NTSC या PAL वीडियो कल्पना। NTSC और PAL की अलग-अलग लाइनें प्रति फील्ड और फील्ड्स प्रति सेकंड की दर से थीं, जिनमें से LCM (प्रति लाइन नमूने के साथ) 44100 है


12
यह विकल्प केवल कई प्रमुख कारकों को प्राप्त करने के बारे में नहीं था, लेकिन विशेष रूप से डिजिटल मास्टर्स को संग्रहीत करने के लिए NTSC और PAL वीडियो रिकॉर्डिंग उपकरण का अच्छा उपयोग करना था। en.wikipedia.org/wiki/44,100_Hz#Recording_on_video_eelines
रसेल बोरोगोव

3
@RussellBorogove: धन्यवाद। विकी लिंक के अनुसार, 44100 NTSC और नमूना वीडियो सुविधाओं की दरों के एलसीएम है । इतने सारे कारकों के साथ एक संख्या होने का यह एक सीधा परिणाम है, और मुझे विश्वास है कि आप सही हैं कि घोड़े ने इस कल्पना के लिए गाड़ी का नेतृत्व किया।
dotancohen

1
कई संख्याओं से विभाज्य, लेकिन 8 :) से नहीं
बोगडान एलेक्जेंड्रू

(विकिपीडिया का कहना है कि ४०.५ से लेकर ४६. would kHz तक की विभिन्न दरें इन मानदंडों को पूरा करती थीं, और ४४.१ kHz को एंटीलियासिंग फिल्टर के लिए एक संक्रमण बैंड प्रदान करने के लिए चुना गया था)
एंडोलिथ '

2
@BogdanAlexandru इसके अलावा 1 ms USB फ्रेम से विभाज्य नहीं है: D
endolith

13

Nyquist दर एक बेसबैंड सिग्नल के दो बार बैंडलिमिट से ऊपर है जिसे आप अस्पष्टता के बिना कैप्चर करना चाहते हैं (उदाहरण के लिए अलार्मिंग)।

दो बार 20kHz से कम दर पर नमूना, और आप केवल अलियासिंग के कारण नमूनों को देखने से बहुत अधिक और बहुत कम आवृत्तियों के बीच अंतर बताने में सक्षम नहीं होंगे।

जोड़ा गया: ध्यान दें कि किसी भी परिमित लंबाई संकेत को फ़्रीक्वेंसी डोमेन में अनंत समर्थन प्राप्त होता है, इस प्रकार यह सख्ती से बंद नहीं होता है। यह अभी तक एक और कारण है कि किसी भी गैर-अनंत ऑडियो स्रोत का नमूना उच्चतम आवृत्ति स्पेक्ट्रा (बेसबैंड सिग्नल में) से दो बार थोड़ा ऊपर है , महत्वपूर्ण एलियासिंग (परिमित फिल्टर संक्रमण रोल-ऑफ के कारणों से परे) से बचने के लिए आवश्यक है।


नमस्ते, मैं वास्तव में आपके उत्तर से सहमत हूं, लेकिन ".. उच्चतम आवृत्ति" की बात बहुत जल्द शुरू होती है, क्योंकि Nyquist बैंडविड्थ के बारे में है, उच्चतम आवृत्ति नहीं; मैं आगे बढ़ा और आपके उत्तर को थोड़ा संशोधित किया। कृपया जांचें कि क्या यह आपके साथ ठीक है।
मार्कस मूलर

6
@ MarcusMüller, क्योंकि नमूने के लिए "शुरुआती" नमूने के साथ शुरू बेसबैंड और नहीं संकेतों पासबैंड संकेत, यह वास्तव में है सर्वोच्च आवृत्ति (कभी-कभी "bandlimit") के बारे में और नहीं बैंडविड्थ (जो एक तरफा या दो तरफा के बारे में एक अतिरिक्त अस्पष्टता है बैंडविड्थ)।
रॉबर्ट ब्रिस्टो-जॉनसन

@ robertbristow-johnson ने उस अस्पष्टता को नहीं देखा है। हम्म; मुझे बंदलीम वाला तरीका पसंद है!
मार्कस मुलर

3
में विकिपीडिया लेख हम इसे "कॉल " और, हालांकि शैनन ने कहा कि के लिए पर्याप्त है, वह, परिमित ऊर्जा संभालने था पर ऐसा नहीं sinusoids (जो अनंत ऊर्जा है और यह भी डाल सकते हैं Dirac डेल्टा )। यदि आप आवृत्ति पर एक साइनसॉइड के लिए अनुमति देते हैं , तो यह अधिक बार कहा जाने वाला । Bfs2B±BBfs>2B
रॉबर्ट ब्रिस्टो-जॉनसन

10

असल में, सिग्नल के नमूने के लिए दो बार बैंडविड्थ एक सामान्य आवश्यकता है, इस प्रकार kHz न्यूनतम है। फिर, अपूर्ण फ़िल्टरिंग और परिमाणीकरण के साथ सामना करने के लिए थोड़ा अधिक उपयोगी है । विवरण का पालन करें।2×20=40

सिद्धांत में आपको जो चाहिए वह वह नहीं है जो व्यवहार में आवश्यक है। यह उद्धरण के साथ जाता है (कई के लिए जिम्मेदार):

सिद्धांत रूप में सिद्धांत और व्यवहार में कोई अंतर नहीं है। व्यवहार में है।

मैं ऑडियो का विशेषज्ञ नहीं हूं, लेकिन मुझे उच्च गुणवत्ता वाले ऑडियो नमूने / संपीड़न वाले लोगों द्वारा प्रशिक्षित किया गया है। मेरा ज्ञान रूखा हो सकता है, इसे सावधानी से लें।

सबसे पहले, मानक नमूनाकरण सिद्धांत कुछ मान्यताओं के तहत काम करता है: रैखिक प्रणालियां, और समय आक्रमण। फिर, एक निरंतर बैंडलेडेड घटना को जाना जाता है, सिद्धांत रूप में, संभवतः नुकसान के बिना बैंडविड्थ (या बेसबैंड सिग्नल के लिए अधिकतम आवृत्ति) के बारे में दो बार नमूना लिया जाता है। "Nyquist दर" को अक्सर इस प्रकार परिभाषित किया जाता है:

न्यूनतम दर जिस पर त्रुटियों का परिचय दिए बिना एक संकेत का नमूना लिया जा सकता है

यह "नमूना प्रमेय" का विश्लेषण हिस्सा है। "हो सकता है" महत्वपूर्ण है। एक संश्लेषण हिस्सा है: निरंतर संकेत " कार्डिनल साइन का उपयोग करके" पुनर्निर्माण किया जा सकता है । यह एकमात्र तकनीक नहीं है, और यह कम-पास प्रीफिल्टरिंग, गैर-रैखिक (जैसे कि परिमाणीकरण, संतृप्ति) और अन्य समय-संस्करण कारकों को ध्यान में नहीं रखता है।

मानव श्रवण एक साधारण विषय नहीं है। यह स्वीकार किया जाता है कि मनुष्य 20 हर्ट्ज से 20,000 हर्ट्ज तक की आवृत्तियों को सुनते हैं। लेकिन हर्ट्ज में ऐसी सटीक सीमाएं सभी मनुष्यों के लिए प्रकृति का लक्षण नहीं हैं। उच्च आवृत्तियों के प्रति संवेदनशीलता का क्रमिक नुकसान अक्सर उम्र के साथ होता है। दूसरी तरफ:

आदर्श प्रयोगशाला स्थितियों के तहत, मनुष्य ध्वनि को 12 हर्ट्ज से कम और 28 किलोहर्ट्ज़ जितना ऊँचा सुन सकते हैं, यद्यपि वयस्कों में यह सीमा 15 किलोहर्ट्ज़ से अधिक बढ़ जाती है।

श्रवण रैखिक नहीं है: ऑडिशन और पीड़ित थ्रेसहोल्ड हैं । यह समय-अपरिवर्तनीय नहीं है। समय और आवृत्ति दोनों में मास्किंग प्रभाव होता है।

यदि 20 हर्ट्ज तक 20,000 हर्ट्ज बैंड एक आम सीमा है, और 40,000 हर्ट्ज को सैद्धांतिक रूप से पर्याप्त होना चाहिए, तो अतिरिक्त विरूपण के साथ सामना करने के लिए थोड़ा अतिरिक्त आवश्यक है। अंगूठे का एक नियम कहता है कि 10% अधिक ठीक है ( सिग्नल बैंडविड्थ) और 44,100 हर्ट्ज बस ऐसा करता है। यह 1970 के दशक के अंत में वापस चला गया। 44,000 हर्ट्ज का उपयोग क्यों नहीं किया जाता है? मुख्य रूप से मानकों के कारण, सीडी की लोकप्रियता से निर्धारित होता है, जिसकी तकनीक हमेशा ट्रेड-ऑफ पर आधारित होती है। इसके अलावा, 44,100 पहले चार अभाज्य संख्याओं के वर्गों का उत्पाद है ( ), इसलिए छोटे कारक हैं, संगणना के लिए फायदेमंद (जैसे एफएफटी)।2.2×22×32×52×72

तो से (और गुणकों) से, हमारे पास सुरक्षा, मात्रा का ठहराव, प्रयोज्य, गणना और मानकों में संतुलन है।2×2044.1

अन्य विकल्प मौजूद हैं: उदाहरण के लिए DAT प्रारूप 48 kHz नमूने के साथ जारी किया गया था, शुरू में मुश्किल रूपांतरण के साथ। 96 kHz को परिमाणीकरण (या बिट गहराई) के संबंध में चर्चा की जाती है कि मुझे किस नमूना दर और बिट गहराई का उपयोग करना चाहिए? यह एक विवादास्पद विषय है, 24 बिट 48kHz छंद 24 बिट 96kHz देखें । आप उदाहरण के लिए ऑडेसिटी नमूना दरों की जांच कर सकते हैं ।


2
1. प्रश्न का उत्तर यह है कि Nyquist प्रमेय> 40kHz को निर्देशित करता है, न कि> 20kHz। 2. न तो मानव सुनवाई और न ही सीडी प्रारूप 20 हर्ट्ज तक सीमित है। कोई भी बड़ा पर्याप्त पाइप अंग एक 16 हर्ट्ज टोन का उत्पादन कर सकता है, और सीडी इसे आसानी से पुन: पेश कर सकता है। कुछ अंग 8Hz तक नीचे चले जाते हैं, जिसे व्यक्तिगत कंपन के रूप में माना जाता है, लेकिन जो फिर से सीडी को पुन: उत्पन्न कर सकता है।
user207421

मैं आपकी टिप्पणी से सहमत हूं, "डिक्टेट्स" को छोड़कर (यह एक "यदि" शर्त है)। क्या आप बता सकते हैं कि मैं इससे कहाँ भटक गया हूँ?
लॉरेंट डुवल

1
मेरे पास @LaurentDuval के उत्तर का केवल एक पूरक है। भाषण, संगीत, और सामान्य रूप से ध्वनि गैर-स्थिर संकेत हैं। हालाँकि ये प्रभावी रूप से बैंडलीडेड हैं लेकिन हम अभी तक यह नहीं जानते हैं कि मानव कान नर्व फ़ेरिंग के लिए निरंतर समय संकेत को कैसे स्थानांतरित कर रहा है जो ध्वनि की हमारी धारणा को सुविधाजनक बनाता है। अक्सर यह तर्क दिया जाता है कि कुछ लोगों के "सुनहरे कान" होते हैं और 44.1 kHz बनाम 96 kHz रिकॉर्डिंग के बीच अंतर कर सकते हैं। इसके अलावा, मैं अभी निम्नलिखित पर पुष्टि कर रहा हूं, ऐसा लगता है कि उच्च नमूने दर अतिरिक्त संकेतों की धारणा को लाभ देती है, जैसे कि बीना रिकॉर्डिंग में स्थानीयकरण।
नीक्स

0

ऐसा क्यों है 44.1 kHz पहले ही उत्तर दिया जा चुका है - लेकिन मानवीय धारणा की सीमा से संबंधित आपके प्रश्न के पहलू पर ध्यान देने के लिए, कारण काफी सरल है।

समय में रिज़ॉल्यूशन पर्याप्त होना आवश्यक है कि सभी संभावित लहर रूपों को उस सीमा तक उत्पन्न किया जा सके जो कि बोधगम्य हो। नमूना प्रमेय के अनुसार , संकल्प ऐसा होना चाहिए कि नमूना आवृत्ति इस आवृत्ति से कम से कम दो बार हो। सहज रूप से, उच्चतम आवृत्ति पर, आपको अपने सिग्नल के अधिकतम और न्यूनतम का प्रतिनिधित्व करने के लिए कम से कम 2 बिंदुओं की आवश्यकता होती है - यह असिसी-कला वर्ग की लहर देते हुए:

_   _
 |_| |_

-1

एक संकेत को ईमानदारी से पुन: पेश करने के लिए, नमूना दर जितनी तेजी से बेहतर होती है। ~ 40 kHz चुना गया था, क्योंकि यह एक कम नमूना दर थी जो कि ज्यादातर लोगों को (जब पुनर्निर्माण किया गया) के लिए अंतर नहीं बता सकता है। जब ऑडियो सैंपलिंग की शुरुआत की गई थी, तो मेमोरी और स्टोरेज महंगी थी और उच्च नमूना दर सस्ते में संभव नहीं थे।

मानव श्रवण की ऊपरी सीमा पर प्रति चक्र दो नमूने बहुत खराब होते हैं, भले ही यह नमूनों के संकेतों के लिए Nyquist मानदंडों को पूरा करता हो, प्रति चक्र में दो नमूनों के साथ साइन लहर को दर्शाने वाला एक सरल चार्ट आपको दिखाएगा कि प्रति चक्र दो नमूने कितने खराब हैं। एक तरंग को पुन: पेश करने में। आप सचमुच एक साइन लहर को स्क्वायर वेव में बदल सकते हैं; 20 kHz में यह अच्छी बात है कि कोई भी बता सकता है। मुझे यकीन है कि एक कुत्ता हालांकि कर सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.