मैंने कुछ स्थानों पर पढ़ा कि संगीत अधिकतर ४४.१ kHz पर नमूना लिया जाता है जबकि हम केवल २० kHz तक सुन सकते हैं। यह ऐसा क्यों है?
मैंने कुछ स्थानों पर पढ़ा कि संगीत अधिकतर ४४.१ kHz पर नमूना लिया जाता है जबकि हम केवल २० kHz तक सुन सकते हैं। यह ऐसा क्यों है?
जवाबों:
ध्यान दें कि औचित्य कई स्थानों पर प्रकाशित हुआ है: विकिपीडिया: ४४.१ kHz क्यों?
44,100 को सोनी द्वारा चुना गया था क्योंकि यह पहले चार अभाज्य संख्याओं के वर्ग का उत्पाद है। यह कई अन्य संपूर्ण संख्याओं द्वारा इसे विभाज्य बनाता है , जो डिजिटल नमूने में एक उपयोगी संपत्ति है।
44100 = 2^2 * 3^2 * 5^2 * 7^2
आपने ध्यान दिया होगा, 44100 भी है बस ऊपर मानव सुनवाई की सीमा दोगुनी हो गई। बस ऊपर भाग फिल्टर कुछ छूट देता है, इसलिए उन्हें कम खर्चीला बनाने (कम चिप्स को अस्वीकार कर दिया)।
जैसा कि रसेल टिप्पणियों में बताते हैं, कई अन्य पूर्ण संख्याओं के पहलू से नमूना दर के चयन के समय एक तत्काल लाभ हुआ था। प्रारंभिक डिजिटल ऑडियो मौजूदा एनालॉग वीडियो रिकॉर्डिंग मीडिया पर दर्ज किया गया था, जो कि क्षेत्र पर निर्भर करता है, या तो NTSC या PAL वीडियो कल्पना। NTSC और PAL की अलग-अलग लाइनें प्रति फील्ड और फील्ड्स प्रति सेकंड की दर से थीं, जिनमें से LCM (प्रति लाइन नमूने के साथ) 44100 है ।
Nyquist दर एक बेसबैंड सिग्नल के दो बार बैंडलिमिट से ऊपर है जिसे आप अस्पष्टता के बिना कैप्चर करना चाहते हैं (उदाहरण के लिए अलार्मिंग)।
दो बार 20kHz से कम दर पर नमूना, और आप केवल अलियासिंग के कारण नमूनों को देखने से बहुत अधिक और बहुत कम आवृत्तियों के बीच अंतर बताने में सक्षम नहीं होंगे।
जोड़ा गया: ध्यान दें कि किसी भी परिमित लंबाई संकेत को फ़्रीक्वेंसी डोमेन में अनंत समर्थन प्राप्त होता है, इस प्रकार यह सख्ती से बंद नहीं होता है। यह अभी तक एक और कारण है कि किसी भी गैर-अनंत ऑडियो स्रोत का नमूना उच्चतम आवृत्ति स्पेक्ट्रा (बेसबैंड सिग्नल में) से दो बार थोड़ा ऊपर है , महत्वपूर्ण एलियासिंग (परिमित फिल्टर संक्रमण रोल-ऑफ के कारणों से परे) से बचने के लिए आवश्यक है।
असल में, सिग्नल के नमूने के लिए दो बार बैंडविड्थ एक सामान्य आवश्यकता है, इस प्रकार kHz न्यूनतम है। फिर, अपूर्ण फ़िल्टरिंग और परिमाणीकरण के साथ सामना करने के लिए थोड़ा अधिक उपयोगी है । विवरण का पालन करें।
सिद्धांत में आपको जो चाहिए वह वह नहीं है जो व्यवहार में आवश्यक है। यह उद्धरण के साथ जाता है (कई के लिए जिम्मेदार):
सिद्धांत रूप में सिद्धांत और व्यवहार में कोई अंतर नहीं है। व्यवहार में है।
मैं ऑडियो का विशेषज्ञ नहीं हूं, लेकिन मुझे उच्च गुणवत्ता वाले ऑडियो नमूने / संपीड़न वाले लोगों द्वारा प्रशिक्षित किया गया है। मेरा ज्ञान रूखा हो सकता है, इसे सावधानी से लें।
सबसे पहले, मानक नमूनाकरण सिद्धांत कुछ मान्यताओं के तहत काम करता है: रैखिक प्रणालियां, और समय आक्रमण। फिर, एक निरंतर बैंडलेडेड घटना को जाना जाता है, सिद्धांत रूप में, संभवतः नुकसान के बिना बैंडविड्थ (या बेसबैंड सिग्नल के लिए अधिकतम आवृत्ति) के बारे में दो बार नमूना लिया जाता है। "Nyquist दर" को अक्सर इस प्रकार परिभाषित किया जाता है:
न्यूनतम दर जिस पर त्रुटियों का परिचय दिए बिना एक संकेत का नमूना लिया जा सकता है
यह "नमूना प्रमेय" का विश्लेषण हिस्सा है। "हो सकता है" महत्वपूर्ण है। एक संश्लेषण हिस्सा है: निरंतर संकेत " कार्डिनल साइन का उपयोग करके" पुनर्निर्माण किया जा सकता है । यह एकमात्र तकनीक नहीं है, और यह कम-पास प्रीफिल्टरिंग, गैर-रैखिक (जैसे कि परिमाणीकरण, संतृप्ति) और अन्य समय-संस्करण कारकों को ध्यान में नहीं रखता है।
मानव श्रवण एक साधारण विषय नहीं है। यह स्वीकार किया जाता है कि मनुष्य 20 हर्ट्ज से 20,000 हर्ट्ज तक की आवृत्तियों को सुनते हैं। लेकिन हर्ट्ज में ऐसी सटीक सीमाएं सभी मनुष्यों के लिए प्रकृति का लक्षण नहीं हैं। उच्च आवृत्तियों के प्रति संवेदनशीलता का क्रमिक नुकसान अक्सर उम्र के साथ होता है। दूसरी तरफ:
आदर्श प्रयोगशाला स्थितियों के तहत, मनुष्य ध्वनि को 12 हर्ट्ज से कम और 28 किलोहर्ट्ज़ जितना ऊँचा सुन सकते हैं, यद्यपि वयस्कों में यह सीमा 15 किलोहर्ट्ज़ से अधिक बढ़ जाती है।
श्रवण रैखिक नहीं है: ऑडिशन और पीड़ित थ्रेसहोल्ड हैं । यह समय-अपरिवर्तनीय नहीं है। समय और आवृत्ति दोनों में मास्किंग प्रभाव होता है।
यदि 20 हर्ट्ज तक 20,000 हर्ट्ज बैंड एक आम सीमा है, और 40,000 हर्ट्ज को सैद्धांतिक रूप से पर्याप्त होना चाहिए, तो अतिरिक्त विरूपण के साथ सामना करने के लिए थोड़ा अतिरिक्त आवश्यक है। अंगूठे का एक नियम कहता है कि 10% अधिक ठीक है ( सिग्नल बैंडविड्थ) और 44,100 हर्ट्ज बस ऐसा करता है। यह 1970 के दशक के अंत में वापस चला गया। 44,000 हर्ट्ज का उपयोग क्यों नहीं किया जाता है? मुख्य रूप से मानकों के कारण, सीडी की लोकप्रियता से निर्धारित होता है, जिसकी तकनीक हमेशा ट्रेड-ऑफ पर आधारित होती है। इसके अलावा, 44,100 पहले चार अभाज्य संख्याओं के वर्गों का उत्पाद है ( ), इसलिए छोटे कारक हैं, संगणना के लिए फायदेमंद (जैसे एफएफटी)।
तो से (और गुणकों) से, हमारे पास सुरक्षा, मात्रा का ठहराव, प्रयोज्य, गणना और मानकों में संतुलन है।
अन्य विकल्प मौजूद हैं: उदाहरण के लिए DAT प्रारूप 48 kHz नमूने के साथ जारी किया गया था, शुरू में मुश्किल रूपांतरण के साथ। 96 kHz को परिमाणीकरण (या बिट गहराई) के संबंध में चर्चा की जाती है कि मुझे किस नमूना दर और बिट गहराई का उपयोग करना चाहिए? यह एक विवादास्पद विषय है, 24 बिट 48kHz छंद 24 बिट 96kHz देखें । आप उदाहरण के लिए ऑडेसिटी नमूना दरों की जांच कर सकते हैं ।
ऐसा क्यों है 44.1 kHz पहले ही उत्तर दिया जा चुका है - लेकिन मानवीय धारणा की सीमा से संबंधित आपके प्रश्न के पहलू पर ध्यान देने के लिए, कारण काफी सरल है।
समय में रिज़ॉल्यूशन पर्याप्त होना आवश्यक है कि सभी संभावित लहर रूपों को उस सीमा तक उत्पन्न किया जा सके जो कि बोधगम्य हो। नमूना प्रमेय के अनुसार , संकल्प ऐसा होना चाहिए कि नमूना आवृत्ति इस आवृत्ति से कम से कम दो बार हो। सहज रूप से, उच्चतम आवृत्ति पर, आपको अपने सिग्नल के अधिकतम और न्यूनतम का प्रतिनिधित्व करने के लिए कम से कम 2 बिंदुओं की आवश्यकता होती है - यह असिसी-कला वर्ग की लहर देते हुए:
_ _
|_| |_
एक संकेत को ईमानदारी से पुन: पेश करने के लिए, नमूना दर जितनी तेजी से बेहतर होती है। ~ 40 kHz चुना गया था, क्योंकि यह एक कम नमूना दर थी जो कि ज्यादातर लोगों को (जब पुनर्निर्माण किया गया) के लिए अंतर नहीं बता सकता है। जब ऑडियो सैंपलिंग की शुरुआत की गई थी, तो मेमोरी और स्टोरेज महंगी थी और उच्च नमूना दर सस्ते में संभव नहीं थे।
मानव श्रवण की ऊपरी सीमा पर प्रति चक्र दो नमूने बहुत खराब होते हैं, भले ही यह नमूनों के संकेतों के लिए Nyquist मानदंडों को पूरा करता हो, प्रति चक्र में दो नमूनों के साथ साइन लहर को दर्शाने वाला एक सरल चार्ट आपको दिखाएगा कि प्रति चक्र दो नमूने कितने खराब हैं। एक तरंग को पुन: पेश करने में। आप सचमुच एक साइन लहर को स्क्वायर वेव में बदल सकते हैं; 20 kHz में यह अच्छी बात है कि कोई भी बता सकता है। मुझे यकीन है कि एक कुत्ता हालांकि कर सकता है।