ऑडियो सिग्नल प्रोसेसिंग शुरुआत के लिए रोडमैप सीखना


13

मैं ऑडियो सिग्नल प्रोसेसिंग सीखना शुरू करना चाहूंगा। ऑनलाइन कई किताबें और अकादमिक पेपर हैं, जिनमें से सभी विषय के मूल सिद्धांतों को छोड़ देते हैं।

मैं एक मोटे तौर पर रोडमैप जानना चाहूंगा, ताकि ऑडियो सिग्नल प्रोसेसिंग को सफलतापूर्वक सीखने के लिए बोल सकूं।

मैंने पढ़ा है कि सिग्नल विश्लेषण के साथ शुरू करने से पहले पथरी पहला कदम है।

यह मुझे लगता है कि ऑडियो सिग्नल विश्लेषण की जरूरत समग्र ज्ञान का केवल एक हिस्सा है। जहां अन्य विषय संगीत सिद्धांत, ऑडियो इंजीनियरिंग और प्रोग्रामिंग हैं।

अगर मैं इस क्षेत्र के ज्ञान वाले लोगों से ऑडियो संकेतों का विश्लेषण और हेरफेर करने / समझने के लिए संभावित कदम सुझाने के लिए कह सकता हूं।


मैं इस बात से सहमत हूं कि कैलकुलस में एक पृष्ठभूमि (न्यूनतम पर) आपके लिए गणित को समझने का एक मौका होना महत्वपूर्ण है जो आपको सिग्नल और सिस्टम सिद्धांत पाठ या पाठ्यक्रम में मिल सकता है। मुझे लगता है कि आप पहले वहाँ सूंघना सुनिश्चित करेंगे।
जेसन आर

1
ये स्लाइड मदद कर सकती है। यद्यपि आपके पास ऑडियो प्रोसेसिंग और ऑडियो प्रोग्रामिंग के कुछ गैर-गणितीय / इंजीनियरिंग मूल बातें हैं। blog.bjornroche.com/2011/11/…
ब्योर्न रोश

जवाबों:


17

मैं प्रो। जूलियस ओ। स्मिथ III के भौतिक ऑडियो सिग्नल प्रोसेसिंग पर एक नज़र डालने की सलाह देता हूं । यह ऑनलाइन उपलब्ध है, या अमेज़न की प्रिंट-ऑन-डिमांड सेवा के माध्यम से खरीदा जा सकता है।

विशेष रूप से, पुस्तक श्रृंखला अवलोकन में विवरण सार्थक हो सकता है।

यहाँ छवि विवरण दर्ज करें


9

मुझे नहीं लगता कि डीएफटी / एफएफटी / आईआईआर / एफआईआर और वेवलेट्स की जटिलता में कोई बिंदु है जो पहले यह समझे बिना कि ऑडियो मौलिक रूप से है और डिजिटल रूप से ऑडियो का प्रतिनिधित्व करने के विभिन्न तरीके क्या हैं।

सामान्य रूप से ऑडियो क्या है (हवा में, पानी या अन्य सामग्री नहीं):

  • ऑडियो ध्वनि दबाव तरंगों से बना है
  • वे हवा के संपीड़न और दुर्लभता का कारण बनते हैं
  • ये तरंगें स्रोत के बिंदु से बाहर की ओर फैलती हैं
  • चोटियों और कुंडों के कारण लहरें एक दूसरे के साथ हस्तक्षेप कर सकती हैं
  • लहरों को अवशोषित और सामग्री द्वारा परिलक्षित किया जा सकता है

ऑडियो का विद्युत रूप से प्रतिनिधित्व कैसे किया जाता है:

  • एक माइक्रोफोन और पूर्व-एम्पलीफायर ध्वनि दबाव तरंगों को एक विद्युत संकेत में परिवर्तित करता है
  • आमतौर पर इस सिग्नल में पॉजिटिव और निगेटिव वोल्टेज (जैसे एसी वोल्टेज) दोनों होते हैं
  • चुंबकीय टेप इन अंतरों को संग्रहीत करते हैं जैसे वे दिखाई देते हैं, इसलिए शब्द एनालॉग
  • संतृप्ति तब होती है जब इनपुट सिग्नल की ताकत सिस्टम की सीमाओं के बराबर होती है (वोल्टेज में किसी भी अधिक वृद्धि का सही प्रतिनिधित्व नहीं किया जा सकता है)
  • क्लिपिंग तब होती है जब इनपुट सिग्नल सिस्टम से अधिक हो सकता है, इसलिए सिग्नल क्लिप हो जाता है (या चरम सीमा पर छाया हुआ)

ऑडियो का डिजिटल रूप से प्रतिनिधित्व कैसे किया जाता है:

  • ऑडियो पहले ADC (डिजिटल कनवर्टर के अनुरूप) का उपयोग करके नमूना होना चाहिए
  • नमूनाकरण में समय-समय पर एक ऑडियो सिग्नल को विद्युत रूप से मापना शामिल होता है
  • इस अवधि को नमूना दर कहा जाता है और यह उच्चतम आवृत्ति को निर्धारित करता है जिसे प्रतिनिधित्व किया जा सकता है (निक्स्ट सीमा)
  • निक्विस्ट सीमा नमूना दर / 2 है (सीमा के करीब पहुंचने के लिए, सिग्नल जितना अधिक खराब प्रतिनिधित्व करता है) बन जाता है
  • बिट्रेंज शोर तल निर्धारित करता है, (-96 डीबी 16 बिट के लिए -48 डीबी 8 बिट के लिए)
  • ऑडियो का एक एकल 16 बिट नमूना 32767 के बीच -32768 से (हस्ताक्षरित) मूल्य हो सकता है (यह एनालॉग सिग्नल के नकारात्मक और सकारात्मक स्विंग दोनों का प्रतिनिधित्व कर सकता है)
  • प्रति बाइट (कंप्यूटर स्टोरेज के संदर्भ में) केवल 8 बिट्स की अनुमति है, इसलिए 16 बिट के नमूने को कम से कम 2 बाइट्स द्वारा दर्शाया जाना चाहिए।
  • जिस क्रम में इन बाइट्स को संग्रहीत किया जाता है उसे उनके एंडियन प्रकार (बड़े या छोटे) के रूप में जाना जाता है
  • स्टीरियो नमूनों में प्रत्येक चैनल के लिए एक अलग नमूने की आवश्यकता होती है, एक बाएं के लिए और दूसरा दाएं के लिए

डिजिटल ऑडियो को संग्रहीत करने के लिए किन विभिन्न तरीकों का उपयोग किया जाता है:

  • PCM (पल्स कोड मॉड्यूलेटेड) डिजिटल रूप से ऑडियो स्टोर करने का सबसे आम असम्पीडित तरीका है
  • उपयोग किए गए डेटा की मात्रा को कम करने के लिए कई संपीड़न मौजूद हैं, कुछ दोषरहित हैं, कुछ हानिरहित हैं
  • WAV फ़ाइलें असम्पीडित हैं और मोनो या स्टीरियो (इंटरलीव्ड नमूने) हो सकती हैं
  • एमपी 3 फाइलें बहुत उच्च डेटा संपीड़न दरों को प्राप्त करने के लिए संकुचित, हानिपूर्ण और मनोविश्लेषणों को नियोजित करती हैं
  • यहां तक ​​कि सबसे कम बिट रेंज (1 बिट) उनके उपयोग के आधार पर उपयोगी हो सकती है, आमतौर पर उपहार कार्ड जो 1 बिट के रूप में संग्रहीत ऑडियो खेलते हैं

डिजिटल क्षेत्र में ऑडियो से अधिक परिचित कैसे बनें:

  • करो और अधिक करो! दुस्साहस जैसे एक कार्यक्रम को डाउनलोड करें और विभिन्न नमूना दरों और बिट श्रेणियों का उपयोग करके विभिन्न ऑडियो फाइलें बनाएं
  • साइन / त्रिकोणीय / वर्ग और आरी टोन बनाएँ और अंतर सुनें
  • 8 बिट 10KHz फ़ाइल और 16 बिट 44.1KHz फ़ाइल (CD गुणवत्ता) जैसे प्रकारों के बीच अंतर को सुनना सीखें
  • उच्च-पास / कम-पास / बैंड-पास फिल्टर के साथ प्रयोग करें और अंतर सुनें
  • यह समझने के लिए कि उनकी क्लिपिंग ऑडियो सिग्नल को कैसे प्रभावित करती है, उनकी संतृप्ति सीमा से परे सिग्नल पुश करें
  • यदि आपके सॉफ़्टवेयर में यह क्षमता है, तो संकेतों को लिफाफे लागू करें
  • धार्मिक और हार्मोनिक विकृति के बीच अंतर है, दोनों के साथ प्रयोग करें
  • इन और अन्य संकेतों को देखने और उनसे परिचित होने के लिए एक स्पेक्ट्रोग्राम (FFT) का उपयोग करें
  • अंतर देखने के लिए रैखिक और लघुगणक दोनों भूखंडों का उपयोग करें
  • डाउनसम्पलिंग और अपसप्लेन्स सिग्नल और सुनें कि यह ऑडियो को कैसे प्रभावित करता है
  • विभिन्न डिथरिंग विधियों का उपयोग करें (जब बिट रेंज परिवर्तित करना) और अंतरों को सुनें

इससे आपको उम्मीद होगी कि आप किसी भी डीएसपी का प्रयास करने से पहले डिजिटल रूप से प्रस्तुत ऑडियो का क्या अर्थ है और क्या अंतर की तरह ध्वनि देते हैं। यह जानना हमेशा आसान होता है कि आपके एफएफटी विश्लेषण में कुछ गड़बड़ है अगर आप यह पहचान सकते हैं कि आपने उदाहरण के लिए 16 बिट सिग्नल बनाम 8 बिट सिग्नल इनपुट किया है या कि एक ट्रांसफ़ॉर्मेशन में दोषपूर्ण मिसकॉल द्वारा नमूना दर को दूषित किया गया है।


जवाब के लिए धन्यवाद। मैं इन चीजों से वाकिफ हूं और अब इसकी dsp कोडिंग साइड में आना चाहूंगा।
जर्दी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.