किसी फ़ाइल की एन्ट्रापी को व्यावहारिक रूप से कैसे मापें?


9

मैं अब बहुत गैर निरर्थक (वास्तविक) जानकारी को मापने की कोशिश कर रहा हूं जिसमें मेरी फ़ाइल शामिल है। कुछ इसे एन्ट्रापी की मात्रा कहते हैं।

बेशक मानक पी (एक्स) लॉग {पी (एक्स)} है, लेकिन मुझे लगता है कि शैनन केवल एक चैनल को प्रसारित करने के दृष्टिकोण से इस पर विचार कर रहे थे। इसलिए सूत्र के लिए ब्लॉक आकार की आवश्यकता होती है (बिट्स में कहें, 8 आमतौर पर)। एक बड़ी फ़ाइल के लिए, यह गणना काफी बेकार है, प्रतीकों के बीच लंबी दूरी की सहसंबंधों की अनदेखी।

बाइनरी ट्री और ज़िव-लेम्पेल विधियां हैं, लेकिन ये प्रकृति में अत्यधिक अकादमिक हैं।

संपीड़न को एन्ट्रापी का एक उपाय भी माना जाता है, लेकिन संपीड़न की डिग्री के लिए कोई कम सीमा नहीं है। मेरी फ़ाइल hiss.wav के लिए,

  • मूल hiss.wav = 5.2 एमबी
  • शैनन फार्मूला = 4.6 एमबी के माध्यम से एन्ट्रापी
  • hiss.zip = 4.6 एमबी
  • hiss.7z = 4.2 एमबी
  • hiss.wav.fp8 = 3.3 एमबी

क्या यह मापने का कोई व्यावहारिक तरीका है कि hiss.wav के भीतर कितनी एन्ट्रापी मौजूद है?


1
मुझे समझ नहीं आ रहा है कि "उच्च शैक्षणिक" से आपका क्या मतलब है।
डेविड रिचीर्बी

मृतक 'ard। मैंने सोचा होगा कि विश्व स्तर पर रिसर्च डॉलर के पैमाने के साथ डेटा ट्रांसमिशन और स्टोरेज को अधिकतम करने पर, इस बात का अनुमान लगाने का एक और विकसित तरीका होगा कि आप वास्तव में कितना काम कर रहे हैं। मैंने इसे संभावना के दायरे से परे नहीं सोचा होगा कि एक फाइल उपयोगिता होगी जो आप कुछ डेटा से गुजरते हैं जो सैद्धांतिक एन्ट्रापी अनुमान का उत्पादन करते हैं। बस टेलिस्कोप और डिस्क निर्माता किस पर खेल रहे हैं?
पॉल उस्ज़ाक

जवाबों:


9

एन्ट्रॉपी एक यादृच्छिक चर की एक विशेषता है । दी गई फ़ाइल में शून्य एन्ट्रॉपी है, क्योंकि यह स्थिर है। एन्ट्रॉपी कई स्थिति में समझ में आता है जिसमें कोई चैनल नहीं है, और आप इसे किसी दिए गए स्रोत से उत्पन्न, कहते हैं, WAV फ़ाइलों के यादृच्छिक पहनावा पर लागू कर सकते हैं। इस मामले में, अपने है पूरे WAV फ़ाइल।x

वास्तविक WAV फ़ाइल (हेडर को छोड़कर) कुछ मार्कोवियन स्रोत द्वारा उत्पन्न होने के बारे में सोचा जा सकता है। यह स्रोत एक क्रम में ध्वनियों के आयाम ("नमूने") पैदा करता है, हर एक इसे पूर्ववर्ती पर निर्भर करता है। बहुत लंबे समय तक प्रक्रिया को चलाने के बाद, प्रत्येक नमूने की एन्ट्रापी (अधिक सटीक रूप से, पूर्ववर्ती नमूनों को दी गई सशर्त एन्ट्रापी) कुछ सीमित मूल्य के बहुत करीब हो जाती है, जिसे हम स्रोत के एन्ट्रापी के रूप में परिभाषित करते हैं। की एन्ट्रापी नमूने है (; फिर, और अधिक सही, हम सशर्त एन्ट्रापी माप रहे हैं सीमा में) बार है कि संख्या। लेम्पेल और ज़िव ने दिखाया कि यदि नमूना एन्ट्रापी बिट्स है, तो उनका एल्गोरिथ्म नमूने को संकुचित करता हैNNHNHN+o(N)बिट्स, उच्च संभावना के साथ (संभावना नमूनों से अधिक है)। लेम्पेल-ज़िव संपीड़न व्यवहार में काफी लोकप्रिय है, उदाहरण के लिए लोकप्रिय gzipप्रारूप में उपयोग किया जाता है ।

लेम्पेल और ज़िव के इस परिणाम के कारण, एक स्रोत की एन्ट्रापी को लेम्पेल-ज़ीव एल्गोरिथ्म का उपयोग करके नमूनों के एक लंबे अनुक्रम को संपीड़ित करके लगाया जा सकता है। यह विशिष्ट नमूनों की एन्ट्रॉपी का अनुमान नहीं लगाता है, जो कि एक अच्छी तरह से परिभाषित अवधारणा नहीं है (एक स्थिर अनुक्रम में शून्य एन्ट्रॉपी है), बल्कि स्रोत के एन्ट्रापी इसे उत्पन्न करते हैं।

एक संबंधित अवधारणा एल्गोरिदमिक एन्ट्रॉपी है , जिसे कोलमोगोरोव जटिलता के रूप में भी जाना जाता है । यह आपकी फ़ाइल बनाने वाले सबसे छोटे प्रोग्राम की लंबाई है। यह मात्रा एक व्यक्ति फ़ाइल के लिए समझ में आता है। एक यादृच्छिक स्रोत द्वारा उत्पन्न फ़ाइल के मामले में, लेम्पेल-ज़िव प्रमेय से पता चलता है कि किसी फ़ाइल की एल्गोरिदमिक एन्ट्रापी बँधी हुई है, उच्च संभावना के साथ, इसकी शैनन एंट्रोपी द्वारा। दुर्भाग्य से, एल्गोरिथम एन्ट्रापी कम्प्यूटेशनल नहीं है, इसलिए यह एक सैद्धांतिक अवधारणा से अधिक है।

तस्वीर को पूरा करने के लिए, मैं एक स्रोत के एन्ट्रापी का आकलन करने के लिए एक अलग दृष्टिकोण के लिए छपी हुई अंग्रेजी के शैनन के पेपर और मुद्रित अंग्रेजी की एन्ट्रापी को पढ़ने का सुझाव देता हूं ।


मेरे पास है। और शूर्मन एंड ग्रासबर्गर पेपर। अंग्रेजी के लिए उनके अनुमानित एंट्रॉपियों के आधार पर, ऐसा लगता है कि हम जो सबसे अच्छा एनट्रॉपी अनुमान प्राप्त कर सकते हैं, वह fp8 जैसे PAQ8 वेरिएंट के साथ संपीड़न के माध्यम से है। वहाँ और मेरे परिणाम शेक्सपियर के गद्य के लिए काफी अच्छी तरह से शादी करते हैं।
पॉल उस्ज़ाक

समस्या यह प्रतीत होती है कि मैंने सोचा होगा कि स्रोत के एन्ट्रापी के लिए एक सैद्धांतिक सैद्धांतिक मूल्य होना चाहिए। संपीड़न द्वारा निर्धारण केवल संपीड़न एल्गोरिथ्म की दक्षता को दर्शाता है। जाहिर है, आपका gzip अच्छा है, लेकिन 7z बेहतर है। और fp8 बहुत बेहतर है जैसा कि मेरे प्रश्न में दिखाया गया है। क्या मुझे पता है कि hiss.wav में कुल एन्ट्रापी के केवल 10 बाइट्स हैं जब मैं भविष्य में fp12000 का उपयोग करता हूं?
पॉल उस्जाक

एन्ट्रॉपी एक फ़ाइल की संपत्ति नहीं है; प्रत्येक व्यक्तिगत फ़ाइल में शून्य एंट्रॉपी है। बल्कि, एन्ट्रापी एक यादृच्छिक स्रोत की एक संपत्ति है। यादृच्छिकता का एक उपाय जो विशिष्ट फ़ाइलों के लिए उपयुक्त है, कोलमोगोरोव जटिलता (जिसे एल्गोरिदमिक एन्ट्रॉपी भी कहा जाता है), लेकिन दुर्भाग्य से यह उपाय कम्प्यूटेशनल नहीं है।
युवल फिल्मस

जब आप किसी स्रोत की एन्ट्रॉपी का अनुमान लगाने के लिए फ़ाइल को कंप्रेस कर रहे हैं, तो आप एक प्रमेय का उपयोग करते हैं जो यह गारंटी देता है कि स्रोत द्वारा उत्पन्न डेटा के संपीड़न की दर स्रोत की एन्ट्रॉपी तक पहुंचती है। हालांकि, वास्तविक संपीड़न उपयोगिताओं वेनिला लेम्पेल-ज़ीव एल्गोरिथ्म को लागू नहीं करते हैं, बल्कि इसके अधिक व्यावहारिक संस्करण हैं। यदि आप एंट्रोपी का अनुमान लगाना चाहते हैं, तो शायद आपको इस लक्ष्य को ध्यान में रखते हुए एल्गोरिदम को फिर से लागू करना चाहिए।
युवल फिल्मस

मैंने एक असंवैधानिक चर्चा को हटा दिया; टिप्पणी हाथ में पोस्ट में सुधार के अलावा लंबी चर्चा के लिए नहीं हैं। यदि आप ईमानदारी से एन्ट्रापी के मामलों पर चर्चा करना चाहते हैं, तो कृपया एक चैट रूम बनाएँ। इसे नागरिक रखना याद रखें।
राफेल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.