दोषरहित संपीड़न एल्गोरिदम एन्ट्रापी को कम करते हैं?


35

विकिपीडिया के अनुसार :

शैनन की एन्ट्रोपी एक संदेश में निहित जानकारी को उस संदेश के हिस्से के विपरीत मापती है जो निर्धारित (या पूर्वानुमेय) है। उत्तरार्द्ध के उदाहरणों में भाषा संरचना या सांख्यिकीय गुणों में अतिरेक शामिल होते हैं जो अक्षर या शब्द जोड़े, त्रिगुण आदि की घटना आवृत्तियों से संबंधित होते हैं।

तो एन्ट्रॉपी एक संदेश में निहित जानकारी की मात्रा का एक उपाय है। एन्ट्रापी कोडर्स का उपयोग दोषरहित करने के लिए किया जाता है, इस तरह के संदेश को न्यूनतम संख्या में बिट्स को संपीड़ित करने के लिए आवश्यक होता है (एंट्रॉपी)। मेरे लिए यह एक संपूर्ण एन्ट्रापी एन्कोडर की तरह दिखता है जो एक संदेश को जितना संभव हो सके दोषरहित संपीड़ित करने के लिए आवश्यक है।

हालाँकि संदेश के एन्ट्रापी को कम करने के लिए एन्ट्रापी कोडिंग से पहले कई संपीड़न एल्गोरिदम कदमों का उपयोग करते हैं।

जर्मन विकिपीडिया के अनुसार

एंट्रोपीकोडरिएर वेरडन ह्युफिग माइट एंडरन कोडिएरर्न कोम्बिनिएर्ट। डाबी डायनेन वोरगेस्क्लेस्टेट वेरफ्रेन डैज़ु, डाई एन्ट्रॉपी डेर दतेन ज़ू वर्निंगर्न।

अंग्रेजी में:

एन्ट्रापी कोडर्स को अक्सर अन्य एनकोडर के साथ जोड़ा जाता है। पिछले चरण डेटा की एन्ट्रापी को कम करने के लिए कार्य करते हैं।

यानी bzip2 एंट्रॉपी कोडिंग (इस मामले में हफ़मैन कोडिंग) को लागू करने से पहले मूव-टू-फ्रंट-ट्रांसफ़ॉर्म द्वारा पीछा किया जाने वाला बरोज़-व्हीलर-ट्रांसफ़ॉर्म का उपयोग करता है।

क्या ये कदम वास्तव में संदेश के प्रवेश को कम करते हैं, जो संदेश में निहित जानकारी की मात्रा को कम करेगा? यह मेरे लिए विरोधाभासी लगता है, क्योंकि इसका मतलब होगा कि संपीड़न के दौरान जानकारी खो गई थी, दोषरहित अपघटन को रोकना। या वे केवल एन्ट्रापी कोडिंग एल्गोरिथ्म की दक्षता में सुधार करने के लिए संदेश को रूपांतरित करते हैं? या एन्ट्रापी सीधे संदेश में सूचना की मात्रा के अनुरूप नहीं है?


1
एंट्रोपी का अनुमान लगाने का एक तरीका हो सकता है ।
पाइप

जवाबों:


39

एन्ट्रॉपी के बहुत सारे आकस्मिक विवरण इस तरह से भ्रमित कर रहे हैं क्योंकि एन्ट्रापी काफी साफ सुथरा नहीं है और कभी-कभी प्रस्तुत किया गया एक उपाय है। विशेष रूप से, शैनन एंट्रोपी की मानक परिभाषा यह निर्धारित करती है कि यह केवल तब लागू होता है, जब विकिपीडिया इसे लागू करता है, "स्वतंत्र घटनाओं के कारण जानकारी योगात्मक है।"

दूसरे शब्दों में, स्वतंत्र घटनाओं को सांख्यिकीय रूप से स्वतंत्र होना चाहिए । यदि वे नहीं हैं, तो आपको उन आंकड़ों का प्रतिनिधित्व करना होगा जो घटनाओं को उन तरीकों से परिभाषित करते हैं जो उन्हें वास्तव में स्वतंत्र बनाते हैं। अन्यथा, आप एन्ट्रापी को पछाड़ देंगे।

इसे दूसरे तरीके से रखने के लिए, शैनन एन्ट्रापी केवल सही संभावना वितरण पर लागू होती है, और सामान्य रूप से यादृच्छिक प्रक्रियाओं के लिए नहीं। शान्नोन एन्ट्रापी की मान्यताओं को फिट नहीं करने वाली प्रक्रियाओं के ठोस उदाहरणों पर विचार करें ...

मार्कोव प्रक्रियाओं

मार्कोव प्रक्रिया उन घटनाओं की एक श्रृंखला उत्पन्न करती है जिनमें सबसे हाल की घटना को एक वितरण से मापा जाता है जो एक या अधिक पिछली घटनाओं पर निर्भर करता है। स्पष्ट रूप से वास्तविक दुनिया की घटनाओं की एक बड़ी संख्या मार्कोव प्रक्रियाओं के रूप में असतत, स्वतंत्र संभावना वितरण की तुलना में बेहतर है। उदाहरण के लिए: आप अभी जो पाठ पढ़ रहे हैं!

मार्कोव प्रक्रिया की भली भांति गणना की गई शैनन एन्ट्रापी दर हमेशा प्रक्रिया की वास्तविक एन्ट्रापी दर से अधिक या बराबर होगी । प्रक्रिया की सही एंट्रोपी प्राप्त करने के लिए, आपको घटनाओं के बीच सांख्यिकीय निर्भरता को ध्यान में रखना होगा। साधारण मामलों में, इसका सूत्र इस तरह दिखता है :

एच(एस)=-ΣमैंपीमैंΣj पीमैं(j)लॉगपीमैं(j)

इसे भी इस तरह दर्शाया जा सकता है :

एच(Y)=-Σमैंjμमैंपीमैंjलॉगपीमैंj

फिर विकिपीडिया के हवाले से, यहाँ " μमैं है asymptotic वितरण श्रृंखला के" - यह है कि, समग्र संभावना है कि किसी दिए गए इस समारोह की एक लंबी क्षितिज हो जाएगा।

यह कहने का एक जटिल तरीका है कि जब आप किसी दिए गए कार्यक्रम की समग्र संभावना की गणना कर सकते हैं, तब भी घटनाओं के कुछ अनुक्रम मार्कोव प्रक्रिया द्वारा दूसरों की तुलना में उत्पन्न होने की अधिक संभावना है। उदाहरण के लिए, अंग्रेजी शब्दों के निम्नलिखित तीन तार कम होने की संभावना है:

  • वे पेड़ की तरफ भागे
  • पेड़ उनके पास दौड़ा
  • पेड़ वे दौड़े

लेकिन शैनन एन्ट्रापी तीनों तारों का समान रूप से आकलन करेगा। मार्कोव प्रक्रिया एन्ट्रापी अंतर को ध्यान में रखती है, और परिणामस्वरूप, यह प्रक्रिया को कम एन्ट्रापी दर प्रदान करता है।

एंट्रोपी दरें मॉडल पर निर्भर हैं

यदि आप ज़ूम आउट करते हैं, तो यहां बड़ी तस्वीर है: किसी अज्ञात स्रोत से घटनाओं के दिए गए अनुक्रम की एन्ट्रापी दर मॉडल पर निर्भर है। आप घटनाओं की एक विशेष श्रृंखला के लिए एक अलग एन्ट्रापी दर प्रदान करेंगे जो इस बात पर निर्भर करता है कि आपने उन्हें कैसे बनाया।

और बहुत बार, प्रक्रिया का आपका मॉडल काफी सही नहीं है। यह समस्या को हल करने के लिए एक सरल या आसान नहीं है। वास्तव में, सामान्य रूप से, घटनाओं की एक पर्याप्त लंबी और जटिल अनुक्रम के लिए एक वास्तविक एन्ट्रापी दर निर्दिष्ट करना असंभव है यदि आपको नहीं पता कि सही अंतर्निहित प्रक्रिया क्या है। यह एल्गोरिथम सूचना सिद्धांत में एक केंद्रीय परिणाम है ।

व्यवहार में इसका मतलब यह है कि घटनाओं के अनुक्रमों का एक अज्ञात स्रोत दिया गया है, विभिन्न मॉडल अलग-अलग एंट्रोपियों का उत्पादन करेंगे, और यह जानना असंभव है कि लंबे समय में कौन सा सही है - हालांकि जो सबसे कम एन्ट्रॉपी असाइन करता है वह संभवतः सबसे अच्छा है।


2
आपका बहुत बहुत धन्यवाद! यह पूरी तरह से बताता है कि मेरे तर्क में गलती क्या थी।
रॉबर्ट

यदि आपका डेटा, छवि और ऑडियो डिकम्प्रेसर्स में मॉडल की गई प्रक्रियाओं के उदाहरण के रूप में आपका उत्तर बेहतर होगा। उदाहरण के लिए LZ डेटा कम्प्रेशन में, मॉडल एक मशीन (डिकोडर) को मानता है जो इनपुट कमांड के रूप में लेता है जैसे (D, L): "आउटपुट L के लिए प्रतिलोम के प्रतीक से वर्तमान उत्पादन स्थिति के सापेक्ष ऑफसेट D से संबंधित है", या (c): " वर्तमान उत्पादन स्थिति के लिए प्रतीक c को कॉपी करें ”। एलजेड एनकोडर अपनी इनपुट प्रतीक धारा को डिकोडर की कमांड भाषा में बदल देता है, और कमांड प्रतीक स्ट्रीम में एन्कोडेड स्ट्रीम की तुलना में एक अलग एन्ट्रापी (और लंबाई) होती है। अन्य प्रकार के संपीड़न में अलग-अलग मशीनें हैं।
पीपररी

@piiperi जो मददगार है - मुझे हालांकि उनमें से किसी भी विवरण की जानकारी नहीं है। (मैं मशीन सीखने के दृष्टिकोण से सवाल पर आ रहा हूँ।)
प्रेषक

@senderle का अर्थ था कि कुछ ठोस प्रक्रिया उदाहरणों के साथ "एंट्रॉपी दरें मॉडल-निर्भर" अध्याय का विस्तार कर रही हैं। आप ऐसी प्रक्रिया के बारे में बात करते हैं जो घटनाओं को उत्पन्न करती है, और डेटा, छवि, वीडियो, ऑडियो आदि कंप्रेशर्स के प्रसंस्करण घटकों को ऐसी प्रक्रियाओं के रूप में देखा जा सकता है। एक शुद्ध एन्ट्रापी कोडर एक डेटा कम्प्रेशन पाइपलाइन का अंतिम चरण है। पाइपलाइन का कोई भी कदम वास्तव में "एन्ट्रापी को कम नहीं करता" है। इसके बजाय, उनमें से प्रत्येक एक मशीन के लिए निर्देश बनाता है जो मूल प्रतीक धारा को पुन: उत्पन्न कर सकता है। और प्रत्येक निर्देश धारा में एक अलग एन्ट्रापी और अक्सर एक अलग (यानी छोटी) लंबाई होती है।
पीपरि

12

नहीं, अगर एल्गोरिथ्म दोषरहित है, तो कंप्रेशन सीक्वेंस में कोई भी कदम इसकी एन्ट्रापी को कम नहीं कर सकता है - अन्यथा यह विघटित / विघटित नहीं हो पाएगा। हालांकि, अतिरिक्त एन्ट्रापी को 'आउट-ऑफ-बैंड' जानकारी में संग्रहीत किया जा सकता है - जैसे कि सूची जिसे मूव-टू-फ्रंट ट्रांसफॉर्म को डीकोड करने के लिए बनाए रखा जाना चाहिए।


तो एन्ट्रापी कोडिंग से पहले कम्प्रेशन एल्गोरिदम में उपयोग किए जाने वाले अतिरिक्त कदम क्या केवल एन्ट्रापी कोडर को एन्ट्रोपी के करीब आने की अनुमति देने के लिए उपयोग किए जाते हैं? क्या एक मनमाने संदेश पर लागू होने पर एक एन्ट्रापी कोडर अपने आप में एन्ट्रापी के करीब नहीं आता है?
रॉबर्ट

वास्तव में, यह (अच्छी तरह से, "पास" के सटीक अर्थ पर निर्भर करता है) नहीं है।
ग्रिम्मी

अतिरिक्त चरण एन्ट्रापी एनकोडर को मूल संदेश के एन्ट्रॉपी को बनाए रखने की अनुमति देते हैं, जबकि अगर यह अपने आप ही लागू किया जाना था, तो इससे अधिक प्रभावी जानकारी को कम करना। चाहे आप पूर्व-प्रसंस्करण को लागू करते हैं या नहीं, एन्ट्रॉपी को संरक्षित किया जाएगा, लेकिन संपीड़न कम प्रभावी होगा (आप कम से कम आंतरिक एन्कोडिंग के साथ समाप्त होंगे)।
ल्यूक श्वार्ट्ज़कोपफ

नहीं, चाल-से-सामने परिवर्तन एक अलग सूची को आउटपुट नहीं करता है जिसे डिकोडर में स्थानांतरित किया जाना चाहिए। जब तक आप प्रारंभिक सूची का मतलब नहीं है।
user253751

आह, आप सही कह रहे हैं, यह सबसे अच्छा उदाहरण नहीं था :)
ल्यूक श्वार्ट्ज़कोपफ

6

वे मूल संदेश की संरचना में निहित स्पष्ट एन्ट्रापी को कम करते हैं । या दूसरे शब्दों में वे संपीड़न के अगले चरणों की ताकत का उपयोग करने के लिए संदेश को ट्यून करते हैं।

एक सरल उदाहरण एक विशेष प्रतीक के साथ xml के अंतिम टैग में नाम की जगह लेगा। आप उस से मूल xml को पूरी तरह से फिर से बना सकते हैं, लेकिन कंप्रेसर को उस जगह पर फिर से पूरा नाम शामिल करने की आवश्यकता नहीं है।

एक अधिक वास्तविक दुनिया उदाहरण पीएनजी संपीड़न है। यह एन्ट्रापी कम्प्रेशर DEFLATE है, जो लेम्पेल-जिफ और हफमैन का संयोजन है। इसका मतलब है कि यह मूल्यों और पैटर्न के साथ सबसे अच्छा काम करता है जो अक्सर दोहराते हैं। अधिकांश आसन्न पिक्सेल समान रंग के होते हैं। इसलिए प्रत्येक पंक्ति को एक फिल्टर दिया जाता है जो मूल पिक्सेल मानों को एक अंतर एन्कोडिंग में बदल देता है। इस तरह DEFLATE द्वारा एन्कोड किए गए मान अधिकतर 0. के करीब हैं। चरम स्थिति में यह पूरी तरह से अलग-अलग मानों से एक पंक्ति में एक सुगम ढाल को बदल देगा, जो LZ भाग या DEFLATE के बहुत जल्दी काम करता है।


क्या इसका मतलब स्पष्ट एन्ट्रापी एक संदेश की वास्तविक सूचना सामग्री से अलग है? यह संदेश के वास्तविक एन्ट्रापी से कैसे संबंधित है?
रॉबर्ट

"स्पष्ट एन्ट्रॉपी" के साथ मेरा मतलब है कि एन्ट्रॉपी जो एन्ट्रापी एनकोड को नीचे संकुचित कर सकती है। अलग-अलग एनकोडर के अलग-अलग पैटर्न होंगे जिनकी वे तलाश करते हैं। हफ़मैन सबसे अच्छा करते हैं जब समान कुछ प्रतीकों का अक्सर उपयोग किया जाता है, लेम्पेल-ज़िफ सबसे अच्छा करता है जब चूजों को दोहराया जाता है, आदि
शाफ़्ट सनकी

लेकिन लेम्पेल-ज़िव एल्गोरिदम एन्ट्रापी कोडिंग एल्गोरिदम नहीं हैं, है ना? मुझे समझ में नहीं आता है कि वे उदाहरण के लिए LZMA में एन्ट्रापी कोडर्स से पहले क्यों उपयोग किए जाते हैं, जब अपने आप पर एन्ट्रापी कोडर पहले से ही संदेश को न्यूनतम रूप से संपीड़ित कर सकता है।
रोबर्ट

1
@kutschkem इसका मतलब यह है कि एन्ट्रॉपी एक संदेश की सूचना सामग्री का एक पूर्ण माप नहीं है, लेकिन जो एक प्रतीक के रूप में परिभाषित किया गया है के सापेक्ष है (उदाहरण के लिए एक एकल वर्ण को प्रतीक माना जाता है। 1 बिट को प्रतीक माना जाता है)? मुझे लगता है कि यह समझाएगा कि मेरी धारणाएँ कहाँ गलत थीं।
रोबर्ट

1
@robert ... हालांकि एक व्यापार है, जो कि "आउट-ऑफ-बैंड" जानकारी है ल्यूक ने अपने जवाब में उल्लेख किया है, जो आम तौर पर उन चरणों द्वारा जोड़ा जाता है (एन्कोडेड जानकारी को डीकोड करने में सक्षम होने के लिए लुकअप टेबल)। इसलिए पूरी सामग्री को एक प्रतीक के रूप में परिभाषित करने का कोई मतलब नहीं है, और इसे 0 के रूप में एन्कोड करें क्योंकि कहीं न कहीं इस जानकारी को संग्रहीत किया जाना चाहिए कि यह कौन सा कोड है।
कुत्स्कम

6

एंट्रॉपी कोडर्स संदेश का प्रतिनिधित्व करने के लिए आवश्यक बिट्स की न्यूनतम संख्या को संपीड़ित नहीं करते हैं। मुझे पता है कि यह सोचने के लिए लुभावना है, लेकिन यह ऐसा नहीं है जो वे करते हैं। वे जादू नहीं हैं और वे इसे हासिल नहीं कर सकते।

इसके बजाय, वे कुछ कम जादुई करते हैं - लेकिन फिर भी उपयोगी है। उस क्षण के लिए मान लीजिए कि हमें पता था कि संदेश के प्रत्येक चरित्र को कुछ वितरण से स्वतंत्र रूप से चुना गया था। तब एक दोषरहित संपीड़न एल्गोरिथ्म का निर्माण करना संभव होगा जो संदेशों को आशा से संकुचित करता है। इन एल्गोरिदम को एन्ट्रॉपी एन्कोडर्स कहा जाता है।

अब असली संदेशों में आमतौर पर वह स्वतंत्रता संपत्ति नहीं होती है। उदाहरण के लिए, यदि आप एक क्यू देखते हैं, तो यह संभव है कि अगला अक्षर एक यू है। एक वास्तविक संदेश में एक एन्ट्रापी एनकोडर एल्गोरिथ्म को लागू करना अभी भी संभव है, जहां प्रत्येक चरित्र को स्वतंत्र रूप से नहीं चुना जाता है। एल्गोरिथ्म अभी भी दोषरहित होगा, यह अभी भी संपीड़न के लिए इस्तेमाल किया जा सकता है, और व्यवहार में, यह अभी भी अक्सर संदेश की लंबाई को छोटा करेगा। हालाँकि, यह इसे न्यूनतम संभव लंबाई तक छोटा नहीं करता है। यह उस चीज़ को संदेश को संपीड़ित नहीं करता है जिसकी लंबाई संदेश की एन्ट्रॉपी के बराबर है; यह उससे कम को संकुचित करता है।

एक बार जब आप एन्ट्रापी एन्कोडर की इस संपत्ति का एहसास करते हैं, तो विरोधाभास वाष्पित हो जाता है।

सामान्य तौर पर, कोई भी दोषरहित कदम कभी भी संदेश की एन्ट्रापी को कम नहीं करता है। हालांकि, यह संदेश को एक ऐसे रूप में डाल सकता है जहां कुछ अन्य संपीड़न एल्गोरिथ्म अधिक प्रभावी होते हैं, इसलिए यह व्यवहार में अभी भी उपयोगी (औसतन) हो सकता है।


2

शब्द "एन्ट्रॉपी" यदि दो अलग-अलग चीजों को संदर्भित करने के लिए अक्सर थोड़ा ढीला उपयोग किया जाता है:

  • संदेश या सिस्टम में "कुल जानकारी की मात्रा"

  • जानकारी "घनत्व", या जानकारी को कसकर कैसे पैक किया जाता है।

Https://en.wikipedia.org/wiki/Entropy_(information_theory) के लिए विकिपीडिया के प्रवेश का ओपी उद्धरण पहले संदर्भित करता है:

Shannon's entropy measures the information contained in a message

लेकिन (कम से कम जब मैं यह लिख रहा हूं) उसी लेख के साथ शुरू होता है:

Information entropy is the average rate at which information is produced by a stochastic source of data.

तो एक राशि है और एक दर है (दूरी बनाम गति के समान)। इन्हें कभी-कभी "व्यापक" और "गहन" गुण कहा जाता है (देखें https://en.wikipedia.org/wiki/Intensive_and_extensive_properties#Extensive_properties )।

भेद का एक क्लासिक उदाहरण पॉल रेवेर् का प्रसिद्ध लालटेन संकेत है: "एक अगर जमीन से, और दो अगर समुद्र से"। कुल जानकारी का 1 बिट (यदि हम "उत्तर चर्च के लिए अभी तक नहीं मिले हैं तो भी" इस मामले को अनदेखा करें)। यदि पॉल ने भवन की प्रत्येक खिड़की में लालटेन का एक और सेट जोड़ा, तो वह '' निरर्थक '' होगा: अधिक जानकारी नहीं, इसलिए वही "कुल" या "व्यापक" एन्ट्रॉपी; लेकिन बहुत अधिक संदेश लंबाई, बहुत कम "गहन" एन्ट्रापी।

यदि वह इस तरह से शुरू करता है लेकिन लालटेन के केवल एक सेट का उपयोग करने के लिए बदलता है, तो यह ओपी के प्रश्न की तरह "दोषरहित संपीड़न" है। "व्यापक" एन्ट्रापी एक ही है, लेकिन "गहन" एन्ट्रॉपी "अलग है: क्योंकि 2 डी विंडो में लालटेन की संख्या अत्यधिक सहसंबद्ध है कि आपने पहले कितने को देखा है, निरर्थक संदेश अधिक विश्वसनीय है, या कम यादृच्छिक, इसलिए बहुत कम गहन एन्ट्रापी है।

याद रखने के लिए दो अन्य महत्वपूर्ण बातें हैं:

  • सबसे पहले, हम आमतौर पर किसी भी अर्थ में किसी सिस्टम की "सही" एंट्रोपी को नहीं जानते हैं। एक भोले भाले व्यक्ति को यह पता नहीं होता है कि "3 लालटेन" अलग संदेश होगा, या अलग विंडो में सिग्नल बेमानी हैं या नहीं। यदि पॉल अपनी सवारी को एक आदत बनाता है, तो हम गिन सकते हैं और देख सकते हैं कि क्या खिड़कियां हमेशा एक दूसरे से मेल खाती हैं। लेकिन शायद हमने अभी तक दुर्लभ (और शायद महत्वपूर्ण!) अपवादों को देखने के लिए पर्याप्त समय नहीं देखा है।

  • दूसरा, यह मायने रखता है कि आप कैसे मापते हैं। पाठ के प्रत्येक क्रमिक पत्र द्वारा कितना अनुमानित है (यह एक दर है, इसलिए "गहन" एन्ट्रापी, जिसे कभी-कभी "सापेक्ष एन्ट्रॉपी" भी कहा जाता है) का अनुमान लगाने की कोशिश करने पर विचार करें:

    • यदि आप केवल यह देखते हैं कि लोग 8-बिट इकाइयों में पाठ भेजते हैं, तो आपका पहला "अनुमान" प्रति अक्षर 8 बिट हो सकता है।
    • यदि आप उपयोग किए जा रहे विभिन्न अक्षरों की संख्या की गणना करते हैं, तो आप लॉग 2 (26) या प्रति अक्षर 4.7 बिट्स (यदि आप रिक्त स्थान, मामले, आदि पर विचार करते हैं तो थोड़ा अधिक) का अनुमान लगा सकते हैं।
    • यदि आप मानते हैं कि "ई" "जेड" की तुलना में "अगले अक्षर" के लिए एक बेहतर शर्त है, तो आप पत्र आवृत्तियों को मापेंगे और लगभग 4.14 प्राप्त करेंगे (देखें http://people.seas.harvard.edu/~jones/cscie129/ कागजात / stanford_info_paper / entropy_of_english_9.htm )।
    • यदि आप अक्षर-युग्मों की गणना करते हैं, तो आप "qu", "th", आदि जैसे पैटर्नों को चुनेंगे और लगभग 3.56 प्राप्त करेंगे।
    • यदि आप लगभग 5 अक्षरों के क्रमों की गणना करते हैं, तो आपको अभी भी कम मूल्य मिलेंगे, और एक बोनस के रूप में आप बहुत मज़बूती से अंतर कर सकते हैं कि मानव भाषा पाठ में क्या है)।
    • यदि आप एनजी बर्टन और जेसीआर लिकलाइडर के रूप में "प्रिंटेड इंग्लिश के सांख्यिकीय संरचना में लंबी दूरी की बाधाएं" (अमेरिकन जर्नल ऑफ साइकोलॉजी 68 (1955)) के रूप में हार्ड-कोर और चतुर हैं, तो आप 10 के अनुक्रम तक प्राप्त कर सकते हैं, एक पंक्ति में 0000 पत्र, और अभी तक एक और एन्ट्रापी मूल्य पाते हैं।

लेकिन निश्चित रूप से, संदेशों में कई ऐसे पैटर्न होते हैं जो इस तरह के एन-ग्राम तरीकों से तैयार नहीं होते हैं, इसलिए "सच" एन्ट्रापी अभी भी कम है।

यदि आप टोकन के वितरण के लिए पूरी तरह से यादृच्छिक ज़िपफियन के साथ एक सैद्धांतिक अनंत स्रोत का मॉडल बनाते हैं, तो आप उस व्यापक और गहन एन्ट्रापी की गणना कर सकते हैं, जो केवल संभव विशिष्ट टोकन की संख्या पर निर्भर करता है। उस संख्या में वृद्धि के रूप में प्रत्येक प्रकार की एन्ट्रापी के रेखांकन, [ http://www.derose.net/steve/writings/dissertation/Diss.0.html] में हैं । दोनों काफी अलग व्यवहार करते हैं:

आशा है कि मदद करता है या कम से कम दिलचस्प है ...


1

मुझे संदेह है कि जर्मन विकिपीडिया में शब्दांकन गलत है। कंप्रेशर्स एन्ट्रापी को बढ़ाते हैं। यह कहना है, समग्र एन्ट्रापी नहीं, बल्कि एन्ट्रोपी प्रति बिट : सूचना घनत्व। उदाहरण के लिए कुछ रन-लेंडिंग एन्कोडिंग और डिक्शनरी स्कीम डेटा को कंडेन्स करने के लिए लागू की जाती है। अब उसी सूचना को कम बिट्स में पैक किया जाता है, इसलिए प्रत्येक बिट में अधिक जानकारी होती है। बाद के हफ़मैन कोडिंग उसी से थोड़ा अधिक करते हैं; यह संपीड़न की सिर्फ एक और परत है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.