एल्गोरिथम सूचना सिद्धांत में "सूचना" और "उपयोगी जानकारी" के बीच अंतर


16

विकिपीडिया के अनुसार :

अनौपचारिक रूप से, एल्गोरिथम सूचना सिद्धांत के दृष्टिकोण से, एक स्ट्रिंग की सूचना सामग्री उस स्ट्रिंग के सबसे कम संभव स्व-निहित प्रतिनिधित्व की लंबाई के बराबर है।

"उपयोगी जानकारी" की अनुरूप अनौपचारिक कठोर परिभाषा क्या है? क्यों "उपयोगी जानकारी" को अधिक प्राकृतिक या अधिक मौलिक अवधारणा के रूप में नहीं लिया जाता है; भली-भांति यह लगता है कि शुद्ध रूप से यादृच्छिक स्ट्रिंग में परिभाषा के अनुसार शून्य जानकारी होनी चाहिए, इसलिए मैं अपने सिर को इस तथ्य के आसपास लाने की कोशिश कर रहा हूं कि इसे मानक परिभाषा द्वारा अधिकतम जानकारी माना जाता है।


2
स्वागत हे! कृपया ध्यान दें कि आप अपना उपयोगकर्ता नाम बदल सकते हैं कुछ लोगों को पहचानने की अधिक संभावना है जब आप नियमित आगंतुक बन जाते हैं।
राफेल

जवाबों:


12

यहां केंद्रीय अवधारणा कोलमोगोरोव जटिलता है , और अधिक विशेष रूप से संपीड़ितता है । दबाव का एक सहज ज्ञान युक्त भावना पाने के लिए, दो तार पर विचार और बी बी * , जहां बी = { 0 , 1 } । चलोABBBB={0,1}

1010 1010 1010 , औरA=1010 1010 1010 1010

0110 0111 1001B=1011 0110 0111 1001

ध्यान दें । हम कितनी मात्रा में सूचना या दे सकते हैं|A|=|B|=16A पासहै? अगर हम शास्त्रीय सूचना सिद्धांत के बारे में सोचते हैं, तो सामान्य तौर पर, लंबाई n की एक स्ट्रिंग को प्रसारितकरने से औसतन n बिट्सलगते हैं। लेकिन हम यह नहीं कह सकते कि कितने बिट्स हम एक संचारित करने के लिए की जरूरत हैविशिष्टलंबाई की स्ट्रिंग nBnnn

यादृच्छिक स्ट्रिंग की सूचना सामग्री शून्य क्यों नहीं है?

एक करीब से देखने पर, हम वास्तव में देख सकते हैं । हालांकि, यह कहना बहुत मुश्किल है कि अगर बी की संरचना में कोई स्पष्ट पैटर्न है, तो कम से कम यह लगता है और ए की तुलना में अधिक यादृच्छिक लगता है । क्योंकि हम में एक पैटर्न पा सकते हैं , हम आसानी से ए को संकुचित कर सकते हैं और इसे 16 बिट्स से कम का प्रतिनिधित्व कर सकते हैं । इसी तरह, चूंकि बी में किसी भी पैटर्न का पता लगाना आसान नहीं है , इसलिए हम इसे उतना कम नहीं कर सकते। इसलिए हम कह सकते हैं कि B के पास A से अधिक जानकारी है । इसके अलावा, लंबाई n का एक यादृच्छिक स्ट्रिंगA=108BAAA16BBAnअधिकतम जानकारी है क्योंकि वहाँ कोई रास्ता नहीं है कि हम इसे संपीड़ित कर सकते हैं, और इसलिए यह बिट्स से कम के साथ प्रतिनिधित्व करते हैं ।n

उपयोगी जानकारी क्या है, फिर?

के लिए उपयोगी जानकारी , हाँ, वहाँ एक ट्यूरिंग मशीन का उपयोग कर एक परिभाषा है X B में उपयोगी जानकारी हैTxB

minT { l(T)+C(x|T):T{T0,T1,...}},

जहाँ ट्यूरिंग मशीन T के लिए स्व-सीमित एन्कोडिंग की लंबाई को दर्शाता है । अंकन आमतौर पर ऐसा है कि है सी ( एक्स ) की Kolmogorov जटिलता को दर्शाता है एक्स और सी ( x | y ) की सशर्त Kolmogorov जटिलता एक्स दी yl(T)TC(x)xC(x|y)xy

यहाँ , x में निहित उपयोगी जानकारी की मात्रा का प्रतीक है । हम क्या पूछ सकते हैं कि इस तरह के टी को उन लोगों के बीच चयन करना है जो आवश्यकता को पूरा करते हैं। समस्या को अलग करने के कम से कम कार्यक्रम है एक्स * भागों में एक्स * = पी क्ष सेंट पी एक उचित प्रतिनिधित्व टी । यह वास्तव में बहुत ही विचार है जो न्यूनतम विवरण लंबाई (एमडीएल) को जन्म देता है ।TxTxx=pqpT


4

यह हो सकता है क्योंकि "उपयोगी" को परिभाषित करना कठिन है। कहें कि हमारे पास एक उच्च-संरचित, सूचना-समृद्ध संदेश जिसे संदेश y के लिए α के एक कारक द्वारा सबसे अधिक संकुचित किया जा सकता है । सहज रूप से, एक्स और वाई में समान मात्रा में उपयोगी जानकारी होती है; वास्तव में, उनमें सामान्य परिभाषा के अनुसार समान जानकारी होती है। अब y के समान लंबाई के x के एक उपसर्ग z की कल्पना करें ; इसमें x से अधिक उपयोगी जानकारी नहीं होनी चाहिए , इसलिए, y से अधिक नहीं । हालांकि, y अधिक "यादृच्छिक" की तुलना में है जेड , के बाद से zxαyxyzxyxyyzzसंकुचित किया जा सकता है और नहीं कर सकता। इसलिए अगर हम "उपयोगी" जानकारी को संपीड़ितता के साथ जोड़ने का प्रयास करते हैं, तो हम निम्नलिखित विरोधाभास में भाग सकते हैं: एक संदेश का एक उपसर्ग संपूर्ण संदेश की तुलना में उच्च "उपयोगी" जानकारी हो सकता है, प्रतीत होता है कि एक विरोधाभास है।y


इसे परिभाषित करना कठिन हो सकता है, और यह हो सकता है कि यह संपीड़ितता पर निर्भर नहीं कर सकता जिस तरह से "जानकारी" करता है, लेकिन यह अधिक महत्वपूर्ण परिभाषा की तरह लगता है! जैसा कि यह खड़ा है, "जानकारी" "कोलमोगोरोव जटिलता" के लिए एक उपनाम के रूप में प्रतीत होता है, बल्कि सामान्य अर्थों में जानकारी को परिभाषित करने के गंभीर प्रयास के बजाय, जो कि अन्य संदर्भों में, परिभाषा के अनुसार, उपयोगी होना चाहिए! क्या यह शोध का सक्रिय क्षेत्र है? क्या कोई प्रस्तावित परिभाषाएं हैं?
user1247

@ user1247 तुम क्यों Kolmogorov के रूप में जटिलता देख पा रहे हैं नहीं गंभीर जा रहा है?
जुहो

@mrm मैं इसे एक बहुत ही गंभीर और दिलचस्प अवधारणा के रूप में देखता हूं, लेकिन मैं उस अवधारणा को "जानकारी" कहने में असहज हूं। जानकारी रखने के लिए पूरी तरह से यादृच्छिक स्ट्रिंग के लिए इसका क्या मतलब है? "उपयोगी जानकारी" वास्तविक दुनिया में सूचना (जहां "उपयोगी" निहित है) पर चर्चा करने के लिए अधिक लागू और दिलचस्प लगती है, उदाहरण के लिए, प्रसारित या प्राप्त होने वाली जानकारी के बारे में दार्शनिक या क्वांटम यांत्रिक चर्चा में।
user1247

1
@ user1247 मेरे उत्तर की व्याख्या करने का संभवतः एक दिलचस्प तरीका यह है: यह कैसे व्याख्या की जाती है, इसके आधार पर जानकारी केवल उपयोगी या बेकार है। एक निश्चित व्याख्या के लिए, एक संदेश में दूसरे की तुलना में अधिक या कम उपयोगी जानकारी हो सकती है। उपयोगी जानकारी के किसी भी सिद्धांत, मेरी राय में, इस तरह की व्याख्याओं को ध्यान में रखने की आवश्यकता है (एंट्रोपी जैसे नियमित उपाय भी, यद्यपि, स्पष्ट रूप से)।
पैट्रिक87

@ पैट्रिक87 मैं पूरी तरह सहमत हूं कि "उपयोगी जानकारी" के किसी भी अच्छे सिद्धांत को डिक्रिप्शन तंत्र को ध्यान में रखना चाहिए। यही कारण है कि यह एक दिलचस्प समस्या है! यदि आप मुझे थोड़ा स्ट्रिंग भेजते हैं, और सिद्धांत रूप में मैं इसे डिक्रिप्ट नहीं कर सकता हूं, तो इसे बिना किसी उपयोगी जानकारी के परिभाषित किया जाना चाहिए।
user1247

4

कम औपचारिक दृष्टिकोण से, मुझे लगता है कि यह मदद कर सकता है यदि आप "यादृच्छिक" शब्द से खुद को अलग करते हैं, जैसा कि आप सही हैं कि वास्तव में यादृच्छिक बिट्स का एक सेट किसी भी जानकारी को व्यावहारिक अर्थों में संग्रहीत नहीं करता है। (यदि मैं नामों का एक सेट एन्क्रिप्ट करता हूं और एन्क्रिप्ट किए गए मानों को आपके पास भेजता हूं, तो उनके पास बहुत अधिक कोलमोगोरोव जटिलता हो सकती है, लेकिन यह आपको नामों का पता लगाने में मदद नहीं करेगा)।

लेकिन इसके बारे में इस तरह से सोचें। यदि आप एक विदेशी भाषा में एक वेबसाइट देखते हैं (स्वीडिश कहते हैं, तो मान लें कि आप इसे नहीं बोलते हैं) यह कम या ज्यादा यादृच्छिक दिखने वाला है। शब्दों के लिए कुछ आदेश होगा, लेकिन ज्यादा नहीं। हालाँकि, यदि आप इस तरह दिखने वाले पाठ के साथ एक वेबपेज देखते हैं: 123456123456123456123456 ... और इसी तरह, आप इसे और अधिक तेज़ी से समझ पाएंगे। यदि आप स्वीडिश नहीं बोलते हैं, तो आप शायद इससे बहुत अधिक बाहर निकल पाएंगे, भले ही स्वीडिश वेबपेज ने "पहले छह संख्याओं को क्रमिक रूप से दोहराया" के बराबर कहा। वेबसाइटों में समान जानकारी होती है, लेकिन कोई आपको यादृच्छिक लगता है। और अंतरिक्ष की मात्रा के लिए, आपको जो समझ में आता है वह स्वीडिश वेबपेज की तुलना में कम कुशल है, भले ही यह उसी जानकारी को संग्रहीत करता हो। आपको यह जानकारी "उपयोगी" नहीं लग सकती क्योंकि यह '

"सूचना" की धारणा सार्वभौमिक होने का मतलब है, इसलिए जो यादृच्छिक की तरह दिखता है - और इसलिए बेकार - आपके लिए बिट्स किसी और को जानकारी का एक बड़ा सौदा संग्रहीत कर सकता है। सूचना का माप स्ट्रिंग का आंतरिक गुण है, और यह इस बात पर निर्भर नहीं करता है कि आप क्या करते हैं और क्या नहीं है, और आप क्या कर सकते हैं और क्या व्याख्या नहीं कर सकते हैं।

एक और (अधिक तकनीकी) बिंदु जो मदद कर सकता है वह यह है कि मैं यहां थोड़ा निराश हूं। जैसा कि जुहो बताते हैं, जानकारी हैइसकी व्याख्या करने वाले के सापेक्ष परिभाषित किया गया है। आपको जानकारी के लिए एक वाहन के रूप में स्वीडिश वेबपेज पूरी तरह से बेकार लग सकता है, लेकिन जो कोई स्वीडिश बोलता है, उसे जानकारी का एक बड़ा सौदा मिल सकता है। परिभाषा यह दर्शाती है। हालाँकि, गणित से हम यह जान सकते हैं कि इस वेबसाइट को आप तक पहुँचाने के लिए सबसे छोटा (स्पेस के लिए सबसे अधिक जानकारीपूर्ण) वेबपेज और सबसे छोटा वेबपेज जो कि स्वीडिश बोलता है, उससे संवाद कर सकता है, जो केवल एडिटिव स्थिरांक से भिन्न हो सकता है। क्यों? क्योंकि आपके लिए, गैर-स्वीडिश स्पीकर के रूप में, पेज को स्टोर करने का सबसे छोटा तरीका जिसे आप समझ सकते हैं "पहले छह पूर्णांक क्रमिक रूप से दोहराए जाते हैं।" यह स्वीडिश की तुलना में काफी लंबा हो सकता है।

लेकिन यहां तक ​​कि अगर आप स्वीडिश बोलने में सक्षम थे, तो आप केवल लंबाई से एक additive निरंतर कटौती करने में सक्षम होंगे! क्यों? क्योंकि आप हमेशा स्वीडिश-अंग्रेज़ी शब्दकोश खरीद सकते हैं। फिर सुपर-शॉर्ट स्वीडिश वेबपेज आपके लिए मायने रखेंगे। निश्चित रूप से, वे केवल तभी समझ में आते हैं जब आपके पास शब्दकोश होता है, लेकिन शब्दकोश में एक निरंतर लंबाई होती है। तो

(Most efficient representation of information in English)(Most efficient representation in Swedish)+(Length of Swedish-English dictionary)
। यह आपके मूल प्रश्न से थोड़ा हटकर विषय हो रहा है, लेकिन मैं जो प्रयास कर रहा हूं, वह यह है कि यह बहुत ज्यादा मायने नहीं रखता कि सूचना कौन पढ़ रहा है। यादृच्छिक-दिखने वाला स्वीडिश वेबपेज आपके लिए "उपयोगी" नहीं था, लेकिन यह किसी और के लिए "उपयोगी" है, और आप इसका उपयोग करने में सक्षम होने से केवल एक निरंतर जानकारी से दूर हैं।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.