विशिष्ट सेट अवधारणा


15

मैंने सोचा था कि विशिष्ट सेट की अवधारणा बहुत सहज था कि: लंबाई का एक अनुक्रम n विशिष्ट सेट के हैं जाएगा अगर अनुक्रम बाहर आने की संभावना अधिक थी। तो, कोई भी अनुक्रम जो संभव था वह । (मैं एन्ट्रापी से संबंधित औपचारिक परिभाषा से बच रहा हूं क्योंकि मैं इसे गुणात्मक रूप से समझने की कोशिश कर रहा हूं।) एक ( एन ) εAϵ(n)Aϵ(n)

हालांकि, मैंने पढ़ा है कि, सामान्य रूप से, सबसे अधिक संभावना अनुक्रम ठेठ सेट से संबंधित नहीं है। इसने मुझे बड़ा समय दिया।

क्या ठेठ सेट की एक सहज परिभाषा है? या यह सिर्फ एक गणितीय उपकरण है जिसका सामान्य ज्ञान से बहुत अधिक लेना-देना नहीं है?

जवाबों:


13

मुझे पता है कि आपने स्पष्ट रूप से एक सहज स्पष्टीकरण के लिए और औपचारिक परिभाषा को छोड़ने के लिए कहा है, लेकिन मुझे लगता है कि वे संबंधित हैं, इसलिए मुझे विशिष्ट सेट की परिभाषा याद करने दें:

एक्स1,एक्स2,हैंआईआईडीयादृच्छिक परिवर्तनीय~ पी(एक्स) तो विशिष्ट सेटε(n) के संबंध मेंपी(एक्स) दृश्यों का सेट है(x1,x2,...,xn)χn संपत्ति के साथ

(1)2n(H(X)+ϵ)p(x1,x2,...,xn)2n(H(X)ϵ)
कि एक निश्चित के लिए यह मतलब हैϵ, विशिष्ट सेट सभी दृश्यों से बना है जिसका संभावनाओं हैंपासकरने के लिए2nH(X)। तो एक क्रम के लिए विशिष्ट सेट से संबंधित होने के लिए, यह बस एक संभावना के करीब होना चाहिए2nH(X) , यह आमतौर पर हालांकि नहीं होता है। यह समझने के लिए कि, मैं इस परlog2 लागू करके समीकरण 1 को फिर से लिखूँ।

(2)H(X)ϵ1nlog2(1p(x1,x2,...,xn))H(X)+ϵ

अब ठेठ सेट परिभाषा अधिक सीधे एन्ट्रापी की अवधारणा से संबंधित है, या किसी अन्य तरीके से कहा गया है, यादृच्छिक चर की औसत जानकारी। मध्य अवधि को अनुक्रम के नमूने एंट्रॉपी के रूप में माना जा सकता है, इस प्रकार विशिष्ट सेट उन सभी अनुक्रमों द्वारा बनाया जाता है जो हमें यादृच्छिक चर X की औसत जानकारी के करीब जानकारी दे रहे हैं । सबसे संभावित अनुक्रम आमतौर पर हमें औसत से कम जानकारी देता है। याद रखें कि, किसी परिणाम की संभावना जितनी कम होगी, वह उतनी अधिक सूचना देगा जो हमें देगा। यह समझने के लिए कि मैं एक उदाहरण क्यों दूं:

मान लीजिए कि आप एक ऐसे शहर में रहते हैं, जिसका मौसम धूप और गर्म होने की संभावना 24 ° C और 26 ° C के बीच है। आप हर सुबह मौसम की रिपोर्ट देख सकते हैं, लेकिन आप इसके बारे में ज्यादा परवाह नहीं करेंगे, मेरा मतलब है, यह हमेशा धूप और गर्म है। लेकिन क्या होगा अगर किसी दिन मौसम पुरुष / महिला आपको बताता है कि आज बारिश और ठंड होगी, वह गेम चेंजर है। आपको कुछ अलग-अलग कपड़ों का उपयोग करना होगा और एक छाता लेना होगा और अन्य चीजें करनी होंगी जो आप आमतौर पर नहीं करते हैं, इसलिए मौसम आदमी ने आपको एक वास्तविक महत्वपूर्ण जानकारी दी है।

संक्षेप में, विशिष्ट सेट की सहज परिभाषा यह है कि इसमें ऐसे सीक्वेंस होते हैं जो हमें स्रोत (रैंडम वेरिएबल) के अपेक्षित एक के करीब जानकारी देते हैं।


1
... या बल्कि $$H(X)-\epsilon\le \frac{1}{n}log_2(\frac{1}{p(x_1,x_2,...,x_n)}) \le H(X)+\epsilon \tag{2}$$...
Cbhihe

ठीक है, लेकिन इस तरह से परिभाषित विशिष्ट सेट का उद्देश्य क्या है, फिर? पहले मैंने सोचा था कि हमने एक अंतर्ज्ञान के लिए एक विशिष्ट सेट की धारणा बनाई है, जो अनुक्रमों के सबसे छोटे सबसेट को हमें सुनिश्चित करने की आवश्यकता है कि हम "कवर" (1 - \ eps)% मामलों को सुनिश्चित करें। इस तरह, सबसे संभावित अनुक्रम लेना एक स्पष्ट विकल्प है। मुझे किसकी याद आ रही है?
17

12

Diegobatt का उत्तर सहज रूप से यह समझाने का एक अच्छा काम करता है कि विशिष्ट सेट क्या है। यह उत्तर ओपी के अन्य प्रश्न को संबोधित करेगा, जो @tomwesolowski द्वारा प्रतिध्वनित है: आप विशिष्ट सेट को इस तरह से क्यों परिभाषित करेंगे जो सबसे संभावित तत्वों को बाहर कर सकता है?

संक्षिप्त उत्तर यह है कि विशिष्ट सेट मुख्य रूप से एक गणितीय उपकरण है। इसे कुछ साबित करने में मदद करने के लिए परिभाषित किया गया था, और यह परिभाषा प्रमाण के लिए सबसे सुविधाजनक है। यह इस बात का एक अच्छा उदाहरण है कि कैसे सैद्धांतिक जरूरतों को कभी-कभी गणित में सहज ज्ञान युक्त वरीयताएँ दी जा सकती हैं।

विशिष्ट सिद्धांत को सूचना सिद्धांत के पिता , क्लाउड शैनन द्वारा परिभाषित किया गया था । वह यह निर्धारित करना चाहता था कि एक कुशलता से एक निश्चित वर्णमाला से प्रतीकों की एक धारा को कैसे एन्कोड किया जा सकता है, यह मानते हुए कि प्रत्येक प्रतीक कुछ वितरण से आईआईडी यादृच्छिक नमूना है। उनकी प्रमुख अंतर्दृष्टि यह थी कि:

  1. "विशिष्ट" दृश्यों का एक आसानी से पहचाना जाने वाला अपेक्षाकृत छोटा सेट है, जो स्ट्रीम में अक्सर असमान रूप से दिखाई देता है।
  2. अनुक्रमों के इस "विशिष्ट सेट" को कम से कम एन्कोडिंग को सौंपने से एक कुशल रूप से कुशल एन्कोडिंग प्राप्त होता है (asymptotically, क्योंकि धारा का उत्पादन मनमाने ढंग से बढ़ता है)।

खोजा गया विशिष्ट सेट शैनन उन अनुक्रमों से सटीक रूप से बना है, जिनकी आत्म-जानकारी , या "आश्चर्यजनक-नेस", धारा के वितरण के लिए, औसत रूप से अपेक्षित आत्म-सूचना के समान है । इस तरह के सीक्वेंस इस मायने में "विशिष्ट" हैं कि उनकी जानकारी औसत के बारे में है, लेकिन इस परिभाषा से स्पष्ट रूप से उन अनुक्रमों को बाहर रखा गया है जिनकी औसत से काफी कम जानकारी है। ये कम-सूचनात्मक अनुक्रम भी सबसे संभावित हैं।

ओपी नोट के रूप में, यह सहज ज्ञान युक्त अपील नहीं है! इसके चेहरे पर, विशिष्ट सेट लगता है जैसे इसमें कुछ थ्रेशोल्ड तक के सबसे संभावित अनुक्रम शामिल होने चाहिए। यह बेहतर होगा जो आम तौर पर स्ट्रीम में देखा जाता है।

लेकिन शैनन सबसे "विशिष्ट" संभव ठेठ सेट नहीं चाहते थे; वह एक ऐसा चाहता था जिससे वह साबित करना आसान बना सके जो वह साबित करना चाहता था। शैनन द्वारा निर्धारित विशिष्ट सेट मौजूद होने की गारंटी है, यह छोटा होने की गारंटी है, और यह किसी भी अन्य सेट के रूप में छोटा होने की गारंटी है जो आप प्रस्तावित कर सकते हैं, क्योंकि यह उत्तर बताता है। सबसे अधिक संभावित तत्वों को जोड़ने से सेट अधिक संभव हो जाता है, जो अच्छा है, लेकिन यह सेट को भी बड़ा बनाता है, जो खराब है। अगर आपको इस बात की परवाह है कि आपका प्रमाण क्या हो रहा है, तो क्यों न तोड़ा जाए?

यदि आपके पास शैनन से अलग उद्देश्य हैं, तो आपकी विशिष्टता की पसंदीदा अवधारणा अलग भी हो सकती है। उदाहरण के लिए, हफ़मैन कोडिंग में , सबसे संभावित प्रतीकों (या प्रतीक अनुक्रम) को सबसे छोटा कोड मिलता है। एक निश्चित तकनीकी अर्थ में, हफ़मैन कोडिंग शैनन की मूल समस्या का इष्टतम समाधान है, और यह विशिष्टता के साथ हमारे अंतर्ज्ञान को बेहतर ढंग से पकड़ता है। दूसरी ओर, शैनन की सामान्यता की परिभाषा चीजों को साबित करने के लिए अधिक सुविधाजनक है।


1
उत्कृष्ट तर्क और एक काम पर कुदो ने अच्छी तरह से अंतर्ज्ञान और परिभाषा के बीच की खाई को संबोधित किया। मैं कहूंगा कि यह विसंगति रोजमर्रा की जिंदगी से जुड़ी भाषा की कमी के कारण होती है जहां आमतौर पर ठेठ और औसत का मतलब एक ही होता है, लेकिन आंकड़ों के लिहाज से, ठेठ (संभावना के अर्थ में, यानी मोड) जरूरी नहीं कि औसत ही हो , यानी अपेक्षित मूल्य।
एमिल

एक सवाल हालांकि, जब आप कहते हैं कि परिभाषा उन अनुक्रमों को शामिल करती है, जिनमें "औसत से काफी कम जानकारी" है, तो यह नहीं होना चाहिए कि निचले और ऊपरी बाउंड क्रमशः क्रमशः "काफी कम या अधिक" हैं। एच(एक्स)-ε तथा एच(एक्स)+ε?
एमिल

@ ईमिल, मुझे लगता है कि लेखक ने इसे इस तरह कहा, क्योंकि हम सभी सहमत थे कि अधिक जानकारी (कम संभावित) वाले दृश्यों को विशिष्ट सेट में शामिल नहीं किया जाना चाहिए।
tomwesolowski

1

एक विशिष्ट सेट के विचार से परिणाम दृश्यों को मल्टीसेट के रूप में माना जाता है, अर्थात यह आपको प्रत्येक अनुक्रम के हिस्टोग्राम के बारे में परवाह करता है, उदाहरण के लिए, आप 7 सिर और 3 पूंछ के साथ सभी 10 सिक्का टॉस अनुक्रमों को समान मानते हैं।

कल्पना कीजिए कि आपके पास एक बहुत ही पक्षपाती सिक्का है, कहते हैं पी(एच)=.9। यह सिर्फ द्विपद वितरण है। सबसे संभावित 100-टॉस अनुक्रम 100 सिर है, लेकिन केवल 1 100 सिर अनुक्रम है। बहुत अधिक क्रम हैं जिनमें 10 पूंछ हैं, लेकिन ये व्यक्तिगत रूप से बहुत कम संभावित हैं। सबसे बड़ी संख्या के अनुक्रम आधे सिर और आधे पूंछ के साथ हैं, लेकिन ये भी कम संभावित हैं। इसलिए व्यक्तिगत अनुक्रमों की संभावना और एक कक्षा में बराबर अनुक्रमों की संख्या के बीच तनाव है। अधिकतम संभावना तब तक होती है जब अनुक्रम में आवृत्तियों की संभावनाओं से मेल खाती है।

महत्वपूर्ण परिणाम यह है कि पर्याप्त रूप से लंबे अनुक्रमों के लिए लगभग सभी सैंपल अनुक्रमों को अपेक्षित आवृत्तियों के करीब मनमाना होगा, अर्थात वितरण बढ़े हुए दृश्यों की लंबाई के रूप में वितरण अत्यधिक चरम पर पहुंच जाता है।

उदाहरण के लिए 105 के टॉस अनुक्रम पी(एच)=.9 सिक्का के साथ दृश्यों मिल जाएगा 104+/-300 99% समय के बाद से एक sequnce में पूंछ की संख्या पर मानक विचलन लगभग 100 है। सबसे संभावित विशिष्ट अनुक्रम होने के बावजूद सभी प्रमुखों की संभावना नगण्य है।

विशिष्ट सेट एक अधिक सामान्य, इस विचार का सैद्धांतिक रूप से परिभाषित संस्करण है।


0

इन व्याख्यान नोटों में प्रमेय 6.3 के अनुसार, अगर हम उच्चतम संभावना वाले या सबसे अधिक संभावना वाले अनुक्रमों का सबसेट लेते हैं, तो कोई बात नहीं2-nएच(एक्स) (ठेठ सेट से) हमें लगभग लेना होगा 2nएचयह सुनिश्चित करने के लिए कि चुने गए सबसेट में उच्च संभावना के साथ यादृच्छिक अनुक्रम होता है। हम आमतौर पर विशिष्ट सेट तत्व लेते हैं, क्योंकि हम इसके आकार को अधिक आसानी से बांध सकते हैं।


1
क्या आप बता सकते हैं कि यह "विशिष्ट सेट की सहज परिभाषा" के अनुरोध को कैसे संबोधित करता है?
whuber

मुझे यकीन नहीं है, लेकिन इसका मतलब है "हालांकि, मैंने पढ़ा है कि, सामान्य रूप से, सबसे अधिक संभावना अनुक्रम ठेठ सेट से संबंधित नहीं है। इससे मुझे बड़ा समय मिला।" सवाल का हिस्सा :)
tomwesolowski
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.