अस्पष्ट संदर्भ-मुक्त व्याकरण (सीएफजी) की विषमता घनत्व

सभी CFG में अस्पष्ट CFG का अनुपात क्या है ?

चूंकि दोनों सेट समान रूप से अनंत हैं, इसलिए अनुपात अच्छी तरह से परिभाषित नहीं है। लेकिन असममित घनत्व के बारे में क्या :

\underset{n \mapsto \infty}{लिम} \frac{# आकार का अस्पष्ट सीएफजी < n}{# आकार का सी.एफ.जी. < n}

$\lim_{n \mapsto \infty}\frac {\# \text{ ambiguous CFG of size} < n} {\# \text{ CFG of size} < n}$

जहां टर्मिनल और गैर-टर्मिनल प्रतीक एक निश्चित गणना योग्य सेट से आते हैं।

एक व्याकरण का आकार व्याकरण के लिए आकार की कोई उचित धारणा है, उदाहरण के लिए

उत्पादन नियमों में चर और टर्मिनलों की कुल संख्या, या
चर की घटनाओं की कुल संख्या, या
उत्पादन नियमों की कुल संख्या, या
विभिन्न चर की संख्या।

(मैं मान रहा हूं कि आकार की परिभाषा उत्तर को प्रभावित नहीं करेगी।)

fl.formal-languages grammars context-free

— user18064
स्रोत

एक तरफ के रूप में, साहित्य में सीएफजी आकार की निम्नलिखित धारणाओं पर विचार किया गया है: व्याकरण के आकार की धारणाओं के अनुसार, निम्नलिखित साहित्य में दिखाई दिए हैं। (1) व्याकरण में सभी प्रस्तुतियों के दोनों तरफ चर और टर्मिनलों की कुल संख्या। (२) व्याकरण में सभी प्रस्तुतियों के दोनों ओर परिवर्तनशील घटनाओं की संख्या। (3) व्याकरण में प्रस्तुतियों की संख्या। (4) व्याकरण में अलग-अलग चर की संख्या।

— मार्टिन बर्गर

उदाहरण के लिए देखें: एस। जिन्सबर्ग, एन। लिंच, प्रसंग-मुक्त व्याकरण रूपों में आकार जटिलता। जे। ग्रुस्का, संदर्भ-मुक्त व्याकरण के आकार पर। जे। ग्रुस्का, जटिलता और संदर्भ-मुक्त व्याकरण और भाषाएँ की अस्पष्टता। ए। केलमेनोवा, सामान्य रूप के व्याकरण की जटिलता।

— मार्टिन बर्जर

@ मॉर्टिन, यदि कोई सावधान नहीं है, तो किसी दिए गए आकार के असीम रूप से कई अलग-अलग व्याकरण हो सकते हैं और अनुपात का कोई मतलब नहीं होगा। सुरक्षित तरीका व्याकरण के कुछ निश्चित एन्कोडिंग की थोड़ी लंबाई को गिनना है।

— केव

आप शायद संबंधित मात्राओं के लघुगणक के अनुपात के रूप में स्पर्शोन्मुख घनत्व को परिभाषित करना चाहते हैं, क्योंकि दोनों मात्राएं घातीय हैं, शायद विभिन्न आधारों के साथ।

— मोबियस डमप्लिंग

@MartinBerger मान लें कि हम एक ही चीज़ के बारे में बात कर रहे हैं, यानी परिभाषित करना

l o g d e n s i t y = l o g (# u n a m b i g u o u s C F G s) / l o g (# C F G s)

$logdensity = log(\#unambiguousCFGs) / log(\#CFGs)$ , यह स्पष्ट रूप से घनत्व को प्रभावित करेगा। मान लें कि असंदिग्ध CFGs की संख्या और CFGs की संख्या , तो लॉग-डेंसिटी जबकि घनत्व 0. है। मुझे पूरा यकीन है कि घनत्व होगा या तो 0 या 1, लेकिन एसिम्प्टोटिक लॉग-घनत्व एक दिलचस्प संख्या होने की संभावना है।

{1.5}^{n}

$1.5^n$

2^{n}

$2^n$

l o g_{1.5} 2

$log_{1.5} 2$

— मोबिअस डंबल

सवाल सटीक एन्कोडिंग पर निर्भर करता है। हालाँकि, ऐसा लगता है कि कई उचित एन्कोडिंग्स में, जैसे-जैसे लंबाई अनंत हो जाती है, उत्पादन नियमों की संख्या (प्रारंभिक प्रतीक की उपयुक्त व्याख्या के लिए) $S\to a$ $S$ और टर्मिनल $a$ ) उच्च संभावना के साथ एक से अधिक होगा; यहाँ मेरा शाब्दिक अर्थ है एक ही टर्मिनल $a$ । यदि हम इसे अस्पष्टता मानते हैं, तो मुझे उम्मीद है कि "अधिकांश" व्याकरण अस्पष्ट होंगे। हम ऐसी स्थितियों को भी नियंत्रित कर सकते हैं जैसे कि नियम $S\to S$ तथा $S\to a$ प्रत्येक कम से कम एक बार दिखाई दे रहा है।

इस सामान्य परिकल्पना को मानते हुए, कि हर (निश्चित) बोधगम्य नियम उच्च संभावना के साथ प्रकट होना चाहिए क्योंकि लंबाई अनंतता की ओर जाती है, हम पाते हैं कि "सबसे" व्याकरण उत्पन्न करते हैं $\Sigma^*$ अस्पष्ट तरीके से।

एक उदाहरण के रूप में, व्याकरण से अधिक के लिए निम्नलिखित एन्कोडिंग पर विचार करें $\Sigma = \{0,1\}$ । व्याकरण की वर्णमाला में प्रतीक होते हैं $\{0,1,;,.\}$ । गैर-टर्मिनलों को कम से कम लंबाई के द्विआधारी तारों द्वारा अनुक्रमित किया जाता है। पूर्ण स्टॉप द्वारा नियम अलग किए जाते हैं। प्रत्येक नियम अर्धविराम द्वारा अलग किए गए द्विआधारी तारों का एक क्रम है। पहली बाइनरी स्ट्रिंग बाएं-हाथ की तरफ गैर-टर्मिनल है, और बाकी (यदि कोई है) दाहिने हाथ की ओर का गठन; यदि पहला बाइनरी स्ट्रिंग एक गैर-टर्मिनल नहीं है (यानी, यह है $\epsilon$ , 0,1), तब शुरू गैर-टर्मिनल मान लिया गया है। गैर-टर्मिनल की शुरुआत हमेशा 00 होती है।

इस एन्कोडिंग के तहत, प्रत्येक स्ट्रिंग में $\{0,1,;,.\}^*$ कुछ व्याकरण का वर्णन करता है। उच्च संभावना वाले एक यादृच्छिक व्याकरण में कई प्रतियाँ होती हैं $.00;00.$ तथा $.00;0.$ , और विशेष रूप से अस्पष्ट होगा।

— युवल फिल्मस
स्रोत

हां, मैं इस तरह के नियमों पर विचार करता हूं

S \to S

$S\to S$ तथा

S \to a

$S\to a$ (व्याकरण में एक से अधिक बार दिखाई देना) मान्य है। दरअसल, यह एक व्याकरण को तुच्छ अस्पष्ट बनाता है। चीयर्स।

— user18064

लेकिन क्या यह भी ऐसा नहीं है, जैसा कि आकार (CFG) बढ़ता है, टर्मिनलों और गैर-टर्मिनलों की संख्या आम तौर पर बढ़ जाती है, इसलिए हमें उनका प्रतिनिधित्व करने के लिए अधिक बिट्स की आवश्यकता होती है, इसलिए हमें व्यक्तिगत नियमों का प्रतिनिधित्व करने के लिए अधिक बिट्स की आवश्यकता होती है। तो सीएफजी की संख्या जो तुच्छ कारणों के लिए असंदिग्ध हैं (उदाहरण के लिए केवल एक नियम आकार में फिट होता है) भी बढ़ता है।

— मार्टिन बर्जर

@ मॉर्टिन यह एन्कोडिंग पर निर्भर करता है। शायद आप अपने दावे का समर्थन करने वाले एन्कोडिंग के साथ आ सकते हैं, उदाहरण के लिए यदि वर्णमाला का आकार व्याकरण के आकार के साथ बढ़ता है। मेरी एन्कोडिंग एक निरंतर वर्णमाला आकार का उपयोग करती है, इसलिए यह प्रभाव नहीं होता है।

— युवल फिल्मस

@MartinBerger व्याकरण के आकार को बढ़ाते हुए टर्मिनल और गैर-टर्मिनल प्रतीकों की संख्या बढ़ाने के बारे में एक मान्य बिंदु है। प्रोग्रामिंग लैंग्वेज जैसे मामलों के उपयोग के लिए, जो समझ में आता है।

— user18064

@ user18064 प्रोग्रामिंग भाषाएँ आमतौर पर एक निरंतर आकार की वर्णमाला का उपयोग करती हैं, ज्यादातर मामलों में ASCII का सबसेट। मैं असीमित वर्णमाला आकार के साथ किसी भी व्यावहारिक भाषा से अवगत नहीं हूं, हालांकि कोई भी उन्हें आसानी से परिभाषित कर सकता है।

— युवल फिल्मस