चॉम्स्की सामान्य रूप विधि: CYK पार्सर प्रदर्शन निहितार्थ?


9

चार्ट पार्सर को चॉम्स्की सामान्य रूप में या सीधे उत्पादन नियमों के आधार पर लागू किया जा सकता है। पल के लिए मान लें कि हमारे पास एक CYK चार्ट पार्सर है जो चॉम्स्की सामान्य रूप का उपयोग करता है। बिनाराइजेशन को विशिष्ट रूप से परिभाषित नहीं किया गया है। क्या यह CYK चार्ट पार्स के प्रदर्शन को प्रभावित करता है। क्या CYK चार्ट पार्सर के प्रदर्शन को बेहतर बनाने के लिए इसका फायदा उठाया जा सकता है?


दृष्टिकोण एक ही आकार के व्याकरण बनाते हैं, क्या वे नहीं? CYK हमेशा पूरी तालिका भरता है, इसलिए आप केवल "क्या कोई फिटिंग नियम है?" इसलिए, मैं उम्मीद करूंगा कि केवल नियम गणना का प्रभाव होगा, व्याकरण संरचना का नहीं।
राफेल

: Binarization के लिए इस्तेमाल किया विधि को भी जो CYK प्रदर्शन को प्रभावित करता व्याकरण, के आकार को प्रभावित करता है informatica-didactica.de/cmsmadesimple/... चर्चा CNF के लिए कुछ विकल्प
मैक्स

जवाबों:


6

जबकि स्पष्ट उत्तर यह है कि मौलिक जटिलता नहीं बदल सकती है, आप वास्तव में मुठभेड़ करने जा रहे तार को पार्स करने के लिए बेहतर या बदतर एल्गोरिदम हो सकते हैं। हालांकि, ऐसा लगता है कि यह मुद्दा व्यक्तिगत व्याकरण प्रस्तुतियों (ए, बी, और सी के प्रश्न में) की सापेक्ष आवृत्ति कम है और अप्रयुक्त, मृत अंत पार्स का एक मुद्दा अधिक है कि एक दूसरे का विचलन हो सकता है।

के साथ मैं खोज का एक सा पाया CKY पार्सिंग के लिए बेहतर binarization (गीत, डिंग, और लिन, EMNLP 2008) है, जो निश्चित रूप से समाप्त करने के लिए है कि आप लगता है कर सकते हैं एक "बेहतर" या "बदतर" binarization तार आप वास्तव में उम्मीद की तुलना में लेने पार्स करना है। "डेड एंड पर्स" के लिए उनका नाम जो अभ्यास में कम करने की उम्मीद करता है , अधूरा घटक लगता है , और पहले पृष्ठ पर एक अच्छा उदाहरण है।


प्रस्तुतियों (S -> ABC) (T -> ABD) सहित व्याकरण पर विचार करें। यदि "बीसी" हमेशा "ए" से पहले होता है, लेकिन "ए" कभी-कभी "सी" द्वारा पीछा नहीं किया जाता है, तो बी और सी को संयोजित करने पर कम मृत छोर होंगे, और सापेक्ष आवृत्ति अप्रासंगिक है। "कुछ" और "कई" के बारे में आपकी बात समझ में आती है यदि शब्द यादृच्छिक रूप से प्रकट होते हैं, लेकिन मुझे लगता है कि सॉन्ग, डिंग, और लिन जो कर रहे हैं वह एनग्राम फ्रीक्वेंसी का शोषण कर रहा है, जो थोड़ा अधिक परिष्कृत है। वे यह भी बताते हैं कि, मेरे उदाहरण में, आप अभी भी साझाकरण का शोषण करके "एबी" द्वैतकरण के साथ जीत सकते हैं!
रोब सिमंस

4

वास्तव में, चॉम्स्की सामान्य रूप (CNF) को CYK चलाने की आवश्यकता नहीं है, केवल द्विप्रकरण है। बिनार्इजेशन पार्सिंग की क्यूबिक जटिलता को संरक्षित करने के लिए आवश्यक है, हालांकि केवल गैर-टर्मिनलों (एनटी) के संबंध में आवश्यक है। लेकिन फिर, यदि आपके पास केवल 2 गैर-टर्मिनलों और कुछ टर्मिनलों सहित नियम हैं, तो CYK एल्गोरिदम प्रोग्राम और समझाने के लिए अधिक जटिल हो जाता है।

जैसा कि आप कहते हैं, दूरबीन करने के कई तरीके हैं। कुछ अन्य की तुलना में छोटे व्याकरण का उत्पादन करेंगे। उदाहरण के लिए

X -> B C D
Y -> B C E 

के रूप में binarized जा सकता है

X -> Z D
Y -> Z E
Z -> B C

इस प्रकार एक नियम को कारक द्वारा सहेजा जा रहा है, जो संगणना और इसके परिणाम आकार पर सहेज सकता है।

लेकिन अन्य नियमों के साथ, आप शुरुआत के बजाय नियमों के अंत को स्पष्ट करना चाहते हैं।

मैं रोब सिमंस के उत्तर द्वारा उद्धृत गीत, डिंग और लिन के काम से परिचित नहीं हूं । विचार दिलचस्प है लेकिन मुझे आश्चर्य है कि गणना को अनुकूलित करने के अन्य तरीकों की तुलना में यह कितना प्रभावी हो सकता है। मुझे इतना डर ​​नहीं है।

मुद्दा यह है कि केवल शुद्ध सीकेवाई एल्गोरिदम के संबंध में मुद्दों का विश्लेषण करना थोड़ा अकादमिक लगता है, लेकिन महंगा व्यायाम है क्योंकि अन्य प्रकार के अनुकूलन हैं जो मृत अंत परस के उन्मूलन में काफी सुधार कर सकते हैं।

CYK एल्गोरिदम के एक परिवार में सरल बदलावों में से केवल एक है जो सभी एक ही गतिशील प्रोग्रामिंग मॉडल पर निर्मित होते हैं, जाहिरा तौर पर। मैं स्पष्ट रूप से कह रहा हूं क्योंकि इन एल्गोरिदम का सबसे सरल संस्करण गतिशील प्रोग्रामिंग के रूप में नहीं, बल्कि क्रॉस-प्रोडक्ट के रूप में जाना जाता है। यह सीएफ व्याकरण जी का पुराना निर्माण है जो 1995 में लैंग द्वारा टिप्पणी के रूप में बार हिलेल, पर्ल्स और शमीर (1961) के कारण सीएफ व्याकरण एफ की भाषा और एक एफएसए ए की नियमित भाषा के प्रतिच्छेदन को उत्पन्न करता है ।

डायनेमिक प्रोग्रामिंग पर आधारित सभी चार्ट पार्सर, या सामान्य सीएफ पार्सर को उस क्रॉस-प्रोडक्ट निर्माण के "अनुकूलित" संस्करण के रूप में देखा जा सकता है, जो मुख्य रूप से पार्सर के बेकार कम्प्यूटेशंस से बचने के लिए उपयोग किया जा रहा है। लेकिन समस्या सूक्ष्म है क्योंकि बेकार संगणना से बचने के परिणामस्वरूप उपयोगी लोगों की नकल हो सकती है, जो बदतर हो सकती है।

नीचे-ऊपर होने के नाते, CKY एल्गोरिथ्म आंशिक पार्स की बेकार संगणना पैदा करता है जो व्याकरण के स्वयंसिद्ध शब्द से नहीं निकल सकता है।

जीएलआर पार्सर जैसे एल्गोरिदम (बेहतर ज्ञात लोगों में से एक का नाम लेने के लिए, हालांकि त्रुटिपूर्ण संस्करण प्रकाशित किया गया है), कुछ शीर्ष-डाउन ज्ञान हैं जो संभवत: लागत पर ऐसे कई बेकार कम्प्यूटेशंस से बचेंगे। और बेकार संगणनाओं को बचाने के संबंध में विभिन्न व्यवहार के साथ कई अन्य प्रकार हैं।

यह इन अनुकूलन रणनीतियों के साथ है कि बिनराइजेशन रणनीति का विश्लेषण किया जाना चाहिए। एक मामूली बात हो सकती है कि अनुकूलन का क्या मतलब है, और अधिक शक्तिशाली तकनीकों की उपेक्षा करें।

पार्सिंग प्रक्रिया का अनुकूलन भी कसकर प्राप्त पार्स-संरचना के "गुणवत्ता" से जुड़ा हुआ है, जो सभी कब्जे वाले पार्स का प्रतिनिधित्व करता है, और अक्सर इसे (साझा-) पार्स-वन कहा जाता है। मैं एक और उत्तर में चर्चा करता हूं ।

इनमें से कुछ मुद्दों पर साहित्य में चर्चा होती है। उदाहरण के लिए बिलोट और लैंग ने पार्सिंग रणनीतियों के संबंध में बिनारीकरण के कुछ पहलुओं का विश्लेषण किया।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.