क्या n- ग्राम प्रतिप्रकारक होते हैं?


13

प्राकृतिक भाषा प्रसंस्करण करते समय, कोई कॉर्पस ले सकता है और एन के अनुक्रम में होने वाले अगले शब्द की संभावना का मूल्यांकन कर सकता है। n को आमतौर पर 2 या 3 (बिगोग्राम और ट्रिगर्स) के रूप में चुना जाता है।

क्या एक ज्ञात बिंदु है जिस पर nth श्रृंखला के लिए डेटा को ट्रैक करना उल्टा हो जाता है, उस स्तर पर किसी विशेष कॉर्पस को एक बार वर्गीकृत करने के लिए कितना समय लगता है? या एक (डेटा संरचना) शब्दकोश से संभावनाओं को देखने के लिए कितना समय लगेगा?


आयामीता के अभिशाप के बारे में इस अन्य सूत्र से संबंधित है
एंटोनी 8

जवाबों:


2

क्या एक ज्ञात बिंदु है जिस पर nth श्रृंखला के लिए डेटा को ट्रैक करना उल्टा हो जाता है, उस स्तर पर किसी विशेष कॉर्पस को एक बार वर्गीकृत करने के लिए कितना समय लगता है?

आपको पेप्लेक्सिटी बनाम एन-ग्राम आकार के टेबल या प्लॉट की तलाश में होना चाहिए ।

उदाहरण:

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :

यहाँ छवि विवरण दर्ज करें

http://images.mysaring.ru/17/1041315/slide_16.jpg :

यहाँ छवि विवरण दर्ज करें

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :

यहाँ छवि विवरण दर्ज करें

गड़बड़ी आपके भाषा मॉडल, एन-ग्राम आकार और डेटा सेट पर निर्भर करती है। हमेशा की तरह, भाषा मॉडल की गुणवत्ता के बीच एक व्यापार बंद है, और इसे चलाने में कितना समय लगता है। आजकल सबसे अच्छे भाषा के मॉडल तंत्रिका नेटवर्क पर आधारित हैं, इसलिए n-ग्राम आकार की पसंद एक समस्या से कम है (लेकिन तब आपको फ़िल्टर आकार (एस) का चयन करने की आवश्यकता होती है यदि आप सीएनएन का उपयोग करते हैं, अन्य हाइपरपैरमीटर के बीच ...)।


12

"काउंटर उत्पादक" का आपका उपाय मनमाना हो सकता है - जैसे। बहुत तेज़ मेमोरी के साथ इसे तेज़ी से संसाधित किया जा सकता है (अधिक यथोचित)।

ऐसा कहने के बाद, घातीय वृद्धि इसमें आती है और मेरी अपनी टिप्पणियों से यह 3-4 अंक के आसपास लगता है। (मैंने कोई विशिष्ट अध्ययन नहीं देखा है)।

ट्रिग्राम का बीमरम्स पर फायदा होता है लेकिन यह छोटा है। मैंने 4-ग्राम को कभी लागू नहीं किया है, लेकिन सुधार बहुत कम होने जा रहा है। संभवत: परिमाण घटने का एक समान क्रम। उदाहरण के लिए। यदि ट्रिगर्स बिग्रेड्स पर 10% चीजों में सुधार करते हैं, तो 4-ग्राम के लिए एक उचित अनुमान ट्रिगर्स पर 1% सुधार हो सकता है।

हालाँकि असली हत्यारा मेमोरी और न्यूमेरिक काउंट्स का कमजोर होना है। एक के साथ अद्वितीय शब्द कोष, तो एक बाइग्राम मॉडल की जरूरत है मूल्यों; एक ट्रिगर मॉडल को आवश्यकता होगी ; और एक 4-ग्राम को आवश्यकता होगी । अब, ठीक है, ये विरल सरणियाँ होने जा रही हैं, लेकिन आपको चित्र मिल जाएगा। मूल्यों की संख्या में एक घातीय वृद्धि है, और आवृत्ति गणनाओं के कमजोर पड़ने के कारण संभावनाएं बहुत कम हो जाती हैं। 0 या 1 अवलोकन के बीच का अंतर बहुत अधिक महत्वपूर्ण हो जाता है और फिर भी व्यक्तिगत 4-ग्राम की आवृत्ति बार-बार गिरती जा रही है।10000 2 10000 3 10000 410,000100002100003100004

कमजोर पड़ने वाले प्रभाव की भरपाई के लिए आपको एक विशाल कॉर्पस की आवश्यकता होती है, लेकिन जिपफ लॉ का कहना है कि एक विशाल कॉर्पस में और भी अधिक अद्वितीय शब्द होने वाले हैं ...

मैं अनुमान लगाता हूं कि यही कारण है कि हम बहुत सारे बिग्राम और ट्रायग्राम मॉडल, कार्यान्वयन और डेमो देखते हैं; लेकिन पूरी तरह से काम नहीं 4-ग्राम उदाहरण।


2
एक अच्छा सारांश। निम्नलिखित कागज के पृष्ठ ४-५३ ("लंबे समय तक चलने वाले निंदक डायट्रीब") उस पर अधिक विवरण प्रदान करते हैं (कागज में उच्च आदेश एन-ग्राम के लिए कुछ परिणाम भी शामिल हैं) research.microsoft.com/~joshuago/longcombine.pdf
येवगेनी

2
लिंक मर चुका है। यहाँ पूर्ण संदर्भ और लिंक को arXiv संस्करण: जोशुआ टी। गुडमैन (2001) दिया गया है। भाषा मॉडलिंग में प्रगति की एक बिट: विस्तारित संस्करण। माइक्रोसॉफ्ट रिसर्च: रेडमंड, WA (यूएसए)। तकनीकी रिपोर्ट MSR-TR-2001-72।
स्कोजी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.