टेक्स्ट दस्तावेज़ के लिए फीचर वेक्टर बनाने के लिए बिग्राम (एन-ग्राम) मॉडल का उपयोग करने के बारे में

10

टेक्स्ट माइनिंग के लिए फीचर निर्माण का एक पारंपरिक तरीका बैग-ऑफ-वर्ड्स दृष्टिकोण है, और किसी दिए गए टेक्स्ट डॉक्यूमेंट की विशेषता वाले वेक्टर की स्थापना के लिए tf-idf का उपयोग करके इसे बढ़ाया जा सकता है। वर्तमान में, मैं फ़ीचर वेक्टर के निर्माण के लिए द्वि-ग्राम भाषा मॉडल या (एन-ग्राम) का उपयोग करने की कोशिश कर रहा हूं, लेकिन यह नहीं जानता कि यह कैसे करना है? क्या हम बैग-ऑफ-वर्ड्स के दृष्टिकोण का अनुसरण कर सकते हैं, अर्थात, शब्दों के बजाय द्वि-ग्राम के संदर्भ में आवृत्ति की गणना कर सकते हैं, और tf-idf वेटिंग योजना का उपयोग करके इसे बढ़ा सकते हैं?

— user3125
स्रोत

4

हाँ। हालांकि यह कई और विशेषताएं उत्पन्न करेगा: कुछ कट-ऑफ लागू करना महत्वपूर्ण हो सकता है (उदाहरण के लिए ऐसे द्वि-ग्राम या शब्द जो आपके डेटासेट में 5 से कम बार घटते हैं) को लागू करना महत्वपूर्ण है ताकि आपका क्लासिफायर बहुत अधिक शोर के साथ न डूबे। विशेषताएं।

— ogrisel
स्रोत

धन्यवाद। क्या आपके कहने का मतलब है कि बिग्राम (एन-ग्राम) के संदर्भ में प्रत्येक फीचर वैल्यू की गणना करने का मेरा सामान्य विचार सही है? दूसरे शब्दों में, बैग-ऑफ-वर्ड्स और एन-ग्राम मॉडल के बीच फीचर मानों की गणना में कोई बड़ा अंतर नहीं है। स्पष्टीकरण के लिए धन्यवाद।

— 14:

हां, आप सभी बड़ेग्रामों (यूनीग्राम्स (शब्द) दोनों का उपयोग सुविधाओं के एक बड़े बैग में कर सकते हैं (जब तक आप कुछ कट-ऑफ स्तर के साथ कम से कम लगातार ट्रिम करते हैं)।

— 17

3

सकारात्मक पारस्परिक जानकारी वाले लोगों को चुनकर ही बिग्रेड की संख्या को कम किया जा सकता है।

हमने आईएनएक्स एक्सएमएल माइनिंग ट्रैक, http://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.asp पर बिग्रेड्स प्रतिनिधित्व का एक बैग बनाने के लिए ऐसा किया ।

हमने जो प्रयास नहीं किया वह द्वि-ग्राम भारित करने की शर्तों के बीच की आपसी जानकारी का उपयोग कर रहा है। देखें https://en.wikipedia.org/wiki/Pointwise_mutual_information , https://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdf और http: //www.nltk। org / howto / collocations.html बिगर के लिए पॉइंट वाइज आपसी जानकारी की बेहतर व्याख्या के लिए।

देखें /programming/20018730/computing-pointwise-mutual-information-of-a-text-document-using-python और /programming/22118350/python-sentiment-analysis इससे संबंधित अन्य प्रश्नों के लिए मनोरंजक-बिंदु-आपसी-जानकारी ।

— क्रिस डे व्रीस
स्रोत

मृत लिंक :-( ...

— रेनॉड

1

@ रेनॉड लिंक को अपडेट कर दिया गया है :-)

— क्रिस डी

0

डेटा की गतिशीलता को कम करने के लिए यादृच्छिक अनुमानों का उपयोग करना, सुविधाओं को संग्रहीत करने के लिए आवश्यक स्थान को कम करने के लिए उपयोगी साबित हो सकता है, https://en.wikipedia.org/wiki/Random_projection । यह बहुत अच्छी तरह से पैमाने पर है और हर उदाहरण को स्वतंत्र रूप से कम आयामी स्थान पर पेश किया जा सकता है और बिना किसी प्रत्यक्ष अनुकूलन विधियों जैसे पीसीए, एसवीडी, सैमन मैप्स, एनएमएफ, आदि के बिना।

— क्रिस डे व्रीस
स्रोत