वेक्टर स्पेस मॉडल बनाम शब्दों का बैग?

12

इन पाठ प्रतिनिधित्व मॉडल के बीच अंतर क्या है / है: शब्दों और वेक्टर अंतरिक्ष मॉडल के बैग?

machine-learning text-mining

— samsamara
स्रोत

शब्दों का थैला एक सेट है जो एक ताल के रूप में अद्वितीय शब्दों का प्रतिनिधित्व करता है। शब्द वेक्टर स्पेस एक विरल बूलियन वेक्टर है जो शब्द स्थिति को भी रिकॉर्ड करता है। मुझे लगता है।

— user122160

16

बैग-ऑफ-वर्ड्स और वेक्टर स्पेस मॉडल टेक्स्ट के एक निकाय जैसे कि एक दस्तावेज़ को चिह्नित करने के विभिन्न पहलुओं को संदर्भित करते हैं। सूचना पुनर्प्राप्ति पर धारा 23.1 में जुराफस्की और मार्टिन, 2009 द्वारा पाठ्यपुस्तक "भाषण और भाषा प्रसंस्करण" में अच्छी तरह से वर्णित हैं। एक और अधिक संक्षिप्त संदर्भ मैनिंग, राघवन, और Schütze, 2008 द्वारा "सूचना पुनर्प्राप्ति का परिचय", में है खंड पर "स्कोरिंग के लिए वेक्टर अंतरिक्ष मॉडल"।

बैग-ऑफ-वर्ड्स से तात्पर्य है कि आप किसी दस्तावेज़ से किस तरह की जानकारी निकाल सकते हैं (जैसे, यूनीग्राम शब्द)। वेक्टर स्पेस मॉडल प्रत्येक दस्तावेज़ के लिए डेटा संरचना को संदर्भित करता है (अर्थात्, टर्म एंड टर्म वेट पेयर का एक फीचर वेक्टर)। दोनों पहलू एक दूसरे के पूरक हैं।

अधिक विशेष रूप से:

बैग-ऑफ-शब्द : किसी दिए गए दस्तावेज़ के लिए, आप शब्दों की एक अनियंत्रित सूची बनाने के लिए केवल यूनीग्राम शब्द (उर्फ शब्द) निकालते हैं। कोई POS टैग, कोई वाक्यविन्यास, कोई शब्दार्थ, कोई स्थिति, कोई बड़ा, कोई त्रिकोण नहीं। दस्तावेज़ को दर्शाने के लिए शब्दों का एक गुच्छा बनाने के लिए, केवल यूनीग्राम शब्द स्वयं। इस प्रकार: बैग-ऑफ-शब्द ।

वेक्टर स्पेस मॉडल : दस्तावेज़ से निकाले गए शब्दों के बैग को देखते हुए, आप दस्तावेज़ के लिए एक फ़ीचर वेक्टर बनाते हैं, जहाँ प्रत्येक फ़ीचर एक शब्द (शब्द) होता है और फीचर का मान टर्म वेट होता है। शब्द का वजन हो सकता है:

एक द्विआधारी मूल्य (1 संकेत के साथ कि दस्तावेज़ में यह शब्द हुआ, और 0 यह दर्शाता है कि यह नहीं हुआ);
एक टर्म फ़्रीक्वेंसी वैल्यू (यह दर्शाता है कि दस्तावेज़ में कितनी बार टर्म हुआ); या
TF-IDF मान (जैसे 1.23 की तरह एक छोटा सा फ्लोटिंग-पॉइंट नंबर)।

संपूर्ण दस्तावेज इस प्रकार एक फीचर वेक्टर है, और प्रत्येक फीचर वेक्टर एक वेक्टर स्पेस में एक बिंदु से मेल खाता है । इस सदिश स्थान के लिए मॉडल ऐसा है कि शब्दावली में प्रत्येक शब्द के लिए एक अक्ष है, और इसलिए सदिश स्थान V -dimensional है, जहां V शब्दावली का आकार है। वेक्टर को वैचारिक रूप से हर शब्दावली के लिए एक विशेषता के साथ V -dimensional होना चाहिए । हालाँकि, क्योंकि शब्दावली बड़ी हो सकती है ( V = 100,000 के शब्दों के आदेश पर ), एक दस्तावेज़ की सुविधा वेक्टर में आमतौर पर केवल वही शब्द शामिल होंगे जो उस दस्तावेज़ में आए थे और उन शर्तों को छोड़ दें जो नहीं की थीं। इस तरह की सुविधा वेक्टर को विरल माना जाता है ।

एक दस्तावेज़ का एक सदिश प्रतिनिधित्व इस प्रकार दिखाई देता है:

DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...

जहां इस उदाहरण वेक्टर में एक डॉक्यूमेंट आईडी (जैसे 42), एक ग्राउंड-ट्रुथ लेबल (उदाहरण के लिए राजनीति) और टर्म एंड टर्म फ़्रीक्वेंसी पेयर वाले फ़ीचर और फ़ीचर वैल्यू की एक सूची है। यहां, यह देखा जा सकता है कि इस दस्तावेज़ में "अनुपस्थित" शब्द 2 बार हुआ।

— stackoverflowuser2010
स्रोत

1

क्या यह है कि शब्दों के थैले का उपयोग करते हुए आप दस्तावेज़-टर्म मैट्रिक्स तत्व के लिए शब्द आवृत्ति प्रदान करते हैं और वेक्टर स्पेस में दस्तावेज़ मॉडल-टर्म मैट्रिक्स तत्व काफी सामान्य होते हैं जब तक वेक्टर अंतरिक्ष में संचालन (डॉट उत्पाद) का अर्थ होता है (tf-idf वेट, के लिए) उदाहरण)?

— danas.zuokas
स्रोत

हां, मैं यह भी सोच रहा हूं कि वीएसएम बैग-ऑफ-वर्ड्स का एक बेहतर संस्करण है।

— संस्कारम