text-mining पर टैग किए गए जवाब

पैटर्न को पहचानकर पाठ के रूप में डेटा से जानकारी निकालने से संबंधित डेटा खनन के एक सबसेट का संदर्भ देता है। टेक्स्ट माइनिंग का लक्ष्य अक्सर किसी दिए गए दस्तावेज़ को स्वचालित रूप से कई श्रेणियों में वर्गीकृत करना है, और इस प्रदर्शन को गतिशील रूप से सुधारना है, जिससे यह मशीन सीखने का एक उदाहरण है। इस प्रकार के टेक्स्ट माइनिंग का एक उदाहरण ईमेल के लिए उपयोग किए जाने वाले स्पैम फिल्टर हैं।

2
अव्यक्त डिरिचलेट आवंटन के साथ एक होल्डआउट की पूर्णता की गणना कैसे करें?
मैं इस बात को लेकर असमंजस में हूँ कि लैट्रेंट डिरिक्लेट आवंटन (LDA) करते समय होल्डआउट के नमूने की गड़बड़ी की गणना कैसे की जाए। इस पर विषय हवा पर कागज, मुझे लगता है कि मैं कुछ स्पष्ट याद आ रही है ... एलडीए के लिए प्रदर्शन का एक अच्छा …

5
बड़े पैमाने पर पाठ वर्गीकरण
मैं अपने पाठ डेटा पर वर्गीकरण करना चाह रहा हूं। मेरे पास 300 classes, प्रति वर्ग (इसलिए 60000 documents in total) 200 प्रशिक्षण दस्तावेज हैं और इसका परिणाम बहुत ही उच्च आयामी डेटा (हम 1 मिलियन आयामों से अधिक हो सकता है ) में हो सकता है । मैं पाइपलाइन …

2
पाठ वर्गीकरण के लिए रिज रिग्रेशन क्लासिफायर काफी अच्छी तरह से क्यों काम करता है?
पाठ वर्गीकरण के लिए एक प्रयोग के दौरान, मैंने पाया कि रिज क्लासिफायर जनरेट करने वाले परिणाम लगातार उन क्लासिफायरों के बीच परीक्षणों को शीर्ष पर लाते हैं जो कि आमतौर पर एसवीएम, एनबी, केएनएन आदि जैसे टेक्स्ट माइनिंग कार्यों के लिए उल्लिखित हैं और लागू होते हैं, हालांकि, मैंने …

1
मैं समाचार कहानियों में आधारित अपराध सूचकांक और राजनीतिक अस्थिरता सूचकांक बनाना चाहता हूं
मेरे पास यह पक्ष परियोजना है जहां मैं अपने देश में स्थानीय समाचार वेबसाइटों को क्रॉल करता हूं और अपराध सूचकांक और राजनीतिक अस्थिरता सूचकांक बनाना चाहता हूं। मैंने पहले ही परियोजना के सूचना पुनर्प्राप्ति भाग को कवर कर लिया है। मेरी योजना यह करने की है: विषयविषयक अर्क। डुप्लिकेट …

1
अव्यक्त डिरिचलेट आवंटन का उपयोग करने के लिए इनपुट पैरामीटर
विषय मॉडलिंग (अव्यक्त डिरिचलेट आवंटन) का उपयोग करते समय, विषयों की संख्या एक इनपुट पैरामीटर है जिसे उपयोगकर्ता को निर्दिष्ट करने की आवश्यकता होती है। मुझे लगता है कि हम भी उम्मीदवार विषय का एक संग्रह प्रदान करना चाहिए कि Dirichlet प्रक्रिया के खिलाफ नमूना है? क्या मेरी समझ सही …

1
अव्यक्त Dirichlet आवंटन का उपयोग करते हुए विषय की भविष्यवाणी
मैंने दस्तावेजों के एक कोष पर एलडीए का उपयोग किया है और कुछ विषयों को पाया है। मेरे कोड का आउटपुट प्रायिकता वाले दो मैट्रिक्स हैं; एक डॉक्टर-विषय की संभाव्यता और दूसरा शब्द-विषय की संभावनाएँ। लेकिन मैं वास्तव में एक नए दस्तावेज़ के विषय की भविष्यवाणी करने के लिए इन …

2
हम क्लस्टरिंग के साथ आयामी कमी को कब जोड़ते हैं?
मैं दस्तावेज़-स्तरीय क्लस्टरिंग करने की कोशिश कर रहा हूं। मैंने टर्म-डॉक्यूमेंट फ़्रीक्वेंसी मैट्रिक्स का निर्माण किया है और मैं k- साधनों का उपयोग करके इन उच्च आयामी वैक्टरों को क्लस्टर करने का प्रयास कर रहा हूं। सीधे क्लस्ट करने के बजाय, मैंने जो भी किया, वह पहले यू, एस, वीटी …

2
लघु पाठ क्लस्टरिंग के लिए एक अच्छी विधि क्या है?
मैं एक पाठ क्लस्टरिंग समस्या पर काम कर रहा हूं। डेटा में कई वाक्य हैं। क्या एक अच्छा एल्गोरिथ्म है जो छोटे पाठ पर उच्च सटीकता तक पहुंचता है? क्या आप अच्छे संदर्भ प्रदान कर सकते हैं? केमियंस, वर्णक्रमीय क्लस्टरिंग जैसे एल्गोरिदम इस समस्या के लिए अच्छी तरह से काम …

4
टेक्स्ट माइनिंग: आर्टिफिशियल इंटेलिजेंस के साथ टेक्स्ट (जैसे न्यूज आर्टिकल्स) को कैसे क्लस्टर किया जाए?
मैंने विभिन्न कार्यों के लिए कुछ न्यूरल नेटवर्क (MLP (पूरी तरह से जुड़े हुए), Elman (आवर्तक)) का निर्माण किया है, जैसे पोंग खेलना, हस्तलिखित अंकों और सामान को वर्गीकृत करना ... इसके साथ ही मैंने कुछ पहले कॉन्फिडेंशियल न्यूरल नेटवर्क बनाने की कोशिश की, जैसे कि मल्टी-डिजिट वाले हस्तलिखित नोटों …

3
अव्यक्त अर्थ विश्लेषण (एलएसए), अव्यक्त अर्थ इंडेक्सिंग (एलएसआई), और एकवचन मूल्य अपघटन (एसवीडी) के बीच अंतर क्या हैं?
इन शब्दों को एक साथ बहुत फेंक दिया जाता है, लेकिन मैं यह जानना चाहूंगा कि आप क्या सोचते हैं कि अंतर क्या है, यदि कोई हो। धन्यवाद
15 pca  text-mining  svd 

5
वन-क्लास टेक्स्ट वर्गीकरण कैसे करें?
मुझे एक पाठ वर्गीकरण समस्या से निपटना है। एक वेब क्रॉलर एक निश्चित डोमेन के वेबपेजों को क्रॉल करता है और प्रत्येक वेबपेज के लिए मैं यह पता लगाना चाहता हूं कि यह केवल एक विशिष्ट वर्ग का है या नहीं। यही है, अगर मैं इस वर्ग को सकारात्मक कहता …

3
लघु दस्तावेजों के लिए विषय
इस सवाल से प्रेरित होकर , मैं सोच रहा हूं कि क्या किसी भी विषय पर बहुत छोटे ग्रंथों के बड़े संग्रह के लिए कोई काम किया गया है। मेरा अंतर्ज्ञान यह है कि ट्विटर को इस तरह के मॉडल के लिए एक प्राकृतिक प्रेरणा होना चाहिए। हालांकि, कुछ सीमित …

2
आर (टीएम पैकेज) के साथ पाठ खनन के उदाहरण
मैंने tmएक दोस्त द्वारा एक ड्राफ्ट पेपर पढ़ने के बाद तीन दिनों तक डबिंग की, जहां उसने UCINET के साथ एक टेक्स्ट कॉर्पस की खोज की, जिसमें टेक्स्ट क्लाउड्स, टू-मोड नेटवर्क ग्राफ और सिंगल वैल्यू डिकम्पोजिशन (ग्राफिक्स के साथ, स्टैटा का उपयोग करके) दिखाया गया। मैं बड़ी संख्या में मुद्दों …
14 r  text-mining 

2
क्या n- ग्राम प्रतिप्रकारक होते हैं?
प्राकृतिक भाषा प्रसंस्करण करते समय, कोई कॉर्पस ले सकता है और एन के अनुक्रम में होने वाले अगले शब्द की संभावना का मूल्यांकन कर सकता है। n को आमतौर पर 2 या 3 (बिगोग्राम और ट्रिगर्स) के रूप में चुना जाता है। क्या एक ज्ञात बिंदु है जिस पर nth …

1
स्वचालित कीवर्ड निष्कर्षण: सुविधाओं के रूप में कोसाइन समानताओं का उपयोग करना
मुझे एक दस्तावेज़-टर्म मैट्रिक्स , और अब मैं एक पर्यवेक्षित शिक्षण पद्धति (SVM, Naive Bayes, ...) के साथ प्रत्येक दस्तावेज़ के लिए कीवर्ड निकालना चाहूंगा। इस मॉडल में, मैं पहले से ही Tf-idf, Pos टैग, ...ममM लेकिन अब मैं nexts के बारे में सोच रहा हूं। मुझे शर्तों के बीच …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.