डेटा साइंस text-mining

2

नैतिक और लागत प्रभावी रूप से स्केलिंग डेटा स्क्रेप्स

जीवन में कुछ चीजें मुझे आनंद देती हैं जैसे कि इंटरनेट से संरचित और असंरचित डेटा को स्क्रैप करना और मेरे मॉडलों में इसका उपयोग करना। उदाहरण के लिए, डेटा साइंस टूलकिट (या RDSTKआर प्रोग्रामर के लिए) मुझे आईपी या पते का उपयोग करके बहुत सारे अच्छे स्थान-आधारित डेटा खींचने …

13 text-mining scraping

4

विभिन्न स्वरूपों के दस्तावेजों की तुलना करते समय TF-IDF और कोसाइन समानता के विकल्प

मैं एक छोटे से निजी प्रोजेक्ट पर काम कर रहा हूं, जो एक उपयोगकर्ता की नौकरी कौशल लेता है और उन कौशल के आधार पर उनके लिए सबसे आदर्श कैरियर का सुझाव देता है। मैं इसे प्राप्त करने के लिए नौकरी लिस्टिंग के एक डेटाबेस का उपयोग करता हूं। फिलहाल, …

12 nlp text-mining similarity cosine-distance

3

अपरिष्कृत पाठ वर्गीकरण

मैं अज्ञात संरचना के वेब साइटों को असंरचित पाठ दस्तावेजों को वर्गीकृत करने जा रहा हूं। जिन कक्षाओं को मैं वर्गीकृत कर रहा हूं, उनकी संख्या सीमित है (इस बिंदु पर, मेरा मानना है कि तीन से अधिक नहीं है)। क्या किसी के पास सुझाव है कि मैं कैसे आरंभ …

12 machine-learning classification text-mining beginner

2

वरीयता मिलान एल्गोरिथ्म

इस साइड प्रोजेक्ट में मैं वहां काम कर रहा हूं जहां मुझे निम्नलिखित समस्या के समाधान की आवश्यकता है। मेरे पास लोगों (ग्राहकों) के दो समूह हैं। समूह Aखरीदने का इरादा रखता है और समूह Bएक निर्धारित उत्पाद बेचने का इरादा रखता है X। उत्पाद में विशेषताओं की एक श्रृंखला …

12 bigdata text-mining recommender-system

1

यह निर्धारित कैसे करें कि चरित्र अनुक्रम अंग्रेजी शब्द या शोर है

भविष्य की भविष्यवाणी के लिए आप किस तरह की विशेषताओं को शब्दों की सूची से निकालने की कोशिश करेंगे, क्या यह मौजूदा शब्द है या सिर्फ पात्रों की गड़बड़ है? वहाँ है कि मैंने पाया काम का वर्णन है वहाँ । आपको एक प्रोग्राम लिखना होगा जो उत्तर दे सके …

11 machine-learning nlp text-mining algorithms

2

सजा हुआ तंत्रिका नेटवर्क का उपयोग करते हुए दस्तावेज़ वर्गीकरण

मैं दस्तावेजों को वर्गीकृत करने के लिए सीएनएन (कन्वेन्शनल न्यूरल नेटवर्क) का उपयोग करने की कोशिश कर रहा हूं। कई पाठों में लघु पाठ / वाक्यों के लिए सीएनएन का अध्ययन किया गया है। हालांकि, ऐसा लगता है कि किसी भी कागजात ने लंबे पाठ या दस्तावेज़ के लिए सीएनएन …

11 classification neural-network text-mining convnet word2vec

1

छोटे पाठ फ़ाइलों पर word2vec लागू करना

मैं पूरी तरह से word2vec के लिए नया हूँ इसलिए pls इसे मेरे साथ सहन करें मेरे पास 1000-3000 के बीच, प्रत्येक ट्वीट के सेट के साथ पाठ फ़ाइलों का एक सेट है। मैंने एक सामान्य कीवर्ड ("kw1") चुना है और शब्द 2 kc का उपयोग करके "kw1" के लिए …

11 machine-learning nlp text-mining

3

हैशिंग वेक्टाइज़र और एक tfidf वेक्टराइज़र के बीच अंतर क्या है

मैं प्रत्येक दस्तावेज़ के लिए पाठ दस्तावेज़ों के शब्द वैक्टर में परिवर्तित कर रहा हूँ। मैं एक TfidfVectorizer और एक HashingVectorizer का उपयोग करके यह कोशिश की है मैं समझता हूं कि अंकों HashingVectorizerको IDFअंकों की तरह ध्यान में नहीं रखा जाता TfidfVectorizerहै। जिस कारण से मैं अभी भी काम …

11 nlp scikit-learn text-mining tfidf

4

टेक्स्ट प्रोसेसिंग में क्लस्टरिंग का उपयोग करना

नमस्ते यह डेटा साइंस स्टैक में मेरा पहला सवाल है। मैं पाठ वर्गीकरण के लिए एक एल्गोरिथ्म बनाना चाहता हूं। मान लीजिए कि मेरे पास पाठ और लेखों का एक बड़ा समूह है। लगभग ५००० सादे ग्रंथों के बारे में बताते हैं। मैं पहले चार और ऊपर के सभी वर्णों …

11 text-mining clustering

3

एनईआर के लिए अनसुचित सुविधा सीखना

मैंने अपने हैंडक्राफ्ट सुविधाओं के साथ सीआरएफ एल्गोरिथ्म के उपयोग के साथ एनईआर प्रणाली को लागू किया है जिसने काफी अच्छे परिणाम दिए हैं। बात यह है कि मैंने कई अलग-अलग विशेषताओं का उपयोग किया जिनमें पीओएस टैग और लेमेस शामिल हैं। अब मैं अलग भाषा के लिए एक ही …

11 nlp text-mining feature-extraction

3

वैज्ञानिक कंप्यूटिंग के लिए सर्वश्रेष्ठ भाषाएँ [बंद]

बंद हो गया । इस प्रश्न पर अधिक ध्यान देने की आवश्यकता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह इस पोस्ट को संपादित करके केवल एक समस्या पर केंद्रित हो । 5 साल पहले …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

1

पाठ-वर्गीकरण-समस्या: क्या Word2Vec / NN सबसे अच्छा तरीका है?

मैं एक ऐसी प्रणाली डिजाइन करना चाह रहा हूं, जिसमें पाठ का एक पैराग्राफ दिया गया है, जो इसे वर्गीकृत करने और संदर्भ की पहचान करने में सक्षम होगा: उपयोगकर्ता द्वारा उत्पन्न पाठ पैराग्राफ (जैसे टिप्पणी / प्रश्न / उत्तर) के साथ प्रशिक्षित किया जाता है प्रशिक्षण सेट में प्रत्येक …

10 neural-network text-mining multiclass-classification word-embeddings

1

पर्यवेक्षित शिक्षण एल्गोरिथ्म में कई लेबल

मेरे पास संबंधित विषयों के साथ पाठ का एक कोष है। उदाहरण के लिए "A rapper Tupac was shot in LA"और इसे लेबल किया गया था ["celebrity", "murder"]। तो मूल रूप से प्रत्येक वेक्टर वेक्टर में कई लेबल हो सकते हैं (समान राशि नहीं। पहली फीचर वेक्टर में 3 लेबल …

10 machine-learning text-mining

3

इसी तरह के दस्तावेज खोजने के लिए वेक्टर स्पेस मॉडल cosine tf-idf

दस लाख से अधिक दस्तावेजों का कोष रखें दिए गए दस्तावेज़ के लिए वैसा ही उपयोग करना चाहते हैं जैसा कि वेक्टर अंतरिक्ष मॉडल में cosine का उपयोग करते हुए किया जाता है d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) इस tf-idf के रूप में लंबे दस्तावेज़ों के प्रति …

10 text-mining similarity

3

लॉग फ़ाइल विश्लेषण: मूल्य भाग से सूचना भाग निकालना

मैं अपने एक उत्पाद की कई लॉग फ़ाइलों पर डेटा सेट बनाने की कोशिश कर रहा हूं। विभिन्न लॉग फ़ाइलों का अपना लेआउट और अपनी सामग्री है; मैंने उन्हें सफलतापूर्वक एक साथ समूहीकृत किया, केवल एक कदम शेष ... वास्तव में, लॉग "संदेश" सबसे अच्छी जानकारी है। मेरे पास उन …

10 text-mining clustering

text-mining पर टैग किए गए जवाब