सांख्यिकी और बिग डेटा text-mining

2

शब्दों के बजाय टेक्स्ट भाषा की पहचान में n-gram का उपयोग क्यों किया जाता है?

दो लोकप्रिय भाषा पहचान पुस्तकालयों में, सी ++ के लिए कॉम्पैक्ट भाषा डिटेक्टर 2 और जावा के लिए भाषा डिटेक्टर , दोनों ने पाठ विशेषताओं को निकालने के लिए (चरित्र आधारित) एन-ग्राम का इस्तेमाल किया। बैग-ऑफ-वर्ड्स (एकल शब्द / शब्दकोश) का उपयोग क्यों नहीं किया जाता है, और बैग-ऑफ-वर्ड्स और …

12 machine-learning classification text-mining natural-language

7

R के लिए टेक्स्ट-माइनिंग पैकेज क्या हैं और क्या अन्य ओपन सोर्स टेक्स्ट-माइनिंग प्रोग्राम हैं?

क्या आप R में एक टेक्स्ट माइनिंग पैकेज की सिफारिश कर सकते हैं जिसका उपयोग डेटा के बड़े संस्करणों के खिलाफ किया जा सकता है? दूसरे, क्या आर में पाठ खनन पैकेज के लिए कोई जीयूआई उपलब्ध है? तीसरा, क्या कोई अन्य ओपन सोर्स टेक्स्ट माइनिंग प्रोग्राम है जो प्रयोग …

12 r text-mining

2

वेक्टर स्पेस मॉडल बनाम शब्दों का बैग?

इन पाठ प्रतिनिधित्व मॉडल के बीच अंतर क्या है / है: शब्दों और वेक्टर अंतरिक्ष मॉडल के बैग?

12 machine-learning text-mining

5

टेक्स्ट माइनिंग पर अच्छी किताबें?

नमस्ते मैं जानना चाहता था कि क्या कुछ मामलों के अध्ययन के साथ पाठ खनन और वर्गीकरण पर कुछ अच्छी किताबें हैं? अगर नहीं जनता के लिए सुलभ कुछ पत्र / पत्रिकाएँ करते। यदि वे अपने उदाहरणों को आर के साथ और भी बेहतर बताते हैं। मैं कदम से कदम …

11 references text-mining

1

वृद्धिशील आईडीएफ (उलटा दस्तावेज़ आवृत्ति)

एक टेक्स्ट माइनिंग एप्लिकेशन में, एक सरल तरीका यह है कि दस्तावेजों के कॉम्पैक्ट स्पार्स अभ्यावेदन के रूप में वैक्टर बनाने के लिए का उपयोग करें । यह बैच सेटिंग के लिए ठीक है, जहां पूरे कॉर्पस को प्राथमिकता से जाना जाता है, क्योंकि को पूरे कॉर्पस की आवश्यकता होती …

11 time-series text-mining

1

TF-IDF लघुगणक में लघुगणक के उपयोग को समझना

मैं पढ़ रहा था: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition लेकिन मुझे ठीक से समझ में नहीं आ रहा है कि फार्मूला का निर्माण इस तरह से क्यों किया गया। मैं क्या समझता हूँ: iDF को कुछ स्तरों पर मापना चाहिए कि प्रत्येक दस्तावेज़ में S शब्द कितनी बार दिखाई देता है, मूल्य में कमी …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

टेक्स्ट दस्तावेज़ के लिए फीचर वेक्टर बनाने के लिए बिग्राम (एन-ग्राम) मॉडल का उपयोग करने के बारे में

टेक्स्ट माइनिंग के लिए फीचर निर्माण का एक पारंपरिक तरीका बैग-ऑफ-वर्ड्स दृष्टिकोण है, और किसी दिए गए टेक्स्ट डॉक्यूमेंट की विशेषता वाले वेक्टर की स्थापना के लिए tf-idf का उपयोग करके इसे बढ़ाया जा सकता है। वर्तमान में, मैं फ़ीचर वेक्टर के निर्माण के लिए द्वि-ग्राम भाषा मॉडल या (एन-ग्राम) …

10 machine-learning data-mining text-mining natural-language language-models

1

क्या विरलता की यह व्याख्या सटीक है?

पैकेज removeSparseTermsसे फ़ंक्शन के दस्तावेज़ीकरण के अनुसार tm, यह वही है जो स्पार्सिटी की आवश्यकता है: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only …

10 r text-mining natural-language

1

उलटा दस्तावेज़ आवृत्ति में एक क्यों जोड़ें?

मेरी पाठ्यपुस्तक आईडी को रूप में सूचीबद्ध करती है जहांlog(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN : दस्तावेजों की संख्या ntntn_t : टर्म वाले दस्तावेजों की संख्याttt विकिपीडिया इस सूत्र को वास्तविक संस्करण के रूप में सूचीबद्ध करता है । जो मैं समझता हूं: यह से होता है जो सहज ज्ञान युक्त लगता है। लेकिन …

9 text-mining natural-language smoothing

2

R में 'tm' (टेक्स्ट माइनिंग) पैकेज में वेक्टरसोर्स और VCorpus क्या है

मुझे बिल्कुल यकीन नहीं है कि वास्तव में वेक्टरसोर्स और वीसीकॉर्पस 'टीएम' पैकेज में हैं। इन पर प्रलेखन अस्पष्ट है, क्या कोई मुझे सरल शब्दों में समझा सकता है?

9 r text-mining

1

अर्थमिति के लिए टेक्स्ट माइनिंग / प्राकृतिक भाषा प्रसंस्करण टूल का उपयोग करना

मुझे यकीन नहीं है कि यह प्रश्न यहां पूरी तरह से उचित है, यदि नहीं, तो कृपया हटाएं। मैं अर्थशास्त्र में एक स्नातक छात्र हूं। एक प्रोजेक्ट के लिए जो सामाजिक बीमा में मुद्दों की जांच करता है, मेरे पास बड़ी संख्या में प्रशासनिक मामले की रिपोर्ट (> 200k) तक …

9 machine-learning data-mining econometrics text-mining natural-language

1

मनाया बनाम अपेक्षित घटनाओं की तुलना कैसे करें?

मान लीजिए कि मेरे पास 4 संभावित घटनाओं की आवृत्तियों का एक नमूना है: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 और मुझे होने वाली मेरी घटनाओं की संभावित संभावनाएं हैं: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 मेरी चार …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

भावना विश्लेषण को समझना और लागू करना

मुझे बस कुछ दस्तावेज़ संग्रह के लिए भावना विश्लेषण करने की एक परियोजना सौंपी गई थी। Googling के द्वारा, बहुत से भावना-संबंधी शोध पॉप अप हुए हैं। मेरे प्रश्न हैं: मशीन लर्निंग और सांख्यिकीय विश्लेषण के क्षेत्र में भावना विश्लेषण के लिए प्रमुख तरीके / एल्गोरिदम क्या हैं? क्या कोई …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

4

2 X 3 टेबल पर कई पोस्ट-हॉक ची-स्क्वायर टेस्ट कैसे करें?

मेरे डेटा सेट में तीन साइट प्रकारों, इंहोर, मिडचैनल और ऑफशोर में किसी भी जीव की कुल मृत्यु या जीवित रहने से संबंधित है। नीचे दी गई तालिका में संख्याएँ साइटों की संख्या को दर्शाती हैं। 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 मैं …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

text-mining पर टैग किए गए जवाब