सांख्यिकी और बिग डेटा data-mining

2

एक समूह में सबसे बड़ा योगदानकर्ता निर्धारित करना

मुझे आँकड़ों के बारे में ज्यादा जानकारी नहीं है इसलिए मेरे साथ सहन करना। मान लीजिए कि मेरे पास 1000 कार्यकर्ता हैं। मैं यह पता लगाना चाहता हूं कि सबसे कठिन कार्यकर्ता कौन है, लेकिन मैं केवल 1-100 घंटे के काम के समूह में काम करने की मात्रा को माप …

9 r regression data-mining

2

समर्थन वेक्टर मशीनों के साथ गामा पैरामीटर का उपयोग

उपयोग करते समय libsvm, पैरामीटर कर्नेल फ़ंक्शन के लिए एक पैरामीटर है। इसका डिफ़ॉल्ट मान सेटअपγγ\gammaγ=1सुविधाओं की संख्या।γ=1सुविधाओं की संख्या।\gamma = \frac{1}{\text{number of features.}} क्या मौजूदा तरीकों, जैसे, ग्रिड खोज के अलावा इस पैरामीटर को स्थापित करने के लिए कोई सैद्धांतिक मार्गदर्शन है?

9 machine-learning svm data-mining libsvm kernel-trick

2

भावना विश्लेषण को समझना और लागू करना

मुझे बस कुछ दस्तावेज़ संग्रह के लिए भावना विश्लेषण करने की एक परियोजना सौंपी गई थी। Googling के द्वारा, बहुत से भावना-संबंधी शोध पॉप अप हुए हैं। मेरे प्रश्न हैं: मशीन लर्निंग और सांख्यिकीय विश्लेषण के क्षेत्र में भावना विश्लेषण के लिए प्रमुख तरीके / एल्गोरिदम क्या हैं? क्या कोई …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

2

वर्गीकरण के लिए प्रशिक्षण सेट से डुप्लिकेट निकालें

हम कहते हैं कि मेरे पास एक वर्गीकरण समस्या के लिए पंक्तियों का एक समूह है: X1,...XN,YX1,...XN,YX_1, ... X_N, Y कहाँ पे X1,...,XNX1,...,XNX_1, ..., X_N सुविधाएँ / भविष्यवाणियों और हैं YYY पंक्ति का फीचर संयोजन किस श्रेणी का है। कई फीचर संयोजन और उनकी कक्षाएं डेटासेट में दोहराई जाती हैं, …

9 machine-learning classification data-mining logistic stratification

5

मैं पियर्सन सहसंबंध से परे क्या कर सकता हूं?

यह देखने के लिए कि क्या दो चर सहसंबंधित थे, मैंने देखा कि पीयरसन सहसंबंध लगाने से संख्या 0.1 के रूप में कम थी, जो कि सहसंबंध का संकेत नहीं था। क्या इस दावे को मजबूत करने के लिए मैं कुछ कर सकता हूं? डेटासेट (पोस्टिंग सीमा के कारण सबसेट) …

9 correlation data-mining pearson-r

3

बहुत बड़े डेटासेट से महत्वपूर्ण चर कैसे जल्दी से चुनें?

मेरे पास लगभग 2,000 बाइनरी चर / 200,000 पंक्तियों के साथ एक डेटासेट है और मैं एक एकल बाइनरी निर्भर चर की भविष्यवाणी करने की कोशिश कर रहा हूं। इस स्तर पर मेरा मुख्य लक्ष्य भविष्यवाणी की सटीकता नहीं है, बल्कि यह पहचानना है कि इनमें से कौन से चर …

9 machine-learning data-mining large-data

3

सादे अंग्रेजी में Apriori एल्गोरिथ्म?

मैंने Apriori के बारे में विकि लेख पढ़ा। मुझे प्रून और जॉइन स्टेप समझने में परेशानी होती है। क्या कोई मुझे समझा सकता है कि कैसे अप्रीरी एल्गोरिथ्म सरल शब्दों में काम करता है (जैसे कि नौसिखिया मुझे आसानी से समझ सकता है)? अच्छा होगा अगर कोई इसमें शामिल स्टेप …

9 data-mining algorithms frequentist

2

शुरू हो रहा है biclustering से

मैं biclusters पर कुछ आकस्मिक इंटरनेट अनुसंधान कर रहा है। (मैंने विकी लेख को कई बार पढ़ा है।) अब तक, ऐसा लगता है जैसे कुछ परिभाषाएँ या मानक शब्दावली हैं। मैं सोच रहा था कि क्या कोई मानक कागजात या किताबें थीं जो कोई भी व्यक्ति जो कि बिक्ल्स्टर्स खोजने …

9 clustering data-mining

2

डेटा के लिए आरओसी वक्र की गणना करें

तो, मेरे पास 16 परीक्षण हैं जिनमें मैं एक व्यक्ति को बॉयोमीट्रिक विशेषता से हैमिंग दूरी का उपयोग करके प्रमाणित करने की कोशिश कर रहा हूं। मेरी दहलीज 3.5 पर सेट है। मेरा डेटा नीचे है और केवल परीक्षण 1 एक सच्चा सकारात्मक है: Trial Hamming Distance 1 0.34 2 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

data-mining पर टैग किए गए जवाब