सांख्यिकी और बिग डेटा data-mining

1

YouTube पर वीडियो देखने के बाद, मुझे ऐसा लगता है कि मैं वास्तव में परिभाषित नहीं कर सकता हूं कि परिवर्तनशील निष्कर्ष क्या है। जब मैं इसके बारे में वीडियो व्याख्यान देख रहा हूं तो मैं प्रक्रियाओं का पालन कर सकता हूं। लेकिन यह परिभाषित करना कठिन है कि वास्तव …

11 machine-learning mathematical-statistics data-mining

1

गिनी अशुद्धता का उपयोग कब करें और सूचना लाभ का उपयोग कब करें?

क्या कोई मुझे समझा सकता है कि निर्णय पेड़ों के लिए गिन्नी अशुद्धता और सूचना लाभ का उपयोग कब करें? क्या आप मुझे ऐसी स्थितियाँ / उदाहरण दे सकते हैं, जिनका उपयोग करना सबसे अच्छा है?

11 machine-learning classification data-mining cart

2

वहाँ इस modellng दृष्टिकोण में overfitting है

मुझे हाल ही में बताया गया था कि मैंने जिस प्रक्रिया का पालन किया था (एक एमएस थीसिस के घटक) को ओवर-फिटिंग के रूप में देखा जा सकता है। मैं इस बारे में बेहतर जानकारी प्राप्त करना चाह रहा हूं और यह देखना चाहता हूं कि क्या अन्य सहमत हैं। …

11 machine-learning data-mining predictive-models

3

डेटा के साथ व्यावहारिक पीसीए ट्यूटोरियल

पीसीए ट्यूटोरियल के लिए इंटरनेट पर खोज करने से हजारों परिणाम (यहां तक कि वीडियो) मिलते हैं। कई ट्यूटोरियल बहुत अच्छे हैं। लेकिन मुझे कोई भी व्यावहारिक उदाहरण नहीं मिल रहा है जहां पीसीए को कुछ डेटा-सेटों का उपयोग करके समझाया जाता है जो मैं प्रदर्शन के लिए उपयोग कर …

11 data-visualization dataset pca data-mining

1

नए डेटा के लिए उपयुक्त नियम खोजना

मैं एसोसिएशन नियमों के लिए खनन लेनदेन के लिए आर (और आरूल्स पैकेज) का उपयोग कर रहा हूं। मैं जो करना चाहता हूं वह नियमों का निर्माण करना है और फिर उन्हें नए डेटा पर लागू करना है। उदाहरण के लिए, मान लें कि मेरे कई नियम हैं, जिनमें से …

11 r data-mining association-rules

14

आप एक नाम से कितनी जानकारी प्राप्त कर सकते हैं?

एक नाम: पहला, संभवतः एक मध्य और उपनाम। मुझे सार्वजनिक रूप से उपलब्ध डेटासेट का उपयोग करके आप एक नाम से कितनी जानकारी प्राप्त कर सकते हैं, इसके बारे में उत्सुक हूं। मुझे पता है कि आप अमेरिकी जनगणना डेटा: 1) का उपयोग करके निम्न-उच्च संभावना (इनपुट के आधार पर) …

11 dataset data-mining census

1

आर / एमजीसीवीवी: क्यों टी () और टीआई () टेंसर उत्पाद विभिन्न सतहों का उत्पादन करते हैं?

mgcvके लिए पैकेज Rफिटिंग टेन्सर उत्पाद बातचीत के लिए दो कार्य करता है: te()और ti()। मैं दोनों के बीच श्रम के बुनियादी विभाजन को समझता हूं (गैर-रैखिक बातचीत को फिट करना बनाम इस बातचीत को मुख्य प्रभावों और एक इंटरैक्शन में विघटित करना)। क्या मुझे समझ नहीं आता क्यों है …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

5

लॉजिस्टिक प्रतिगमन के लिए डेटा को विभाजित करने के साधन के रूप में क्लस्टरिंग

मैं एक लॉजिस्टिक रिग्रेशन मॉडल के साथ कुछ विशेषताओं के आधार पर छात्रों की सफलता या विफलता की भविष्यवाणी करने की कोशिश कर रहा हूं। मॉडल के प्रदर्शन में सुधार करने के लिए, मैंने पहले ही स्पष्ट अंतर के आधार पर छात्रों को अलग-अलग समूहों में विभाजित करने और प्रत्येक …

11 clustering data-mining logistic

3

डेटा प्रीप्रोसेसिंग और आउटलाइयर डिटेक्शन तकनीकों को कवर करने वाली अच्छी किताबें

जैसा कि शीर्षक से पता चलता है, क्या किसी को एक अच्छी तारीख का पता है, जो सामान्य रूप से और विशेष रूप से बाह्य पहचान तकनीकों में डेटा प्रीप्रोसेसिंग को कवर करता है? पुस्तक को केवल उस पर विशेष रूप से ध्यान केंद्रित करने की आवश्यकता नहीं है, लेकिन …

11 dataset data-mining references outliers

2

क्या एफ-माप सटीकता का पर्याय है?

मैं समझता हूं कि एफ-माप (सटीक और याद के आधार पर) एक अनुमान है कि एक क्लासिफायरियर कितना सटीक है। जब हम असंतुलित डेटासेट होते हैं, तब भी एफ-माप सटीकता का पक्षधर है । मेरे पास एक सरल प्रश्न है (जो तकनीक के बारे में सही शब्दावली का उपयोग करने …

11 machine-learning classification data-mining unbalanced-classes accuracy

2

पीसीए फिट की गुणवत्ता का आकलन करने के लिए अच्छे मैट्रिक्स क्या हैं, ताकि घटकों की संख्या का चयन किया जा सके?

प्रमुख घटक विश्लेषण (पीसीए) की गुणवत्ता का आकलन करने के लिए एक अच्छा मीट्रिक क्या है? मैंने एक एल्गोरिथ्म पर इस एल्गोरिथ्म का प्रदर्शन किया। मेरा उद्देश्य सुविधाओं की संख्या को कम करना था (जानकारी बहुत बेमानी थी)। मुझे पता है कि हमारे पास रखी गई भिन्नता का प्रतिशत इस …

10 machine-learning pca data-mining information-theory

1

ओबामा के अभियान में डेटा खनन तकनीक

मुझे इस लेख में ओबामा के अभियान अभियान में डेटा माइनिंग टीम के बारे में पता चला। दुर्भाग्य से, लेख सांख्यिकीय एल्गोरिदम की वास्तविक मशीनरी के बारे में बहुत फजी है। हालाँकि, ऐसा लग रहा था कि सामान्य तकनीक सामाजिक और राजनीतिक विज्ञान में जानी जाती है। चूंकि यह मेरी …

10 data-mining social-network social-science

1

अनोवा (और ड्रॉप 1) जीएलएमएम के लिए अलग-अलग उत्तर क्यों प्रदान करते हैं?

मेरे पास फॉर्म का GLMM है: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) जब मैं उपयोग करता हूं drop1(model, test="Chi"), तो मुझे Anova(model, type="III")कार के पैकेज से उपयोग करने की तुलना में अलग-अलग परिणाम मिलते हैं या summary(model)। ये उत्तरार्द्ध दो ही जवाब …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

3

शब्द "एक मॉडल सीखो" कहाँ से आया था

अक्सर मैंने सुना है कि डेटा खनिक इस शब्द का उपयोग करते हैं। एक सांख्यिकीविद् के रूप में, जिन्होंने वर्गीकरण की समस्याओं पर काम किया है, मैं "ट्रेन ए क्लासिफायर" शब्द से परिचित हूं और मेरा मानना है कि "एक मॉडल सीखें" का मतलब एक ही बात है। मुझे "ट्रेन …

10 classification data-mining terminology model

3

टेक्स्ट दस्तावेज़ के लिए फीचर वेक्टर बनाने के लिए बिग्राम (एन-ग्राम) मॉडल का उपयोग करने के बारे में

टेक्स्ट माइनिंग के लिए फीचर निर्माण का एक पारंपरिक तरीका बैग-ऑफ-वर्ड्स दृष्टिकोण है, और किसी दिए गए टेक्स्ट डॉक्यूमेंट की विशेषता वाले वेक्टर की स्थापना के लिए tf-idf का उपयोग करके इसे बढ़ाया जा सकता है। वर्तमान में, मैं फ़ीचर वेक्टर के निर्माण के लिए द्वि-ग्राम भाषा मॉडल या (एन-ग्राम) …

10 machine-learning data-mining text-mining natural-language language-models

data-mining पर टैग किए गए जवाब