सांख्यिकी और बिग डेटा k-means

2

R में क्लस्टरिंग के k- साधनों के परिणाम की व्याख्या करना

मैं kmeansएंडरसन के आईरिस डाटासेट पर k- साधन एल्गोरिथ्म प्रदर्शन के लिए R के निर्देश का उपयोग कर रहा था । मेरे पास कुछ मापदंडों के बारे में एक प्रश्न है जो मुझे मिला। परिणाम हैं: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 इस मामले में, …

12 r machine-learning clustering interpretation k-means

2

मुझे कैसे पता चलेगा कि मेरे k- साधन क्लस्टरिंग एल्गोरिथ्म आयामीता के अभिशाप से पीड़ित है?

मेरा मानना है कि इस सवाल का शीर्षक यह सब कहता है।

12 clustering k-means high-dimensional

4

क्या ऐसे मामले हैं जहां k- साधनों में कोई इष्टतम k नहीं है?

यह मेरे दिमाग में कम से कम कुछ घंटों के लिए रहा है। मैं k- साधन एल्गोरिथ्म (एक कोसिनिटी मेट्रिक के साथ ) से आउटपुट के लिए एक इष्टतम कश्मीर खोजने की कोशिश कर रहा था, इसलिए मैंने क्लस्टर की संख्या के एक फ़ंक्शन के रूप में विरूपण की साजिश …

11 machine-learning clustering k-means

3

K- क्लस्टरिंग को प्रारंभ करने के तरीके

मैं K- साधनों के लिए प्रारंभिक बीजों (क्लस्टर केंद्रों) का चयन करने के लिए कला की वर्तमान स्थिति में दिलचस्पी रखता हूं। Googling से दो लोकप्रिय विकल्प निकलते हैं: प्रारंभिक बीजों का यादृच्छिक चयन, और, KMeans ++ चयन तकनीक का उपयोग: आर्थर और वासिल्वित्सकी 2006 k- साधन ++: सावधान सीडिंग …

11 clustering k-means

1

आर / एमजीसीवीवी: क्यों टी () और टीआई () टेंसर उत्पाद विभिन्न सतहों का उत्पादन करते हैं?

mgcvके लिए पैकेज Rफिटिंग टेन्सर उत्पाद बातचीत के लिए दो कार्य करता है: te()और ti()। मैं दोनों के बीच श्रम के बुनियादी विभाजन को समझता हूं (गैर-रैखिक बातचीत को फिट करना बनाम इस बातचीत को मुख्य प्रभावों और एक इंटरैक्शन में विघटित करना)। क्या मुझे समझ नहीं आता क्यों है …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

एक बड़ी बाइनरी डेटासेट को कुछ श्रेणियों में क्लस्टर करने के लिए मुझे किस एल्गोरिथ्म का उपयोग करना चाहिए?

मेरे पास एक बड़ी (650K पंक्तियाँ * 62 कॉलम) बाइनरी डेटा का मैट्रिक्स (केवल 0-1 प्रविष्टियाँ) हैं। मैट्रिक्स ज्यादातर विरल है: लगभग 8% भरा हुआ है। मैं इसे 5 समूहों में बांटना चाहूंगा - 1 से 5 तक नामांकित कहो। मैंने श्रेणीबद्ध क्लस्टरिंग की कोशिश की है और यह आकार …

11 clustering dataset k-means binary-data

2

बहुत तिरछी, डेटा की गणना: किसी भी सुझाव के बारे में जाने के लिए (परिवर्तन आदि)?

मूल समस्या यहाँ मेरी मूल समस्या है: मैं एक डेटासेट को क्लस्टर करने की कोशिश कर रहा हूं जिसमें कुछ बहुत ही तिरछे वेरिएबल हैं, जो मायने रखते हैं। चर में कई शून्य होते हैं और इसलिए मेरी क्लस्टरिंग प्रक्रिया के लिए बहुत जानकारीपूर्ण नहीं हैं - जो कि k- …

11 clustering data-transformation k-means count-data compositional-data

3

एक उदाहरण जहां k-medoid एल्गोरिदम का आउटपुट k-mean एल्गोरिथ्म के आउटपुट से अलग है

मैं के मेडोइड और के साधनों के बीच अंतर को समझता हूं। लेकिन क्या आप मुझे एक छोटे से डेटा सेट के साथ एक उदाहरण दे सकते हैं जहां k मेडॉइड आउटपुट k का मतलब आउटपुट से अलग है।

11 k-means k-medoids

3

K- का मतलब है कॉसाइन समानताएँ बनाम यूक्लिडियन दूरी (LSA)

मैं निचले आयामी स्थान में दस्तावेजों के एक कोष का प्रतिनिधित्व करने के लिए अव्यक्त अर्थ विश्लेषण का उपयोग कर रहा हूं। मैं k- साधनों का उपयोग करके इन दस्तावेजों को दो समूहों में बांटना चाहता हूं। कई साल पहले, मैंने पायथन के गेंसिम का उपयोग करके और अपने स्वयं …

10 k-means svd lsa cosine-distance cosine-similarity

3

K- साधन समूहों के वर्ग लेबल असाइन करना

क्लस्टरिंग पर मेरा बहुत बुनियादी सवाल है। जब मैंने उनके समूहों के साथ k समूहों को पाया है, तो मैं उन डेटा बिंदुओं की कक्षाओं की व्याख्या करने के बारे में कैसे पता लगाऊं जिन्हें मैंने क्लस्टर किया है (प्रत्येक क्लस्टर में सार्थक वर्ग लेबल असाइन करना)। मैं पाए गए …

10 k-means

1

अनोवा (और ड्रॉप 1) जीएलएमएम के लिए अलग-अलग उत्तर क्यों प्रदान करते हैं?

मेरे पास फॉर्म का GLMM है: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) जब मैं उपयोग करता हूं drop1(model, test="Chi"), तो मुझे Anova(model, type="III")कार के पैकेज से उपयोग करने की तुलना में अलग-अलग परिणाम मिलते हैं या summary(model)। ये उत्तरार्द्ध दो ही जवाब …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

K- साधन: व्यावहारिक स्थितियों में कितने पुनरावृत्तियों?

मेरे पास डेटा माइनिंग या बड़े डेटा में उद्योग का अनुभव नहीं है इसलिए आपको कुछ अनुभव साझा करने के लिए सुनना अच्छा लगेगा। क्या वास्तव में बड़े डेटासेट पर लोग k- साधन, PAM, CLARA आदि चलाते हैं? या वे सिर्फ बेतरतीब ढंग से इसका एक नमूना निकालते हैं? यदि …

10 clustering data-mining k-means convergence large-data

2

बूलियन सुविधाओं के एक छोटे से नमूने के लिए पीसीए और वर्णक्रमीय क्लस्टरिंग के बीच अंतर

मेरे पास 50 नमूनों का डेटासेट है। प्रत्येक नमूना 11 (संभवतः सहसंबद्ध) बूलियन सुविधाओं से बना है। मैं कुछ ऐसे नमूनों को 2 डी प्लॉट पर देखना चाहता हूं और जांचना चाहता हूं कि क्या 50 नमूनों में समूह / समूह हैं। मैंने निम्नलिखित दो तरीकों की कोशिश की है: …

10 clustering data-visualization pca k-means spectral-analysis

1

एक गाऊसी मिश्रण में घटकों की इष्टतम संख्या

तो, के-साधनों में समूहों की इष्टतम संख्या का "विचार" प्राप्त करना अच्छी तरह से प्रलेखित है। मुझे गाऊसी मिश्रण में ऐसा करने पर एक लेख मिला , लेकिन मुझे यकीन नहीं है कि मैं इससे सहमत हूं, इसे बहुत अच्छी तरह से नहीं समझें। वहाँ है ... यह करने का …

10 classification k-means mixture unsupervised-learning

2

आइसक्रीम बिक्री बनाम तापमान के इस पीसीए भूखंड को समझना

मैं तापमान बनाम आइसक्रीम की बिक्री का एक डमी डेटा ले रहा हूं और 2 श्रेणियों (पूरी तरह से डमी) को अलग करने के लिए के मीन्स (एन क्लस्टर्स = 2) का उपयोग करके इसे वर्गीकृत किया गया है। अब मैं इस डेटा पर एक प्रिंसिपल कंपोनेंट एनालिसिस कर रहा …

9 pca interpretation k-means dimensionality-reduction

k-means पर टैग किए गए जवाब