सांख्यिकी और बिग डेटा clustering

4

आप k- साधनों के कार्यान्वयन का परीक्षण कैसे करते हैं?

डिस्क्लेमर: मैंने इस सवाल को स्टैकओवरफ़्लो पर पोस्ट किया है, लेकिन मुझे लगा कि शायद यह इस प्लेटफॉर्म के लिए बेहतर है। आप बहुआयामी डेटा सेट के लिए अपने स्वयं के k- साधन कार्यान्वयन का परीक्षण कैसे करते हैं? मैं डेटा पर पहले से ही लागू कार्यान्वयन (यानी, मैटलैब) को …

11 clustering algorithms

2

बहुत तिरछी, डेटा की गणना: किसी भी सुझाव के बारे में जाने के लिए (परिवर्तन आदि)?

मूल समस्या यहाँ मेरी मूल समस्या है: मैं एक डेटासेट को क्लस्टर करने की कोशिश कर रहा हूं जिसमें कुछ बहुत ही तिरछे वेरिएबल हैं, जो मायने रखते हैं। चर में कई शून्य होते हैं और इसलिए मेरी क्लस्टरिंग प्रक्रिया के लिए बहुत जानकारीपूर्ण नहीं हैं - जो कि k- …

11 clustering data-transformation k-means count-data compositional-data

1

U-Matrix को स्वचालित रूप से कैसे क्लस्टर करें?

स्व-आयोजन मानचित्र को प्रशिक्षित करने के बाद, कोई भी यू-मैट्रिक्स की गणना कर सकता है । हैं कुछ उपकरण मैन्युअल रूप से इसे कल्पना और समूहों की पहचान करने के लिए, लेकिन अगर वहाँ एक स्वचालित तरीके से इस प्रक्रिया करने के लिए (यानी एक मानव समूहों की पहचान करने …

10 clustering image-processing self-organizing-maps

3

श्रेणीबद्ध चर के लोकप्रिय या आम संयोजनों को खोजने के लिए मैं कौन सी सांख्यिकीय विधियां उपयोग कर सकता हूं?

मैं पॉलीड्रग उपयोग पर एक अध्ययन कर रहा हूं। मेरे पास 400 ड्रग एडिक्ट्स के डेटा सेट हैं, जिनमें से प्रत्येक ने उन ड्रग्स के बारे में बताया जो वे दुरुपयोग करते हैं। 10 से अधिक दवाएं हैं और इसलिए बड़े संभावित संयोजन हैं। मैंने अधिकांश दवाओं को पुन: उपयोग …

10 hypothesis-testing clustering combinatorics association-measure association-rules

1

TF-IDF लघुगणक में लघुगणक के उपयोग को समझना

मैं पढ़ रहा था: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition लेकिन मुझे ठीक से समझ में नहीं आ रहा है कि फार्मूला का निर्माण इस तरह से क्यों किया गया। मैं क्या समझता हूँ: iDF को कुछ स्तरों पर मापना चाहिए कि प्रत्येक दस्तावेज़ में S शब्द कितनी बार दिखाई देता है, मूल्य में कमी …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

"R" में ग्राफ क्लस्टरिंग का दृष्टिकोण और उदाहरण

मैं 'r' में ग्राफ क्लस्टरिंग का उपयोग करके एक ग्राफ में समूह / मर्ज नोड्स को देख रहा हूं। यहाँ मेरी समस्या का एक आश्चर्यजनक खिलौना भिन्नता है। दो "क्लस्टर" हैं समूहों को जोड़ने वाला एक "पुल" है यहाँ एक उम्मीदवार नेटवर्क है: जब मैं कनेक्शन दूरी को देखता हूं, …

10 r clustering data-visualization numerics

1

मुझे GAP स्टेटिस्टिक की व्याख्या कैसे करनी चाहिए?

मैंने R में k क्लस्टर्स का अनुमान लगाने के लिए GAP स्टेटिस्टिक का उपयोग किया। ऊपर दिए गए कथानक से मुझे लगता है कि मुझे 3 समूहों का उपयोग करना चाहिए। दूसरे प्लॉट से मुझे 6 क्लस्टर चुनने चाहिए। क्या यह जीएपी सांख्यिकी की सही व्याख्या है? मैं किसी भी …

10 clustering

1

कुल ss और ss के बीच k- साधन क्लस्टरिंग में क्या मतलब है?

मैं क्लस्टर विश्लेषण के लिए बहुत नया हूं। मैं आर का उपयोग कर रहा हूँ k- साधन क्लस्टरिंग के लिए और मुझे आश्चर्य है कि वे चीजें क्या हैं। और अगर उनका अनुपात छोटा या बड़ा है तो क्या बेहतर है?

10 clustering

2

गैर-घटक क्लस्टरिंग के लिए PyMC: गाऊसी मिश्रण के मापदंडों का अनुमान लगाने के लिए Dirichlet प्रक्रिया क्लस्टर में विफल रहती है

समस्या सेटअप पहले खिलौने की समस्याओं में से एक मैं PyMC को लागू करना चाहता था गैर-घटक क्लस्टरिंग है: कुछ डेटा दिए गए, इसे गॉसियन मिश्रण के रूप में मॉडल करें, और क्लस्टर्स की संख्या और प्रत्येक क्लस्टर के माध्य और सहसंयोजक जानें। इस विधि के बारे में जो मैं …

10 bayesian clustering python pymc nonparametric-bayes

3

जनसंख्या आर-वर्ग परिवर्तन पर विश्वास अंतराल कैसे प्राप्त करें

एक साधारण उदाहरण के लिए मान लें कि दो रैखिक प्रतिगमन मॉडल हैं मॉडल 1 है तीन भविष्यवक्ताओं, x1a, x2b, औरx2c मॉडल 2 में मॉडल 1 से तीन और दो अतिरिक्त भविष्यवक्ता हैं x2aऔरx2b वहाँ एक जनसंख्या प्रतिगमन समीकरण जहां जनसंख्या विचरण समझाया है मॉडल 1 के लिए और मॉडल …

10 regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

2

सर्कल केंद्रों की एक ज्ञात संख्या का पता लगाना जो एक निश्चित दूरी के भीतर बिंदुओं की संख्या को अधिकतम करता है

मेरे पास 2-डी डेटा का एक सेट है जहां मैं एक निर्दिष्ट दूरी ( ) के भीतर अंक की कुल संख्या को अधिकतम करने वाले हलकों ( ) के केंद्रों की संख्या का पता लगाना चाहता हूं ।आरNNNRRR उदाहरण के लिए मेरे पास 10,000 डेटा पॉइंट्स और मैं सर्किलों के …

10 r clustering distance

1

क्या कम सिल्हूट चौड़ाई का मतलब है कि डेटा में अंतर्निहित संरचना नहीं है?

मैं अनुक्रम विश्लेषण के लिए नया हूं, और मैं सोच रहा था कि अगर आप ऑप्टिमल मैचिंग-आधारित असमानता वाले मैट्रिस के क्लस्टर विश्लेषण से औसत सिल्हूट चौड़ाई (एएसडब्ल्यू) कम (लगभग 25) हैं तो आप कैसे प्रतिक्रिया देंगे। क्या यह निष्कर्ष निकालना उचित होगा कि कोई अंतर्निहित संरचना है जो अनुक्रमों …

10 clustering traminer

1

अनोवा (और ड्रॉप 1) जीएलएमएम के लिए अलग-अलग उत्तर क्यों प्रदान करते हैं?

मेरे पास फॉर्म का GLMM है: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) जब मैं उपयोग करता हूं drop1(model, test="Chi"), तो मुझे Anova(model, type="III")कार के पैकेज से उपयोग करने की तुलना में अलग-अलग परिणाम मिलते हैं या summary(model)। ये उत्तरार्द्ध दो ही जवाब …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

2

पहले क्रम के मार्कोव श्रृंखला के समूहों का मूल्यांकन

मैंने 10 हजार में कई हजार फर्स्ट-ऑर्डर मार्कोव चेन के अपने डेटासेट को क्लस्ट किया। क्या कुछ अनुशंसित तरीका है कि मैं इन समूहों का मूल्यांकन कैसे कर सकता हूं और यह पता लगा सकता हूं कि समूहों में आइटम क्या साझा करते हैं और वे अन्य समूहों से कैसे …

10 data-visualization clustering markov-process

1

डेंड्रोग्राम क्लस्टरिंग के लिए सहसंबंधी सहसंबंध

डेंड्रोग्राम क्लस्टरिंग के संदर्भ पर विचार करें। आइए हम मूल भिन्नताओं को व्यक्तियों के बीच की दूरी कहते हैं । डेंड्रोग्राम के निर्माण के बाद, हम दो व्यक्तियों के बीच केपहेटिक असमानता को उन समूहों के बीच की दूरी के रूप में परिभाषित करते हैं, जिनसे ये व्यक्ति जुड़े हैं। …

10 clustering classification

clustering पर टैग किए गए जवाब