सांख्यिकी और बिग डेटा clustering

5

असतत और निरंतर चर दोनों के साथ एक डाटासेट क्लस्टरिंग

मेरे पास एक डेटासेट X है जिसमें 10 आयाम हैं, जिनमें से 4 असतत मान हैं। वास्तव में, वे 4 असतत चर क्रमबद्ध होते हैं, अर्थात उच्च मूल्य का अर्थ उच्च / बेहतर शब्दार्थ होता है। इन असतत चर में से 2 इस अर्थ में स्पष्ट हैं कि इनमें से …

33 clustering k-means discrete-data continuous-data gaussian-mixture

2

पदानुक्रमित क्लस्टरिंग के लिए सही लिंकेज विधि चुनना

मैं उस डेटा पर पदानुक्रमिक क्लस्टरिंग कर रहा हूं जिसे मैंने इकट्ठा किया है और Google BigQuery पर रेडिट डेटा डंप से संसाधित किया है। मेरी प्रक्रिया निम्नलिखित है: नवीनतम 1000 पोस्ट / आर / राजनीति में प्राप्त करें सभी टिप्पणियों को इकट्ठा करें डेटा संसाधित करें और एक n …

33 clustering distance unsupervised-learning hierarchical-clustering

1

पीसीए एक k- साधन क्लस्टरिंग विश्लेषण के साथ कैसे मदद करेगा?

पृष्ठभूमि : मैं किसी शहर के आवासीय क्षेत्रों को उनकी सामाजिक-आर्थिक विशेषताओं के आधार पर समूहों में वर्गीकृत करना चाहता हूं, जिसमें आवास इकाई घनत्व, जनसंख्या घनत्व, हरा अंतरिक्ष क्षेत्र, आवास मूल्य, स्कूलों की संख्या / स्वास्थ्य केंद्र / दिन देखभाल केंद्र आदि शामिल हैं। मैं यह समझना चाहता हूं …

32 clustering pca k-means dimensionality-reduction

3

एग्लोमेरेटिव पदानुक्रमित क्लस्टरिंग के लिए क्या स्टॉप-मानदंड व्यवहार में उपयोग किए जाते हैं?

मैंने व्यापक साहित्य को सभी प्रकार के मानदंडों (जैसे ग्लेन एट अल। 1985 (पीडीएफ) और जंग एट अल। 2002 (पीडीएफ)) का प्रस्ताव करते हुए पाया है । हालांकि, इनमें से अधिकांश को लागू करना आसान नहीं है (कम से कम मेरे दृष्टिकोण से)। मैं एक क्लस्टर पदानुक्रम प्राप्त करने के …

32 clustering

3

स्ट्रिंग्स (शब्दों) की एक लंबी सूची को समानता समूहों में विभाजित करना

मुझे हाथ में निम्नलिखित समस्या है: मेरे पास शब्दों की एक बहुत लंबी सूची है, संभवतः नाम, उपनाम आदि, मुझे इस शब्द सूची को क्लस्टर करने की आवश्यकता है, जैसे कि समान शब्द, उदाहरण के लिए समान संपादन वाले शब्द (लेवेंसहाइट) दूरी दिखाई देती है। एक ही क्लस्टर। उदाहरण के …

31 clustering k-means pattern-recognition

3

अव्यक्त वर्ग विश्लेषण बनाम क्लस्टर विश्लेषण - संदर्भ में अंतर?

अव्यक्त वर्ग विश्लेषण (LCA) बनाम क्लस्टर विश्लेषण से किए जा सकने वाले इनफ़ॉर्मेशन के अंतर क्या हैं? क्या यह सही है कि एक एलसीए एक अंतर्निहित अव्यक्त चर को मानता है जो कक्षाओं को जन्म देता है, जबकि क्लस्टर विश्लेषण एक क्लस्टरिंग एल्गोरिथ्म से सहसंबद्ध विशेषताओं का एक अनुभवजन्य विवरण …

30 clustering latent-variable latent-class

5

मशीन लर्निंग में पदानुक्रमित / नेस्टेड डेटा से कैसे निपटें

मैं अपनी समस्या को एक उदाहरण से समझाता हूँ। मान लीजिए कि आप किसी व्यक्ति की आय का अनुमान लगाना चाहते हैं, जो कुछ विशेषताएं बताती है: {आयु, लिंग, देश, क्षेत्र, शहर}। आपके पास एक प्रशिक्षण डाटासेट है train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

विभिन्न दूरी और विधियों द्वारा प्राप्त पदानुक्रमित क्लस्टरिंग डेंड्रोग्राम की तुलना करना

[प्रारंभिक शीर्षक "पदानुक्रमित पेड़ों के लिए समानता का मापन" बाद में इस विषय को बेहतर ढंग से प्रतिबिंबित करने के लिए @ttnphns द्वारा बदल दिया गया था] मैं रोगी रिकॉर्ड्स (जैसे http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) के डेटाफ़्रेम पर कई श्रेणीबद्ध क्लस्टर विश्लेषण कर रहा हूं । मैं पेड़ के अंतिम समूहों / …

28 r clustering distance-functions similarities dendrogram

1

एक लैमर मॉडल से प्रभावों की पुनरावृत्ति की गणना

मैं सिर्फ इस पेपर में आया था , जो बताता है कि मिश्रित प्रभाव मॉडलिंग के माध्यम से माप की पुनरावृत्ति (उर्फ विश्वसनीयता, उर्फ इंट्राक्लास सहसंबंध) की गणना कैसे की जाती है। आर कोड होगा: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

मानक और गोलाकार k- साधन एल्गोरिदम के बीच अंतर

मैं यह समझना चाहता हूं कि मानक और गोलाकार k- साधन क्लस्टरिंग एल्गोरिदम के बीच प्रमुख कार्यान्वयन अंतर क्या है। प्रत्येक चरण में, k- साधन तत्व वैक्टर और क्लस्टर सेंट्रोइड के बीच की दूरी की गणना करता है, और इस क्लस्टर में दस्तावेज़ को पुन: असाइन करता है, जिसका सेंट्रोइड …

28 clustering data-mining algorithms k-means

4

कैसे आर में आयामी कमी करने के लिए

मेरे पास एक मैट्रिक्स है जहां (i, j) मुझे बताता है कि मैंने कितनी बार अलग-अलग पेज j देखा। 27K व्यक्ति और 95K पृष्ठ हैं। मैं पृष्ठों के स्थान पर "आयाम" या "पहलुओं" का एक मुट्ठी भर होना चाहूंगा जो उन पृष्ठों के सेट के अनुरूप होगा जो अक्सर एक …

28 r clustering dimensionality-reduction

2

बाइनरी और निरंतर चर दोनों को एक साथ क्लस्टरिंग में कैसे उपयोग करें?

मुझे k- साधनों में बाइनरी चर (मान 0 और 1) का उपयोग करने की आवश्यकता है। लेकिन k- साधन केवल निरंतर चर के साथ काम करता है। मुझे पता है कि कुछ लोग अभी भी इन बाइनरी चर का उपयोग k- साधनों में इस तथ्य की अनदेखी करते हुए करते …

27 r clustering binary-data k-means mixed-type-data

3

माध्य को खोजने से सेंट्रोइड कैसे अलग है?

पदानुक्रमित क्लस्टरिंग करते समय, कोई भी क्लस्टर के बीच की दूरी को मापने के लिए कई मैट्रिक्स का उपयोग कर सकता है। इस तरह के दो मैट्रिक्स समूहों में डेटा बिंदुओं के केंद्रक और साधनों की गणना करते हैं। माध्य और केन्द्रक के बीच अंतर क्या है? क्या ये क्लस्टर …

26 clustering mean

3

एलएसए बनाम पीसीए (दस्तावेज़ क्लस्टरिंग)

मैं दस्तावेज़ क्लस्टरिंग में उपयोग की जाने वाली विभिन्न तकनीकों की जांच कर रहा हूं और मैं पीसीए (प्रमुख घटक विश्लेषण) और एलएसए (अव्यक्त अर्थ विश्लेषण) से संबंधित कुछ संदेह दूर करना चाहूंगा। पहली बात - उनके बीच क्या अंतर हैं? मुझे पता है कि पीसीए में, एसवीडी अपघटन टर्म-कोवरियन …

25 clustering pca data-mining svd lsa

1

Calinski & Harabasz (CH) मानदंड का एक स्वीकार्य मूल्य क्या है?

मैंने एक डेटा विश्लेषण किया है जो आर और किमील पैकेज का उपयोग करके अनुदैर्ध्य डेटा को क्लस्टर करने की कोशिश कर रहा है । मेरे डेटा में लगभग 400 व्यक्तिगत प्रक्षेपवक्र शामिल हैं (जैसा कि इसे पेपर में कहा जाता है)। आप निम्न चित्र में मेरे परिणाम देख सकते …

25 r clustering panel-data

clustering पर टैग किए गए जवाब