सांख्यिकी और बिग डेटा clustering

3

क्लस्टरिंग संभावना वितरण - विधियों और मैट्रिक्स?

मेरे पास कुछ डेटा पॉइंट्स हैं, जिनमें से प्रत्येक में एग्लोमेरेटेड डिस्क्रीट परिणाम के 5 वैक्टर हैं, प्रत्येक वेक्टर के परिणाम एक अलग वितरण द्वारा उत्पन्न होते हैं, और विशिष्ट प्रकार जिनमें से मुझे यकीन नहीं है, मेरा सबसे अच्छा अनुमान वेइबुल है, आकार के पैरामीटर के आसपास कहीं न …

13 distributions clustering feature-selection kolmogorov-smirnov k-means

2

गोवर दूरी बाइनरी चर 'के बीच अंतर की गणना कैसे करती है?

मेरे डेटासेट में 73 नमूने के साथ, मेरे पास 17 संख्यात्मक और 5 बाइनरी (0-1) चर हैं। मुझे क्लस्टर विश्लेषण चलाने की आवश्यकता है। मुझे पता है कि मिश्रित दूरी वाले डेटासेट के लिए गोवर दूरी एक अच्छी मीट्रिक है। हालाँकि, मुझे समझ नहीं आया कि गोवर दूरी बाइनरी चर …

13 clustering distance mixed-type-data

1

k-साधन || उर्फ स्केलेबल के-मीन्स ++

बहमन बहमनी एट अल। k- साधन का परिचय दिया, जो k- साधन ++ का एक तेज़ संस्करण है। यह एल्गोरिथम उनके पेपर , बहमनी, बी।, मोसले, बी।, वातानी, ए।, कुमार, आर।, और वासिल्वित्सकी, एस। (2012) के पेज 4 से लिया गया है । स्केलेबल k- साधन ++। VLDB बंदोबस्ती की …

12 clustering k-means

5

बहुत बड़ी संख्या में डेटा बिंदुओं में मानों की प्रतिरूपण कैसे करें?

मेरे पास एक बहुत बड़ा डेटासेट है और लगभग 5% यादृच्छिक मूल्य गायब हैं। ये चर एक दूसरे के साथ सहसंबद्ध हैं। निम्नलिखित उदाहरण R डाटासेट केवल एक खिलौना उदाहरण है जिसमें डमी सहसंबद्ध डेटा है। set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

4

क्या आप क्रॉस-वेलिडेशन द्वारा कोई जमीनी सच्चाई वाले डेटासेट पर विभिन्न क्लस्टरिंग विधियों की तुलना कर सकते हैं?

वर्तमान में, मैं एक टेक्स्ट डॉक्यूमेंट डेटासेट का विश्लेषण करने की कोशिश कर रहा हूँ जिसमें कोई जमीनी सच्चाई नहीं है। मुझे बताया गया था कि आप अलग-अलग क्लस्टरिंग विधियों की तुलना करने के लिए k-fold क्रॉस सत्यापन का उपयोग कर सकते हैं। हालाँकि, मैंने पिछले दिनों जो उदाहरण देखे …

12 machine-learning clustering cross-validation unsupervised-learning

5

क्या मैं क्लस्टर विश्लेषण के लिए चर चयन करने के लिए पीसीए का उपयोग कर सकता हूं?

मुझे क्लस्टर विश्लेषण करने के लिए चर की संख्या कम करनी होगी। मेरे चर दृढ़ता से सहसंबद्ध हैं, इसलिए मैंने एक कारक विश्लेषण पीसीए (प्रमुख घटक विश्लेषण) करने के लिए सोचा । हालांकि, यदि मैं परिणामी अंकों का उपयोग करता हूं, तो मेरे क्लस्टर सही नहीं हैं (साहित्य में पिछले …

12 clustering pca feature-selection factor-analysis

2

आर में स्थानिक डेटा क्लस्टरिंग

मेरे पास समुद्र की सतह के तापमान (एसएसटी) मासिक डेटा का एक सेट है और मैं समान एसएसटी पैटर्न वाले क्षेत्रों का पता लगाने के लिए कुछ क्लस्टर पद्धति लागू करना चाहता हूं। मेरे पास 1985 से 2009 तक चलने वाली मासिक डेटा फ़ाइलों का एक सेट है और पहले …

12 r clustering spatial

6

क्लस्टर विश्लेषण के लिए परिचय के रूप में अनुशंसित पुस्तकें या लेख?

मैं पाठ की एक छोटी (200M) कोर पर काम कर रहा हूं, जिसे मैं कुछ क्लस्टर विश्लेषण के साथ एक्सप्लोर करना चाहता हूं। आप उस विषय पर किन पुस्तकों या लेखों की सिफारिश करेंगे?

12 machine-learning references clustering

1

फिशर का सटीक परीक्षण और हाइपरजोमेट्रिक वितरण

मैं फिशर सटीक परीक्षण को बेहतर तरीके से समझना चाहता था, इसलिए मैंने निम्नलिखित खिलौना उदाहरण तैयार किया, जहां एफ और एम पुरुष और महिला से मेल खाते हैं, और n और y इस तरह से "सोडा की खपत" से मेल खाती है: > soda_gender f m n 0 5 …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

2

R में क्लस्टरिंग के k- साधनों के परिणाम की व्याख्या करना

मैं kmeansएंडरसन के आईरिस डाटासेट पर k- साधन एल्गोरिथ्म प्रदर्शन के लिए R के निर्देश का उपयोग कर रहा था । मेरे पास कुछ मापदंडों के बारे में एक प्रश्न है जो मुझे मिला। परिणाम हैं: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 इस मामले में, …

12 r machine-learning clustering interpretation k-means

1

आर में मिश्रित डेटा के लिए मजबूत क्लस्टर विधि

मैं एक छोटा सा डेटा सेट (4 अंतराल अंतराल के 64 अवलोकनों और एक एकल तीन-कारक श्रेणीगत चर) देख रहा हूँ। अब, मैं क्लस्टर विश्लेषण के लिए काफी नया हूं, लेकिन मुझे पता है कि उन दिनों से काफी प्रगति हुई है जब पदानुक्रमित क्लस्टरिंग या के-साधन एकमात्र उपलब्ध विकल्प …

12 clustering model-based-clustering mixed-type-data

3

मैं कैसे परीक्षण कर सकता हूं कि बाइनरी डेटा की मेरी क्लस्टरिंग महत्वपूर्ण है या नहीं

मैं खरीदारी कार्ट विश्लेषण कर रहा हूं मेरे डेटासेट लेन-देन का सेट, उन वस्तुओं के साथ है जो उत्पादों को खरीदा जा रहा है। लेन-देन पर के-साधन लागू करते समय, मुझे हमेशा कुछ परिणाम मिलेगा । एक यादृच्छिक मैट्रिक्स शायद कुछ समूहों को भी दिखाएगा। क्या यह परीक्षण करने का …

12 clustering statistical-significance binary-data

1

क्लस्टर विश्लेषण में चर को वज़न निर्दिष्ट करें

मैं अपने क्लस्टर विश्लेषण में चर को अलग-अलग भार आवंटित करना चाहता हूं, लेकिन मेरे कार्यक्रम (स्टाटा) को इसके लिए कोई विकल्प नहीं लगता है, इसलिए मुझे इसे मैन्युअल रूप से करने की आवश्यकता है। 4 चर ए, बी, सी, डी की कल्पना करें। उन चर के लिए वजन होना …

12 clustering stata

1

जब नमूना covariance मैट्रिक्स उल्टा नहीं है तो क्या करें?

मैं कुछ क्लस्टरिंग तकनीकों पर काम कर रहा हूं, जहां डी-डायमेंशन वैक्टर के दिए गए क्लस्टर के लिए मैं एक बहुभिन्नरूपी सामान्य वितरण का अनुमान लगाता हूं और नमूना d- आयामी माध्य वेक्टर और नमूना सहसंयोजक मैट्रिक्स की गणना करता हूं। फिर जब एक नया, अनदेखी, घ आयामी वेक्टर इस …

12 clustering multivariate-analysis covariance covariance-matrix matrix-inverse

2

मुझे कैसे पता चलेगा कि मेरे k- साधन क्लस्टरिंग एल्गोरिथ्म आयामीता के अभिशाप से पीड़ित है?

मेरा मानना है कि इस सवाल का शीर्षक यह सब कहता है।

12 clustering k-means high-dimensional

clustering पर टैग किए गए जवाब