सांख्यिकी और बिग डेटा clustering

1

अशक्त परिकल्पना के तहत विनिमेय नमूनों के पीछे अंतर्ज्ञान क्या है?

क्रमपरिवर्तन परीक्षण (इसे रेंडमाइजेशन टेस्ट, री-रैंडमाइजेशन टेस्ट या एक सटीक परीक्षण भी कहा जाता है) बहुत उपयोगी होते हैं और उदाहरण के लिए आवश्यक सामान्य वितरण की धारणा को पूरा करने और काम में आने पर काम में आते t-testहैं। गैर-पैरामीट्रिक परीक्षण की तरह Mann-Whitney-U-testअधिक जानकारी खो जाएगी। हालांकि, इस …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

समय श्रृंखला और विसंगति का पता लगाना

मैं समय श्रृंखला में एक विसंगति का पता लगाने के लिए एक एल्गोरिथ्म सेटअप करना चाहता हूं, और मैं इसके लिए क्लस्टरिंग का उपयोग करने की योजना बना रहा हूं। मुझे क्लस्टरिंग के लिए डिस्टेंस मैट्रिक्स का उपयोग क्यों करना चाहिए और कच्चे समय श्रृंखला डेटा के लिए नहीं? विसंगति …

15 time-series clustering trend

3

क्या पदानुक्रमित क्लस्टरिंग में वार्ड के इंटर-क्लस्टर लिंकेज के साथ मैनहट्टन की दूरी का उपयोग करना ठीक है?

मैं समय श्रृंखला डेटा का विश्लेषण करने के लिए पदानुक्रमित क्लस्टरिंग का उपयोग कर रहा हूं। मेरा कोड मैथेमेटिका फ़ंक्शन का उपयोग करके लागू किया गया है DirectAgglomerate[...], जो निम्नलिखित इनपुट दिए गए पदानुक्रमित समूहों को उत्पन्न करता है: एक दूरी मैट्रिक्स डी इंटर-क्लस्टर लिंकेज निर्धारित करने के लिए उपयोग …

15 clustering distance-functions ward

1

क्लस्टरिंग: क्या मुझे जेन्सेन-शैनन डायवर्जेंस या इसके वर्ग का उपयोग करना चाहिए?

मैं एफर्टिनिटी प्रॉपेगोरिथम एल्गोरिथ्म का उपयोग करके प्रायिकता के वितरण को रोक रहा हूं, और मेरी दूरी मीट्रिक के रूप में जेन्सेन-शैनन डाइवर्जेंस का उपयोग करने की है। क्या जेएसडी को दूरी, या जेएसडी वर्ग के रूप में उपयोग करना सही है? क्यों? एक या दूसरे को चुनने से क्या …

15 machine-learning clustering entropy distance-functions

3

क्लस्टरिंग के डेटा आउटपुट की साजिश कैसे करें?

मैंने डेटा के एक सेट (अंकों का एक सेट) को क्लस्टर करने की कोशिश की और 2 क्लस्टर प्राप्त किए। मैं इसका रेखांकन करना चाहूंगा। प्रतिनिधित्व के बारे में थोड़ा उलझन है, क्योंकि मेरे पास (x, y) निर्देशांक नहीं है। ऐसा करने के लिए MATLAB / पायथन फ़ंक्शन की भी …

15 clustering data-visualization python

2

क्लस्टरिंग के लिए डिरिचलेट प्रक्रियाएं: लेबल से कैसे निपटें?

प्रश्न: एक डिरिचलेट प्रक्रिया का उपयोग करके डेटा को क्लस्टर करने का मानक तरीका क्या है? गिब्स के नमूने का उपयोग करते समय नमूने दिखाई देते हैं और नमूने के दौरान गायब हो जाते हैं। इसके अलावा, हमारे पास पहचान की समस्या है क्योंकि पीछे वितरण क्लस्टर क्लस्टरिंग के लिए …

14 bayesian clustering mcmc dirichlet-process identifiability

2

k- का मतलब बनाम k-median?

मुझे पता है कि k- साधन क्लस्टरिंग एल्गोरिथ्म और k- मध्यिका है। एक जो मध्य के रूप में माध्य का उपयोग करता है और दूसरा माध्यिका का उपयोग करता है। मेरा प्रश्न है: कब / कहां उपयोग करना है?

14 clustering k-means

2

मैं संख्यात्मक डेटा को स्वाभाविक रूप से "कोष्ठक" कैसे बना सकता हूं? (उदा आय)

निम्नलिखित वर्णन करता है कि मैं क्या हासिल करने की कोशिश कर रहा हूं, लेकिन यह संभव है कि एक वैकल्पिक समस्या बयान मेरे लक्ष्य का वर्णन कर सके: में चाहता हूं निम्नलिखित संख्याओं को उन समूहों में विभाजित करें, जहाँ प्रत्येक समूह के भीतर संख्याओं के प्रकार बहुत बड़े …

14 clustering relative-distribution

3

हम अन्य एल्गोरिदम के बजाय k- साधनों का उपयोग क्यों करते हैं?

मैंने k- साधनों के बारे में शोध किया और ये मुझे मिले: k-mean सबसे सरल एल्गोरिथ्म में से एक है जो ज्ञात क्लस्टरिंग समस्याओं को हल करने के लिए अप्रशिक्षित शिक्षण पद्धति का उपयोग करता है। यह बड़े डेटासेट के साथ वास्तव में अच्छी तरह से काम करता है। हालांकि, …

14 clustering data-mining algorithms k-means

4

क्लस्टर के आकार को कैसे मापें?

मुझे पता है कि इस सवाल को अच्छी तरह से परिभाषित नहीं किया गया है, लेकिन कुछ समूहों में अण्डाकार होते हैं या निचले आयामी स्थान पर झूठ होते हैं, जबकि दूसरे में अरेखीय आकार (2 डी या 3 डी उदाहरणों में) होते हैं। क्या गुच्छों की गैर-शुद्धता (या "आकृति") …

14 unsupervised-learning clustering

3

क्या कोई कृपया समय श्रृंखला समानता का निर्धारण करने के लिए गतिशील समय की व्याख्या कर सकता है?

मैं समय श्रृंखला की एक साथ तुलना करने के लिए गतिशील समय को मापने के उपाय को समझने की कोशिश कर रहा हूं। मेरे पास तीन टाइम सीरीज़ डेटासेट हैं: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, …

14 r time-series clustering

8

मशीन सीखने के लिए "हॉट एल्गोरिदम" क्या हैं?

यह मशीन सीखने की शुरुआत करने वाले किसी व्यक्ति से एक भोला सवाल है। मैं इन दिनों मार्सलैंड की पुस्तक "मशीन लर्निंग: एन अल्गोरिथमिक परिप्रेक्ष्य" पढ़ रहा हूं। मुझे यह एक परिचयात्मक पुस्तक के रूप में उपयोगी लगता है, लेकिन अब मैं उन्नत एल्गोरिदम में जाना चाहूंगा, जो वर्तमान में …

14 machine-learning clustering bioinformatics

3

या

क्या कोई L 2 की बजाय क्लस्टरिंग के लिए या L .5 मेट्रिक्स का उपयोग करता है ? अग्रवाल एट अल।, उच्च आयामी अंतरिक्ष में दूरी मैट्रिक्स के आश्चर्यजनक व्यवहार पर (2001 में) कहा किL1L1L_1L.5L.5L_.5L2L2L_2 लगातार अधिक बेहतर है तोउच्च आयामी डेटा खनन अनुप्रयोगों के लिएयूक्लिडियन दूरी मीट्रिक एल 2L1L1L_1L2L2L_2 …

14 clustering distance-functions rule-of-thumb

9

क्लस्टरिंग के लिए विज़ुअलाइज़ेशन सॉफ़्टवेयर

ताला लगा हुआ । यह सवाल और इसके जवाब बंद हैं क्योंकि यह सवाल ऑफ-टॉपिक है लेकिन इसका ऐतिहासिक महत्व है। यह वर्तमान में नए उत्तरों या इंटरैक्शन को स्वीकार नहीं कर रहा है। मैं ~ 22000 अंक क्लस्टर करना चाहता हूं। कई क्लस्टरिंग एल्गोरिदम उच्च गुणवत्ता वाले प्रारंभिक अनुमानों …

14 data-visualization clustering software

4

क्या कोई गैर-दूरी आधारित क्लस्टरिंग एल्गोरिदम हैं?

ऐसा लगता है कि K- साधन और अन्य संबंधित एल्गोरिदम के लिए, क्लस्टरिंग बिंदुओं के बीच की दूरी की गणना करने पर आधारित है। क्या कोई ऐसा है जो इसके बिना काम करता है?

14 machine-learning clustering data-mining k-means

clustering पर टैग किए गए जवाब