सांख्यिकी और बिग डेटा clustering

2

बहु-प्रश्न परीक्षा में धोखा देने के पैटर्न का पता लगाना

सवाल: मेरे पास परीक्षा के सवालों (सही / गलत) पर बाइनरी डेटा है। कुछ व्यक्तियों के पास प्रश्नों और उनके सही उत्तरों के सबसे पहले उपयोग हो सकता है। मैं नहीं जानता कि कौन, कितने या कौन से हैं। अगर कोई धोखा थे, लगता है मुझे आइटम के लिए एक …

25 r clustering classification psychometrics

5

क्लस्टरिंग प्रक्रिया जहां प्रत्येक क्लस्टर में समान अंक होते हैं?

मेरे पास में कुछ बिंदु , और मैं चाहता हूं कि अंक मिले:X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p प्रत्येक क्लस्टर में के तत्वों की बराबर संख्या होती है । (मान लें कि क्लस्टर की संख्या विभाजित करती है ।)XXXnnn प्रत्येक क्लस्टर कुछ अर्थों में "स्थानिक रूप से सामंजस्यपूर्ण" है, जैसे -means से क्लस्टर ।kkk यह …

25 machine-learning clustering k-means unsupervised-learning

3

डेटाबेस से 1d डेटा के विभिन्न समूहों को निर्धारित करें

मेरे पास विभिन्न नोड्स के बीच डेटा ट्रांसफर की एक डेटाबेस तालिका है। यह एक विशाल डेटाबेस (लगभग 40 मिलियन स्थानान्तरण के साथ) है। विशेषताओं में से एक बाइट्स (nbytes) स्थानांतरण की संख्या है जो 0 बाइट्स से 2 टेरा बाइट्स तक होती है। मैं nbytes को क्लस्टर करना चाहूंगा …

24 clustering k-means

3

क्या विज़ुअलाइज़ेशन के लिए आयामी कमी को "बंद" समस्या माना जाना चाहिए, जो टी-एसएनई द्वारा हल किया गया है?

मैं - एल्गोरिथ्म के बारे में बहुत कुछ पढ़ रहा हूँ आयामीता में कमी। मैं एमएनआईएसटी जैसे "क्लासिक" डेटासेट पर प्रदर्शन से बहुत प्रभावित हूं, जहां यह अंकों के स्पष्ट पृथक्करण को प्राप्त करता है ( मूल लेख देखें ):टीटीt मैंने इसका उपयोग एक तंत्रिका नेटवर्क द्वारा सीखी गई सुविधाओं …

23 clustering data-visualization dimensionality-reduction high-dimensional tsne

2

उनके बीच सहसंबंधों के आधार पर क्लस्टरिंग चर

प्रशन: मेरे पास एक बड़ा सहसंबंध मैट्रिक्स है। व्यक्तिगत सहसंबंधों को क्लस्ट करने के बजाय, मैं एक दूसरे से उनके सहसंबंधों के आधार पर चर चर करना चाहता हूं, यदि चर ए और चर बी में चर से जेड तक समान सहसंबंध हैं, तो ए और बी एक ही क्लस्टर …

23 correlation clustering correlation-matrix

1

दूरी मीट्रिक के रूप में सहसंबंध का उपयोग करना (पदानुक्रमित क्लस्टरिंग के लिए)

मैं अपने डेटा को श्रेणीबद्ध रूप से क्लस्टर करना चाहूंगा, लेकिन यूक्लिडियन दूरी का उपयोग करने के बजाय, मैं सहसंबंध का उपयोग करना चाहूंगा। इसके अलावा, चूंकि सहसंबंध गुणांक -1 से 1 तक होता है, मेरे अध्ययन में -1 और 1 दोनों को "सह-विनियमन" के साथ दर्शाया जाता है, मैं …

22 correlation clustering distance hierarchical-clustering

3

पर्यवेक्षित क्लस्टरिंग या वर्गीकरण?

दूसरा सवाल यह है कि मुझे वेब पर एक चर्चा में "पर्यवेक्षण क्लस्टरिंग" के बारे में बात करते हुए पाया गया, जहां तक मुझे पता है, क्लस्टरिंग अनसुनी है, तो "पर्यवेक्षित क्लस्टरिंग" के पीछे वास्तव में क्या अर्थ है? "वर्गीकरण" के संबंध में क्या अंतर है? इसके बारे में बात …

22 clustering classification unsupervised-learning statistical-learning

2

बाइनरी मैट्रिक्स को क्लस्टर करना

मेरे पास आयाम 250k x 100 की बाइनरी विशेषताओं का एक अर्ध-छोटा मैट्रिक्स है। प्रत्येक पंक्ति एक उपयोगकर्ता है और कॉलम कुछ उपयोगकर्ता व्यवहार के बाइनरी "टैग" हैं जैसे "पसंद_कैट"। user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 …

22 r clustering binary-data

8

K- साधन (या उसके करीबी परिजन) केवल एक दूरी मैट्रिक्स के साथ क्लस्टरिंग करें, न कि पॉइंट-बाय-फीचर्स डेटा

मैं K- साधनों का प्रदर्शन उन वस्तुओं पर करना चाहता हूं जो मेरे पास हैं, लेकिन वस्तुओं को अंतरिक्ष में बिंदुओं के रूप में वर्णित नहीं किया जाता है, अर्थात objects x featuresडाटासेट द्वारा । हालांकि, मैं किसी भी दो वस्तुओं के बीच की दूरी की गणना करने में सक्षम …

22 machine-learning clustering data-mining k-means distance

2

क्लस्टर समय श्रृंखला कैसे करें?

मेरे पास क्लस्टर विश्लेषण के बारे में एक प्रश्न है। 3000 कंपनियां हैं, जिन्हें 5 वर्षों में अपनी शक्ति के उपयोग के अनुसार क्लस्टर किया जाना है। प्रत्येक कंपनी में 5 साल के दौरान हर घंटे के लिए मान हैं। मैं यह पता लगाना चाहूंगा कि क्या कुछ कंपनियों की …

22 time-series clustering spss

2

तुलना क्लस्टरिंग: रैंड इंडेक्स बनाम सूचना का विविधता

मैं सोच रहा था कि क्या किसी के पास क्लस्टरिंग की तुलना के लिए सूचना और विविधता सूचकांक के अंतर के पीछे कोई अंतर्दृष्टि या अंतर्ज्ञान है। मैंने मरीना मेलिया (जर्नल ऑफ़ मल्टीवेरेट एनालिसिस, 2007) द्वारा पेपर " कम्पेयरिंग कलस्टरिंग - एन इंफॉर्मेशन बेस्ड डिस्टेंस " पढ़ा है , लेकिन, …

21 machine-learning clustering metric

4

मिश्रित डेटा को यूक्लिडियन-आधारित क्लस्टरिंग एल्गोरिदम के लिए एक समस्या क्यों है?

अधिकांश शास्त्रीय क्लस्टरिंग और डायमेंशन कम करने वाले एल्गोरिदम (पदानुक्रमित क्लस्टरिंग, प्रिंसिपल कंपोनेंट एनालिसिस, के-मीन्स, सेल्फ-ऑर्गनाइजिंग मैप्स ...) विशेष रूप से न्यूमेरिक डेटा के लिए डिज़ाइन किए गए हैं, और उनके इनपुट डेटा को यूक्लिडियन स्पेस में पॉइंट के रूप में देखा जाता है। यह निश्चित रूप से एक समस्या …

21 clustering dimensionality-reduction distance self-organizing-maps mixed-type-data

2

यदि k- साधन क्लस्टरिंग गाऊसी मिश्रण मॉडलिंग का एक रूप है, तो क्या इसका उपयोग तब किया जा सकता है जब डेटा सामान्य न हो?

मैं GMM के लिए EM एल्गोरिथ्म और GMM और k- साधनों के बीच संबंध पर बिशप पढ़ रहा हूं। इस पुस्तक में यह कहा गया है कि k- साधन GMM का एक कठिन संस्करण है। मैं सोच रहा हूँ कि इसका मतलब यह है कि अगर मैं जिस डेटा को …

21 clustering data-mining k-means gaussian-mixture

4

पीसीए स्पेस पर एक नया वेक्टर कैसे प्रोजेक्ट करें?

प्रमुख घटक विश्लेषण (पीसीए) करने के बाद, मैं पीसीए अंतरिक्ष पर एक नया वेक्टर प्रोजेक्ट करना चाहता हूं (अर्थात पीसीए समन्वय प्रणाली में इसके निर्देशांक ढूंढें)। मैंने पीसी भाषा में पीसीए का उपयोग करके गणना की है prcomp। अब मुझे पीसीए रोटेशन मैट्रिक्स द्वारा अपने वेक्टर को गुणा करने में …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

4

क्या कोई निर्णय-वृक्ष की तरह एल्गोरिथ्म अप्रमाणित क्लस्टरिंग के लिए है?

मेरे पास एक डेटासेट है जिसमें 5 विशेषताएं हैं: ए, बी, सी, डी, ई। वे सभी संख्यात्मक मूल्य हैं। घनत्व-आधारित क्लस्टरिंग करने के बजाय, मैं जो करना चाहता हूं वह डेटा को निर्णय-ट्री-जैसे तरीके से क्लस्टर करना है। मेरा मतलब है कि दृष्टिकोण कुछ इस तरह है: एल्गोरिथ्म डेटा को …

20 r machine-learning clustering cart

clustering पर टैग किए गए जवाब