डेटा साइंस clustering

13

K- मीन्स मिश्रित संख्यात्मक और श्रेणीबद्ध डेटा के लिए क्लस्टरिंग है

मेरे डेटा सेट में कई संख्यात्मक विशेषताएँ और एक श्रेणीबद्ध है। कहो NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, जहां CategoricalAttrतीन संभावित एक मान लेता है: CategoricalAttrValue1, CategoricalAttrValue2या CategoricalAttrValue3। मैं ऑक्टेव https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ के लिए डिफ़ॉल्ट k- साधन क्लस्टरिंग कार्यान्वयन का उपयोग कर रहा हूं । यह केवल संख्यात्मक डेटा के साथ काम …

133 data-mining clustering octave k-means categorical-data

8

क्लस्टरिंग भू स्थान निर्देशांक (लट, लंबे जोड़े)

जियोलोकेशन क्लस्टरिंग के लिए सही दृष्टिकोण और क्लस्टरिंग एल्गोरिदम क्या है? मैं क्लस्टर जियोलोकेशन निर्देशांक के लिए निम्न कोड का उपयोग कर रहा हूं: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = …

51 machine-learning python clustering k-means geospatial

1

बहु-श्रेणी वर्गीकरण के लिए सबसे अच्छा केरस मॉडल क्या है?

मैं अनुसंधान, पर काम कर रहा हूँ, जहां तीन घटना विजेता के वर्गीकृत एक की जरूरत = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 मेरा वर्तमान …

30 python neural-network classification clustering keras

1

स्केगन ग्रैडिएंटबॉस्टिंग क्लैसिफायर की तुलना में एक्सगबोस्ट इतना तेज क्यों है?

मैं 100 न्यूमेरिक फीचर्स के साथ 50k उदाहरणों पर एक ढाल बढ़ाने वाले मॉडल को प्रशिक्षित करने की कोशिश कर रहा हूं। XGBClassifierमेरी मशीन पर 43 सेकंड के भीतर 500 पेड़ लगाता है, जबकि GradientBoostingClassifier1 मिनट और 2 सेकंड में केवल 10 पेड़ (!) को संभालता है :( मैंने 500 …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

क्या क्लस्टरिंग से पहले अपने डेटा को मानकीकृत करना आवश्यक है?

क्या क्लस्टर से पहले अपने डेटा को मानकीकृत करना आवश्यक है? scikit learnDBSCAN के बारे में उदाहरण में, यहाँ वे इस पंक्ति में करते हैं: X = StandardScaler().fit_transform(X) लेकिन मुझे समझ नहीं आता कि यह क्यों जरूरी है। आखिरकार, क्लस्टरिंग डेटा के किसी विशेष वितरण को ग्रहण नहीं करता है …

23 python clustering clusters anomaly-detection

3

K- साधन कोहनी, बीआईसी, विचरण समझाया और सिल्हूट के साथ कश्मीर का चयन करने वाला असंगत व्यवहार

मैं K- साधनों के साथ 90 विशेषताओं के साथ कुछ वैक्टरों को क्लस्टर करने की कोशिश कर रहा हूं। चूंकि यह एल्गोरिथ्म मुझसे क्लस्टर की संख्या पूछता है, मैं अपनी पसंद को कुछ अच्छे गणित के साथ सत्यापित करना चाहता हूं। मैं 8 से 10 समूहों से होने की उम्मीद …

23 clustering k-means

5

पायथन में केएल डाइवर्जेंस की गणना

मैं इसके लिए नया हूँ और यह नहीं कह सकता कि मुझे इसके पीछे सैद्धांतिक अवधारणाओं की पूरी समझ है। मैं पायथन में कई सूचियों के बीच केएल डाइवर्जेंस की गणना करने की कोशिश कर रहा हूं। मैं यह प्रयास करने और करने के लिए http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html का उपयोग कर रहा …

22 python clustering scikit-learn

2

समय श्रृंखला से कैसे निपटें जो मौसम या अन्य पैटर्न में बदलती हैं?

पृष्ठभूमि मैं ऊर्जा मीटर रीडिंग के एक समय श्रृंखला डेटा सेट पर काम कर रहा हूं। श्रृंखला की लंबाई मीटर से भिन्न होती है - कुछ के लिए मेरे पास कई साल हैं, अन्य केवल कुछ महीने हैं, आदि कई महत्वपूर्ण मौसमीता प्रदर्शित करते हैं, और अक्सर कई परतें - …

22 data-mining clustering time-series beginner

1

Word2Vec बनाम सेंटेंस 2Vec बनाम Doc2Vec

मैं हाल ही में मामले में आए Word2Vec , Sentence2Vec और Doc2Vec और उलझन के रूप में मैं वेक्टर शब्दों के नया हूँ की तरह। क्या कोई सरल शब्दों में इन विधियों में अंतर को विस्तृत कर सकता है। प्रत्येक विधि के लिए सबसे उपयुक्त कार्य क्या हैं?

18 machine-learning data-mining clustering nlp unsupervised-learning

5

वाक्य समानता के लिए सर्वश्रेष्ठ व्यावहारिक एल्गोरिदम

मेरे पास दो वाक्य हैं, S1 और S2, दोनों में एक शब्द गणना है (आमतौर पर) 15 से नीचे। सबसे व्यावहारिक रूप से उपयोगी और सफल (मशीन लर्निंग) एल्गोरिदम क्या हैं, जो संभवतः लागू करना आसान है (तंत्रिका नेटवर्क ठीक है, जब तक कि आर्किटेक्चर Google इंसेप्शन के रूप में …

18 nlp clustering word2vec similarity

4

समानता स्कोर के आधार पर क्लस्टरिंग

मान लें कि हमारे पास दो तत्वों ई, ईजे । ई के बीच तत्वों ई और एक समानता ( दूरी नहीं ) फ़ंक्शन सिम (ईआई, ईजे) का एक सेट है । कैसे हम (कुशलता से) ई के तत्वों को सिम का उपयोग कर सकते हैं ? k -means, उदाहरण के …

18 clustering algorithms similarity

1

पाठ क्लस्टरिंग के लिए एल्गोरिदम

मुझे समूहों में उनके अर्थों द्वारा भारी मात्रा में वाक्यों के क्लस्टरिंग की समस्या है। यह एक समस्या के समान है जब आपके पास बहुत सारे वाक्य हैं और उन्हें उनके अर्थों के साथ समूहित करना चाहते हैं। ऐसा करने के लिए क्या एल्गोरिदम सुझाए गए हैं? मुझे पहले से …

17 clustering text-mining algorithms scikit-learn

4

K- साधन: प्रारंभिक सेंट्रोइड के कुशल सेट को चुनने के लिए कुछ अच्छे तरीके क्या हैं?

जब सेंट्रोइड का एक यादृच्छिक प्रारंभिक उपयोग किया जाता है, तो K- साधनों के विभिन्न रन अलग-अलग कुल SSE का उत्पादन करते हैं। और यह एल्गोरिथम के प्रदर्शन में महत्वपूर्ण है। इस समस्या को हल करने की दिशा में कुछ प्रभावी दृष्टिकोण क्या हैं? हाल के दृष्टिकोणों की सराहना की …

17 data-mining clustering k-means

5

सीबॉर्न हीटमैप को बड़ा करें

मैं corr()एक मूल df से df बनाता हूं । corr()Df बाहर 70 एक्स 70 में आया और यह हीटमैप कल्पना करने के लिए असंभव है ... sns.heatmap(df)। अगर मैं प्रदर्शित करने की कोशिश करता हूं corr = df.corr(), तो तालिका स्क्रीन पर फिट नहीं होती है और मैं सभी सहसंबंधों …

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

K- साधन बनाम ऑनलाइन K- साधन

K- साधन क्लस्टरिंग के लिए एक प्रसिद्ध एल्गोरिथ्म है, लेकिन इस तरह के एल्गोरिथ्म (ऑनलाइन K- साधन) का ऑनलाइन रूपांतर भी है। इन तरीकों के पक्ष और विपक्ष क्या हैं, और प्रत्येक को कब प्राथमिकता दी जानी चाहिए?

15 clustering algorithms k-means

clustering पर टैग किए गए जवाब