data-mining पर टैग किए गए जवाब

एक गतिविधि जो बड़े, जटिल डेटा सेट में पैटर्न तलाशती है। यह आमतौर पर एल्गोरिथम तकनीकों पर जोर देता है, लेकिन उस लक्ष्य के साथ संबंधित कौशल, एप्लिकेशन या कार्यप्रणाली के किसी भी सेट को शामिल कर सकता है।

13
K- मीन्स मिश्रित संख्यात्मक और श्रेणीबद्ध डेटा के लिए क्लस्टरिंग है
मेरे डेटा सेट में कई संख्यात्मक विशेषताएँ और एक श्रेणीबद्ध है। कहो NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, जहां CategoricalAttrतीन संभावित एक मान लेता है: CategoricalAttrValue1, CategoricalAttrValue2या CategoricalAttrValue3। मैं ऑक्टेव https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ के लिए डिफ़ॉल्ट k- साधन क्लस्टरिंग कार्यान्वयन का उपयोग कर रहा हूं । यह केवल संख्यात्मक डेटा के साथ काम …

8
पायथन में खुला स्रोत विसंगति का पता लगाना
समस्या पृष्ठभूमि: मैं एक प्रोजेक्ट पर काम कर रहा हूं, जिसमें आईटी मॉनिटरिंग स्पेस (आईटी स्पेस की मेरी सबसे अच्छी समझ) में पाई जाने वाली लॉग फाइल शामिल हैं। ये लॉग फाइलें टाइम-सीरीज़ डेटा हैं, जिन्हें विभिन्न मापदंडों की सैकड़ों / हजारों पंक्तियों में व्यवस्थित किया गया है। प्रत्येक पैरामीटर …

2
क्या सपोर्ट वेक्टर मशीन को अभी भी उनके आला में "कला की स्थिति" माना जाता है?
यह सवाल एक टिप्पणी के जवाब में है जो मैंने दूसरे प्रश्न पर देखा था। कौरसेरा पर मशीन लर्निंग कोर्स पाठ्यक्रम के बारे में टिप्पणी थी, और "एसवीएम का उपयोग आजकल इतना नहीं किया जाता है" की तर्ज पर किया गया था। मैंने केवल प्रासंगिक व्याख्यान खुद ही समाप्त कर …

5
दस्तावेजों के बीच की दूरी की गणना के कुछ मानक तरीके क्या हैं?
जब मैं "दस्तावेज़" कहता हूं, तो मेरे पास विकिपीडिया लेखों और समाचारों जैसे वेब पेज हैं। मैं उत्तरार्द्ध के लिए मजबूत वरीयता के साथ वेनिला लेक्सिकल डिस्टेंस मेट्रिक्स या अत्याधुनिक सिमेंटिक डिस्टेंस मेट्रिक्स देने वाले उत्तर पसंद करता हूं।

1
स्केगन ग्रैडिएंटबॉस्टिंग क्लैसिफायर की तुलना में एक्सगबोस्ट इतना तेज क्यों है?
मैं 100 न्यूमेरिक फीचर्स के साथ 50k उदाहरणों पर एक ढाल बढ़ाने वाले मॉडल को प्रशिक्षित करने की कोशिश कर रहा हूं। XGBClassifierमेरी मशीन पर 43 सेकंड के भीतर 500 पेड़ लगाता है, जबकि GradientBoostingClassifier1 मिनट और 2 सेकंड में केवल 10 पेड़ (!) को संभालता है :( मैंने 500 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
बड़े डेटा के साथ SVD और PCA कैसे करें?
मेरे पास डेटा (लगभग 8GB) का एक बड़ा सेट है। मैं इसका विश्लेषण करने के लिए मशीन लर्निंग का उपयोग करना चाहूंगा। इसलिए, मुझे लगता है कि दक्षता के लिए डेटा की गतिशीलता को कम करने के लिए मुझे SVD तो PCA का उपयोग करना चाहिए। हालाँकि, MATLAB और ऑक्टेव …

3
Gini गुणांक बनाम Gini अशुद्धता - निर्णय पेड़
समस्या का अर्थ है पेड़ों के निर्माण का निर्णय लेना। विकिपीडिया के अनुसार ' गिन्नी गुणांक ' को ' गिन्नी अशुद्धता ' के साथ भ्रमित नहीं होना चाहिए । हालाँकि निर्णय वृक्ष का निर्माण करते समय दोनों उपायों का उपयोग किया जा सकता है - ये आइटम के सेट को …

3
हमें XGBoost और यादृच्छिक वन की आवश्यकता क्यों है?
मैं कुछ अवधारणाओं पर स्पष्ट नहीं था: XGBoost कमजोर शिक्षार्थियों को मजबूत शिक्षार्थियों में परिवर्तित करता है। ऐसा करने से क्या फायदा? केवल एक पेड़ का उपयोग करने के बजाय कई कमजोर शिक्षार्थियों का संयोजन? रैंडम फॉरेस्ट एक पेड़ बनाने के लिए पेड़ से विभिन्न नमूने का उपयोग करता है। …

3
एनएलपी और मशीन लर्निंग समुदाय गहरी शिक्षा में क्यों रुचि रखते हैं?
मुझे आशा है कि आप मेरी मदद कर सकते हैं, क्योंकि इस विषय पर मेरे कुछ प्रश्न हैं। मैं गहरी शिक्षा के क्षेत्र में नया हूं, और जब मैंने कुछ ट्यूटोरियल किए, तो मैं एक दूसरे से अवधारणाओं को संबंधित या अलग नहीं कर सकता।

4
अव्यक्त सुविधाओं का अर्थ?
मैं एडवेंचर सिस्टम के लिए मैट्रिक्स फैक्टराइजेशन के बारे में सीख रहा हूं और मैं इस शब्द को latent featuresबहुत बार देख रहा हूं लेकिन मैं इसका मतलब नहीं समझ पा रहा हूं। मुझे पता है कि एक विशेषता क्या है, लेकिन मैं अव्यक्त सुविधाओं के विचार को नहीं समझता। …

4
क्या डाटा साइंस को डाटा माइनिंग कहा जाता है?
मुझे यकीन है कि डेटा विज्ञान पर चर्चा की जाएगी क्योंकि इस मंच में कई समानार्थी शब्द या कम से कम संबंधित क्षेत्र हैं जहां बड़े डेटा का विश्लेषण किया जाता है। मेरा विशेष प्रश्न डाटा माइनिंग के संबंध में है। मैंने कुछ साल पहले डेटा माइनिंग में स्नातक वर्ग …

2
समय श्रृंखला से कैसे निपटें जो मौसम या अन्य पैटर्न में बदलती हैं?
पृष्ठभूमि मैं ऊर्जा मीटर रीडिंग के एक समय श्रृंखला डेटा सेट पर काम कर रहा हूं। श्रृंखला की लंबाई मीटर से भिन्न होती है - कुछ के लिए मेरे पास कई साल हैं, अन्य केवल कुछ महीने हैं, आदि कई महत्वपूर्ण मौसमीता प्रदर्शित करते हैं, और अक्सर कई परतें - …

1
हेलिंगर दूरी क्या है और इसका उपयोग कब करना है?
मुझे यह जानने में दिलचस्पी है कि वास्तव में हेलिंगर डिस्टेंस (सरल शब्दों में) में क्या होता है। इसके अलावा, मुझे यह जानने में भी दिलचस्पी है कि हम हेलिंगर डिस्टेंस का उपयोग करने में किस प्रकार की समस्याएं हैं? हेलिंगर डिस्टेंस का उपयोग करने के क्या फायदे हैं?

4
मैं किस सांख्यिकीय मॉडल का उपयोग इस संभावना का विश्लेषण करने के लिए करूं कि एक एकल घटना अनुदैर्ध्य डेटा को प्रभावित करती है
मैं एक सूत्र, विधि, या मॉडल को खोजने की कोशिश कर रहा हूं ताकि संभावना का विश्लेषण किया जा सके कि एक विशिष्ट घटना ने कुछ अनुदैर्ध्य डेटा को प्रभावित किया है। मुझे मुश्किल से पता चल रहा है कि Google पर क्या खोजना है। यहाँ एक उदाहरण है: छवि …

1
Word2Vec बनाम सेंटेंस 2Vec बनाम Doc2Vec
मैं हाल ही में मामले में आए Word2Vec , Sentence2Vec और Doc2Vec और उलझन के रूप में मैं वेक्टर शब्दों के नया हूँ की तरह। क्या कोई सरल शब्दों में इन विधियों में अंतर को विस्तृत कर सकता है। प्रत्येक विधि के लिए सबसे उपयुक्त कार्य क्या हैं?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.