सांख्यिकी और बिग डेटा classification

1

कैसे एक वर्गीकरण तकनीक एलडीए, पीसीए जैसी आयामी कमी तकनीक के रूप में भी कार्य करता है

इस लेख में , लेखक रेखीय विभेदक विश्लेषण (LDA) को प्रमुख घटक विश्लेषण (PCA) से जोड़ता है। अपने सीमित ज्ञान के साथ, मैं यह पालन करने में सक्षम नहीं हूं कि एलडीए पीसीए के समान कैसे हो सकता है। मैंने हमेशा सोचा है कि एलडीए लॉजिस्टिक रिग्रेशन के समान वर्गीकरण …

19 classification pca dimensionality-reduction discriminant-analysis canonical-correlation

2

बेतरतीब जंगल है ओवरफिटिंग?

मैं परिक्षित के साथ यादृच्छिक जंगलों के साथ प्रयोग कर रहा हूं और मुझे अपने प्रशिक्षण सेट के शानदार परिणाम मिल रहे हैं, लेकिन मेरे परीक्षण के परिणाम अपेक्षाकृत खराब हैं ... यहां समस्या (पोकर से प्रेरित) है जिसे मैं हल करने की कोशिश कर रहा हूं: खिलाड़ी ए के …

19 classification random-forest scikit-learn

3

वर्गीकरण के लिए अर्ध-पर्यवेक्षित शिक्षण, सक्रिय शिक्षण और गहन शिक्षा

अपडेट किए गए सभी संसाधनों के साथ अंतिम संपादन: एक परियोजना के लिए, मैं वर्गीकरण के लिए मशीन लर्निंग एल्गोरिदम लागू कर रहा हूं। चुनौती: सीमित लेबल डेटा और बहुत अधिक अनलिस्टेड डेटा। लक्ष्य: अर्ध-पर्यवेक्षित वर्गीकरण लागू करें किसी तरह अर्ध-पर्यवेक्षित लेबलिंग प्रक्रिया लागू करें (सक्रिय शिक्षण के रूप में …

19 machine-learning classification software svm text-mining

2

ओवरसाइम्ड इम्बैलेंस डेटा पर परीक्षण वर्गीकरण

मैं गंभीर रूप से असंतुलित डेटा पर काम कर रहा हूं। साहित्य में, री-सैंपलिंग (ओवर- या अंडर-सैंपलिंग) का उपयोग करके डेटा को फिर से संतुलित करने के लिए कई तरीकों का उपयोग किया जाता है। दो अच्छे दृष्टिकोण हैं: SMOTE: सिंथेटिक माइनॉरिटी ओवर-सैंपलिंग TEchnique ( SMOTE ) ADASYN: असंतुलित शिक्षण …

19 classification dataset resampling unbalanced-classes oversampling

7

मशीन लर्निंग में बायस्ड डेटा

मैं डेटा के साथ मशीन लर्निंग प्रोजेक्ट पर काम कर रहा हूं जो डेटा चयन द्वारा पहले से ही (भारी) पक्षपाती है। मान लेते हैं कि आपके पास कठिन कूट नियमों का एक सेट है। आप इसे बदलने के लिए मशीन लर्निंग मॉडल का निर्माण कैसे करते हैं, जब इसका …

18 machine-learning classification data-mining bias extrapolation

1

सामान्य रूप से ओवरएम्पलिंग के बारे में राय और विशेष रूप से SMOTE एल्गोरिथ्म [बंद]

बंद हो गया । यह सवाल राय आधारित है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं?प्रश्न को अपडेट करें ताकि इस पोस्ट को संपादित करके तथ्यों और उद्धरणों के साथ उत्तर दिया जा सके । 2 साल पहले बंद हुआ । …

18 machine-learning classification oversampling

5

बड़े पैमाने पर पाठ वर्गीकरण

मैं अपने पाठ डेटा पर वर्गीकरण करना चाह रहा हूं। मेरे पास 300 classes, प्रति वर्ग (इसलिए 60000 documents in total) 200 प्रशिक्षण दस्तावेज हैं और इसका परिणाम बहुत ही उच्च आयामी डेटा (हम 1 मिलियन आयामों से अधिक हो सकता है ) में हो सकता है । मैं पाइपलाइन …

18 machine-learning classification text-mining

10

सामाजिक नेटवर्क डेटासेट

ताला लगा हुआ । यह सवाल और इसके जवाब बंद हैं क्योंकि यह सवाल ऑफ-टॉपिक है लेकिन इसका ऐतिहासिक महत्व है। यह वर्तमान में नए उत्तरों या इंटरैक्शन को स्वीकार नहीं कर रहा है। मैं वर्गीकरण कार्यों के लिए सामाजिक नेटवर्क डेटासेट (ट्विटर, फ्रेंडफीड, फ़ेसबुक, लास्टफ़ इत्यादि) की तलाश कर …

18 classification dataset

3

क्या एक बहु-स्तरीय क्लासिफायरियर कई बाइनरी वाले की तुलना में बेहतर है?

मुझे URL को श्रेणियों में वर्गीकृत करना होगा। कहो कि मेरे पास 15 श्रेणियां हैं जिन्हें मैं हर URL को शून्य करने की योजना बना रहा हूं। क्या 15-रास्ता क्लासिफायर बेहतर है? जहां मेरे पास 15 लेबल हैं और प्रत्येक डेटा बिंदु के लिए सुविधाएं उत्पन्न करता है। या 15 …

18 machine-learning classification categorical-data svm feature-selection

2

पाठ वर्गीकरण के लिए रिज रिग्रेशन क्लासिफायर काफी अच्छी तरह से क्यों काम करता है?

पाठ वर्गीकरण के लिए एक प्रयोग के दौरान, मैंने पाया कि रिज क्लासिफायर जनरेट करने वाले परिणाम लगातार उन क्लासिफायरों के बीच परीक्षणों को शीर्ष पर लाते हैं जो कि आमतौर पर एसवीएम, एनबी, केएनएन आदि जैसे टेक्स्ट माइनिंग कार्यों के लिए उल्लिखित हैं और लागू होते हैं, हालांकि, मैंने …

18 machine-learning classification text-mining ridge-regression

1

प्रश्नोत्तरी: अपनी निर्णय सीमा द्वारा वर्गीकरण को बताएं

नीचे 6 निर्णय सीमाएँ दी गई हैं। निर्णय सीमा वायलेट लाइनों है। डॉट्स और क्रॉस दो अलग-अलग डेटा सेट हैं। हमें तय करना है कि कौन सा एक है: रैखिक एसवीएम कर्नेलयुक्त SVM (बहुपद कर्नेल ऑफ़ ऑर्डर 2) perceptron रसद प्रतिगमन तंत्रिका नेटवर्क (10 सुधारा हुआ रैखिक इकाइयों के साथ …

17 machine-learning self-study classification neural-networks svm

3

मुझे पहनावा क्लासिफायर का उपयोग कब नहीं करना चाहिए?

सामान्य तौर पर, एक वर्गीकरण समस्या में जहां लक्ष्य आउट-ऑफ-सैंपल क्लास सदस्यता की सटीक भविष्यवाणी करना है, मुझे एंबेडेड एम्पलीफायर का उपयोग कब नहीं करना चाहिए ? यह प्रश्न निकट से संबंधित है कि हमेशा पहनावा सीखने का उपयोग क्यों न करें? । यह सवाल पूछता है कि हम हर …

17 classification boosting ensemble bagging

1

Naive Bayes SVM से बेहतर प्रदर्शन कब करता है?

एक छोटे से पाठ वर्गीकरण समस्या में मैं देख रहा था, Naive Bayes एक SVM के समान या उससे अधिक के प्रदर्शन का प्रदर्शन कर रहा है और मैं बहुत उलझन में था। मैं सोच रहा था कि कौन से कारक एक एल्गोरिथ्म की दूसरे पर विजय तय करते हैं। …

17 machine-learning classification svm naive-bayes

1

मैं समाचार कहानियों में आधारित अपराध सूचकांक और राजनीतिक अस्थिरता सूचकांक बनाना चाहता हूं

मेरे पास यह पक्ष परियोजना है जहां मैं अपने देश में स्थानीय समाचार वेबसाइटों को क्रॉल करता हूं और अपराध सूचकांक और राजनीतिक अस्थिरता सूचकांक बनाना चाहता हूं। मैंने पहले ही परियोजना के सूचना पुनर्प्राप्ति भाग को कवर कर लिया है। मेरी योजना यह करने की है: विषयविषयक अर्क। डुप्लिकेट …

17 machine-learning classification text-mining

3

टी-टेस्ट के साथ सांख्यिकीय महत्व के लिए दो क्लासिफायर सटीकता परिणामों की तुलना करना

मैं सांख्यिकीय महत्व के लिए दो वर्गीकरणों की सटीकता की तुलना करना चाहता हूं। दोनों क्लासिफायर एक ही डेटा सेट पर चलाए जाते हैं। यह मुझे विश्वास दिलाता है कि मुझे जो पढ़ा गया है उसमें से एक नमूना टी-टेस्ट का उपयोग करना चाहिए । उदाहरण के लिए: Classifier 1: …

17 machine-learning statistical-significance classification t-test

classification पर टैग किए गए जवाब