सांख्यिकी और बिग डेटा classification

1

सहपाठियों का मूल्यांकन: आरओसी बनाम घटता सीखना

मैं एक बहुस्तरीय पाठ वर्गीकरण समस्या के लिए 2 अलग-अलग क्लासिफायर की तुलना करना चाहूंगा जो बड़े प्रशिक्षण डेटासेट का उपयोग करते हैं। मुझे संदेह है कि क्या मुझे 2 क्लासिफायर की तुलना करने के लिए आरओसी कर्व्स या लर्निंग कर्व्स का उपयोग करना चाहिए। एक तरफ, सीखने के मोड़ …

11 machine-learning classification roc accuracy

4

क्या एयूसी प्रत्येक वर्ग से यादृच्छिक रूप से चयनित उदाहरण को सही ढंग से वर्गीकृत करने की संभावना है?

मैंने एक पेपर में इस कैप्शन को पढ़ा और कभी भी कहीं और इस तरह वर्णित AUC को नहीं देखा। क्या ये सच है? क्या यह देखने का कोई प्रमाण या सरल तरीका है? अंजीर। 2, रिसीवर-ऑपरेटिंग विशेषता वक्र (AUC) के तहत क्षेत्र के संदर्भ में व्यक्त किए गए द्विभाजनशील …

11 classification roc auc

2

क्या एफ-माप सटीकता का पर्याय है?

मैं समझता हूं कि एफ-माप (सटीक और याद के आधार पर) एक अनुमान है कि एक क्लासिफायरियर कितना सटीक है। जब हम असंतुलित डेटासेट होते हैं, तब भी एफ-माप सटीकता का पक्षधर है । मेरे पास एक सरल प्रश्न है (जो तकनीक के बारे में सही शब्दावली का उपयोग करने …

11 machine-learning classification data-mining unbalanced-classes accuracy

5

बिनिंग को हर कीमत पर क्यों टाला जाना चाहिए?

इसलिए मैंने कुछ पोस्ट पढ़ी हैं कि क्यों बिनिंग से हमेशा बचा जाना चाहिए। इस दावे के लिए एक लोकप्रिय संदर्भ यह लिंक है । मुख्य पलायन यह है कि बिनिंग पॉइंट्स (या कटपॉइंट्स) बल्कि मनमाने ढंग से और साथ ही सूचना के नुकसान के कारण होते हैं, और यह …

10 classification categorical-data continuous-data splines binning

3

आप वर्गीकरण में एलडीए के बजाय पीसीए का उपयोग कब करेंगे?

मैं इस लेख को प्रिंसिपल कंपोनेंट एनालिसिस और मल्टीपल डिस्क्रिमिनेंट एनालिसिस (रैखिक डिस्क्रिमिनेंट एनालिसिस) के बीच के अंतर पर पढ़ रहा हूँ , और मैं यह समझने की कोशिश कर रहा हूँ कि आप एमडीए / एलडीए के बजाय कभी पीसीए का उपयोग क्यों करेंगे। विवरण इस प्रकार संक्षेप में …

10 classification pca dimensionality-reduction discriminant-analysis

3

आरबीएफ एसवीएम मामलों का उपयोग करें (बनाम लॉजिस्टिक रिग्रेशन और यादृच्छिक वन)

रेडियल-बेस फंक्शन कर्नेल के साथ सपोर्ट वेक्टर मशीनें एक सामान्य-प्रयोजन पर्यवेक्षित क्लासिफायरियर है। जबकि मैं इन एसवीएम के लिए सैद्धांतिक नींव, और उनके मजबूत बिंदुओं को जानता हूं, मुझे उन मामलों की जानकारी नहीं है जिनमें वे पसंदीदा विधि हैं। तो, वहाँ समस्याओं का एक वर्ग है जिसके लिए आरबीएफ …

10 machine-learning logistic classification svm random-forest

4

रैखिक Classifiers के साथ ओवरफिटिंग

आज हमारे प्राध्यापक ने कक्षा में बताया कि "रेखीय वर्गीय अक्षरों के साथ ओवरफिटिंग संभव नहीं है"। मुझे लगता है कि गलत होने के लिए, चूंकि रैखिक सेटिफ़ायर प्रशिक्षण सेट में आउटलेर्स के लिए संवेदनशील हो सकते हैं - उदाहरण के लिए एक कठिन मार्जिन का सहारा लें वेक्टर मशीन: …

10 classification overfitting

2

वर्गीकरण प्रयोजनों के लिए डेटा का परीक्षण करने के लिए पीसीए लागू करना

मैंने हाल ही में अद्भुत PCA के बारे में सीखा है और मैंने scikit-learn प्रलेखन में उल्लिखित उदाहरण किया है । मुझे यह जानने में दिलचस्पी है कि मैं वर्गीकरण उद्देश्यों के लिए पीसीए को नए डेटा बिंदुओं पर कैसे लागू कर सकता हूं। एक 2 आयामी विमान (एक्स, वाई …

10 classification pca scikit-learn

1

असंतुलित डेटासेट के लिए आरओसी घटता है

एक इनपुट मैट्रिक्स और एक बाइनरी आउटपुट पर विचार करें ।XXXyyy एक क्लासिफायरियर के प्रदर्शन को मापने का एक सामान्य तरीका आरओसी घटता का उपयोग करना है। एक आरओसी प्लॉट में विकर्ण वह परिणाम है जो एक यादृच्छिक क्लासिफायर से प्राप्त किया जाएगा। असंतुलित आउटपुट के मामले में, यादृच्छिक वर्गीकरण …

10 classification roc unbalanced-classes

2

R randomForests में वर्गीकरण के लिए थ्रेसहोल्ड कैसे बदलें?

सभी स्पीशीज डिस्ट्रीब्यूशन मॉडलिंग साहित्य से पता चलता है कि जब किसी ऐसे मॉडल का उपयोग करते हुए प्रजातियों की मौजूदगी / अनुपस्थिति की भविष्यवाणी की जाती है, जो संभाव्यता (उदाहरण के लिए, रैंडमफॉरेस्ट्स) का उपयोग करते हैं, तो थ्रेशोल्ड प्रोबेबिलिटी का चुनाव जिसके द्वारा वास्तव में उपस्थिति या अनुपस्थिति …

10 r classification random-forest threshold

3

लॉजिस्टिक रिग्रेशन के लिए फिट के बायेसियन अच्छाई की कल्पना कैसे करें

एक बायेसियन लॉजिस्टिक रिग्रेशन समस्या के लिए, मैंने एक पश्चवर्ती भविष्यवाणिय वितरण बनाया है। मैं भविष्य कहनेवाला वितरण से नमूना लेता हूं और प्रत्येक अवलोकन के लिए (0,1) के हजारों नमूने प्राप्त करता हूं। उदाहरण के लिए, अच्छाई के लायक होने का दृश्य दिलचस्प नहीं है: यह प्लॉट 10 000 …

10 bayesian data-visualization classification goodness-of-fit binary-data

1

अनोवा (और ड्रॉप 1) जीएलएमएम के लिए अलग-अलग उत्तर क्यों प्रदान करते हैं?

मेरे पास फॉर्म का GLMM है: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) जब मैं उपयोग करता हूं drop1(model, test="Chi"), तो मुझे Anova(model, type="III")कार के पैकेज से उपयोग करने की तुलना में अलग-अलग परिणाम मिलते हैं या summary(model)। ये उत्तरार्द्ध दो ही जवाब …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

3

शब्द "एक मॉडल सीखो" कहाँ से आया था

अक्सर मैंने सुना है कि डेटा खनिक इस शब्द का उपयोग करते हैं। एक सांख्यिकीविद् के रूप में, जिन्होंने वर्गीकरण की समस्याओं पर काम किया है, मैं "ट्रेन ए क्लासिफायर" शब्द से परिचित हूं और मेरा मानना है कि "एक मॉडल सीखें" का मतलब एक ही बात है। मुझे "ट्रेन …

10 classification data-mining terminology model

1

डेंड्रोग्राम क्लस्टरिंग के लिए सहसंबंधी सहसंबंध

डेंड्रोग्राम क्लस्टरिंग के संदर्भ पर विचार करें। आइए हम मूल भिन्नताओं को व्यक्तियों के बीच की दूरी कहते हैं । डेंड्रोग्राम के निर्माण के बाद, हम दो व्यक्तियों के बीच केपहेटिक असमानता को उन समूहों के बीच की दूरी के रूप में परिभाषित करते हैं, जिनसे ये व्यक्ति जुड़े हैं। …

10 clustering classification

3

सांख्यिकीय महत्व का उपयोग करके दो अलग-अलग मॉडलों की सटीकता की तुलना कैसे करें

मैं समय श्रृंखला भविष्यवाणी पर काम कर रहा हूं। मेरे पास दो डेटा सेट डी 1 = { एक्स1, एक्स2, । । । । एक्सn}डी1={एक्स1,एक्स2,।।।।एक्सn}D1=\{x_1, x_2,....x_n\} और डी 2 = { एक्सn+ 1 , xn+ 2 , एक्सn+ 3 , । । । । , एक्सn+ के }डी2={एक्सn+1,एक्सn+2,एक्सn+3,।।।।,एक्सn+क}D2=\{x_n+1, x_n+2, x_n+3,...., …

10 time-series machine-learning statistical-significance classification model-evaluation

classification पर टैग किए गए जवाब