सांख्यिकी और बिग डेटा classification

1

अनियंत्रित श्रेणीबद्ध भविष्यवक्ता चर के स्तरों की संख्या कम करना

मैं एक क्लासिफायरियर को प्रशिक्षित करना चाहता हूं, एसवीएम या यादृच्छिक वन, या किसी अन्य क्लासिफायरियर को कहना चाहता हूं। डेटासेट में एक विशेषता 1000 स्तरों वाला एक श्रेणीगत चर है। इस चर में स्तरों की संख्या को कम करने का सबसे अच्छा तरीका क्या है। R combine.levels()में Hmisc पैकेज …

11 classification svm random-forest many-categories

2

ऑडियो वर्गीकरण के लिए एक दृढ़ गहन विश्वास नेटवर्क को कैसे समझा जाए?

"में श्रेणीबद्ध अभ्यावेदन की स्केलेबल के चलते किसी सीखने के लिए Convolutional गहरे विश्वास नेटवर्क ली एट द्वारा"। अल। ( पीडीएफ ) रूपांतरण डीबीएन प्रस्तावित हैं। इसके अलावा छवि वर्गीकरण के लिए विधि का मूल्यांकन किया जाता है। यह तार्किक लगता है, क्योंकि प्राकृतिक स्थानीय छवि विशेषताएं हैं, जैसे छोटे …

11 classification unsupervised-learning intuition deep-belief-networks

3

हमें एक के-निकटतम पड़ोसी क्लासिफायर फिट करने की आवश्यकता क्यों है?

जैसा कि मैंने समझा, k-NN एक आलसी सीखने वाला एल्गोरिथ्म है और इसे प्रशिक्षण चरण की आवश्यकता नहीं है। तो हमें .fit()स्केलेर के साथ उपयोग करने की आवश्यकता क्यों है और जब हम इसका उपयोग करते हैं तो क्या होता है?

11 classification scikit-learn k-nearest-neighbour

1

आर / एमजीसीवीवी: क्यों टी () और टीआई () टेंसर उत्पाद विभिन्न सतहों का उत्पादन करते हैं?

mgcvके लिए पैकेज Rफिटिंग टेन्सर उत्पाद बातचीत के लिए दो कार्य करता है: te()और ti()। मैं दोनों के बीच श्रम के बुनियादी विभाजन को समझता हूं (गैर-रैखिक बातचीत को फिट करना बनाम इस बातचीत को मुख्य प्रभावों और एक इंटरैक्शन में विघटित करना)। क्या मुझे समझ नहीं आता क्यों है …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

स्ट्रिंग पैटर्न सीखने के लिए मशीन लर्निंग तकनीक

मेरे पास शब्दों की एक सूची है, जो विभिन्न स्वनिर्धारित श्रेणियों से संबंधित हैं। प्रत्येक श्रेणी का अपना एक पैटर्न होता है (उदाहरण के लिए किसी के पास विशेष वर्णों के साथ एक निश्चित लंबाई होती है, अन्य वर्ण मौजूद होते हैं जो केवल "शब्द", ...) की इस श्रेणी में …

11 machine-learning classification similarities supervised-learning

1

क्या तंत्रिका नेटवर्क आमतौर पर प्रशिक्षण के दौरान "किक" करने में थोड़ा समय लेते हैं?

मैं पीछे प्रसार का उपयोग करके, वर्गीकरण के लिए एक गहरे तंत्रिका नेटवर्क को प्रशिक्षित करने की कोशिश कर रहा हूं। विशेष रूप से, मैं Tensor Flow पुस्तकालय का उपयोग करके, छवि वर्गीकरण के लिए एक दृढ़ तंत्रिका नेटवर्क का उपयोग कर रहा हूं। प्रशिक्षण के दौरान, मैं कुछ अजीब …

11 machine-learning classification neural-networks conv-neural-network tensorflow

3

समायोज्य परिशुद्धता बनाम याद के साथ वर्गीकरण

मैं एक द्विआधारी वर्गीकरण समस्या पर काम कर रहा हूं जहां झूठी सकारात्मकता न होना बहुत महत्वपूर्ण है; बहुत सारे झूठे नकारात्मक हैं ठीक है। मैंने उदाहरण के लिए स्केलेर में क्लासिफायर का एक गुच्छा इस्तेमाल किया है, लेकिन मुझे लगता है कि उनमें से कोई भी सटीक-रिकॉल ट्रेडऑफ को …

11 classification precision-recall

2

Adaboost निर्णय पेड़ों के साथ क्यों?

मैं विशेष रूप से वर्गीकरण कार्यों और विशेष रूप से Adaboost के लिए एल्गोरिदम को बढ़ावा देने पर थोड़ा पढ़ रहा हूं। मैं समझता हूं कि Adaboost का उद्देश्य कई "कमजोर शिक्षार्थियों" को लेना है, और प्रशिक्षण डेटा पर पुनरावृत्तियों के सेट के माध्यम से, कक्षाओं का अनुमान लगाने के …

11 machine-learning classification algorithms boosting

3

सटीक-रिकॉल वक्र के लिए एक अच्छा AUC क्या है?

क्योंकि मेरे पास बहुत असंतुलित डेटासेट (9% सकारात्मक परिणाम) हैं, मैंने फैसला किया कि एक सटीक-रिकॉल वक्र ROC वक्र की तुलना में अधिक उपयुक्त था। मैंने पीआर वक्र (.49, यदि आप रुचि रखते हैं) के तहत क्षेत्र का अनुरूप सारांश माप प्राप्त किया, लेकिन इसकी व्याख्या कैसे करें, इसके बारे …

11 classification precision-recall auc

1

जेफ्रीस मैटूसिटा दूरी के पेशेवरों

मेरे द्वारा पढ़े जा रहे कुछ कागजों के अनुसार, जेफ़्रीज़ और माटूसिटा दूरी आमतौर पर उपयोग की जाती है। लेकिन मुझे इसके बारे में ज्यादा जानकारी नीचे के फॉर्मूले के अलावा नहीं मिली JMD (x, y) =∑(xi−−√2−yi−−√2)2−−−−−−−−−−−−−√2∑(xi2−yi2)22\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2} यह वर्गमूल को छोड़कर यूक्लिडियन दूरी के समान है E (x, y) =∑ …

11 classification k-nearest-neighbour euclidean

1

हम दुर्लभ घटनाओं की भविष्यवाणी कैसे करते हैं?

मैं एक बीमा जोखिम पूर्वानुमान मॉडल विकसित करने पर काम कर रहा हूं। ये मॉडल "दुर्लभ घटनाओं" जैसे एयरलाइन नो-शो भविष्यवाणी, हार्डवेयर दोष का पता लगाने, आदि जैसे हैं। जैसा कि मैंने अपना डेटा सेट तैयार किया, मैंने वर्गीकरण लागू करने की कोशिश की, लेकिन मैं नकारात्मक मामलों के उच्च …

11 classification predictive-models scikit-learn poisson-process

1

एक दुर्लभ घटना लॉजिस्टिक प्रतिगमन के लिए कटऑफ़ संभावना कैसे चुनें

मेरे पास 1000 पॉज़िटिव के साथ 100,000 अवलोकन (9 डमी इंडिकेटर वैरिएबल) हैं। लॉजिस्टिक रिग्रेशन इस मामले में ठीक काम करना चाहिए, लेकिन कटऑफ संभावना मुझे पहेली। आम साहित्य में, हम 1s और 0s की भविष्यवाणी करने के लिए 50% कटऑफ चुनते हैं। मैं ऐसा नहीं कर सकता क्योंकि मेरा …

11 regression logistic classification generalized-linear-model roc

3

पहला मुख्य घटक अलग-अलग कक्षाएं नहीं करता है, लेकिन अन्य पीसी करते हैं; वो कैसे संभव है?

मैंने पीसीए को 17 मात्रात्मक चर पर चलाया, ताकि चर का एक छोटा सेट प्राप्त किया जा सके, जो कि प्रमुख घटक हैं, जिसका उपयोग दो वर्गों में वर्गीकरण उदाहरणों के लिए पर्यवेक्षित मशीन सीखने में किया जाता है। PCA के बाद डेटा में विचरण के 31% के लिए PC1 …

11 machine-learning classification pca dimensionality-reduction

4

अनिश्चित श्रेणी के लेबल के लिए क्लासिफायरियर

मान लीजिए कि मेरे पास वर्ग लेबल से जुड़े उदाहरण हैं। इससे कोई फर्क नहीं पड़ता कि इन उदाहरणों को कैसे लेबल किया गया था, लेकिन उनकी कक्षा की सदस्यता कितनी निश्चित है। प्रत्येक संस्थान ठीक एक वर्ग के हैं। मान लें कि मैं प्रत्येक वर्ग सदस्यता की निश्चित मात्रा …

11 classification weka uncertainty

1

यादृच्छिक वन एल्गोरिदम चरणों के पीछे प्रेरणा

एक यादृच्छिक वन के निर्माण के लिए मैं जिस विधि से परिचित हूं वह इस प्रकार है: ( http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm से ) जंगल में एक पेड़ बनाने के लिए हम: बूटस्ट्रैप आकार N का एक नमूना जहां N हमारे प्रशिक्षण सेट का आकार है। इस पेड़ के लिए प्रशिक्षण सेट के …

11 machine-learning classification random-forest

classification पर टैग किए गए जवाब