सांख्यिकी और बिग डेटा validation

11

परीक्षण सेट और सत्यापन सेट के बीच अंतर क्या है?

मुझे यह भ्रामक लगा जब मैं Matlab में तंत्रिका नेटवर्क टूलबॉक्स का उपयोग करता हूं। इसने कच्चे डेटा को तीन भागों में विभाजित किया: प्रशिक्षण सेट सत्यापन सेट टेस्ट सेट मैं कई प्रशिक्षण या लर्निंग एल्गोरिदम में देखता हूं, डेटा को अक्सर 2 भागों में विभाजित किया जाता है, प्रशिक्षण …

431 machine-learning validation

10

होल्ड-आउट सत्यापन बनाम क्रॉस-सत्यापन

मेरे लिए, ऐसा लगता है कि होल्ड-आउट सत्यापन बेकार है। यही है, मूल डेटासेट को दो-भागों (प्रशिक्षण और परीक्षण) में विभाजित करना और परीक्षण स्कोर का सामान्यीकरण उपाय के रूप में उपयोग करना, कुछ हद तक बेकार है। K- गुना क्रॉस-वैधीकरण सामान्यीकरण के बेहतर सन्निकटन देता है (क्योंकि यह हर …

54 machine-learning cross-validation validation

2

"बड़े डेटा" से वैध निष्कर्ष कैसे निकालें?

"बिग डेटा" मीडिया में हर जगह है। हर कोई कहता है कि "बड़ा डेटा" 2012 के लिए बड़ी बात है, उदाहरण के लिए KDNuggets 2012 के लिए गर्म विषयों पर सर्वेक्षण । हालाँकि, मेरी यहाँ गहरी चिंताएँ हैं। बड़े डेटा के साथ, हर कोई बस कुछ भी पाने के लिए …

40 data-mining dataset large-data validation

3

क्लस्टरिंग विधि का चयन कैसे करें? एक क्लस्टर समाधान (विधि पसंद को वारंट करने के लिए) को कैसे मान्य किया जाए?

क्लस्टर विश्लेषण के साथ एक सबसे बड़ा मुद्दा यह है कि हम अलग-अलग निष्कर्ष निकालने के लिए हो सकते हैं, जब विभिन्न क्लस्टरिंग विधियों का उपयोग किया जाता है (पदानुक्रमित क्लस्टरिंग में विभिन्न लिंकेज विधियों सहित)। मैं इस पर आपकी राय जानना चाहूंगा - आप किस विधि का चयन करेंगे, …

35 clustering validation model-evaluation hierarchical-clustering

4

क्रॉस-वेलिडेशन के बाद आप 'परीक्षण' डेटासेट का उपयोग कैसे करते हैं?

कुछ व्याख्यान और ट्यूटोरियल में मैंने देखा है, वे आपके डेटा को तीन भागों में विभाजित करने का सुझाव देते हैं: प्रशिक्षण, सत्यापन और परीक्षण। लेकिन यह स्पष्ट नहीं है कि परीक्षण डेटासेट का उपयोग कैसे किया जाना चाहिए, और न ही यह दृष्टिकोण पूरे डेटा सेट पर क्रॉस-सत्यापन से …

25 machine-learning cross-validation validation

2

क्या अंतिम (उत्पादन तैयार) मॉडल को संपूर्ण डेटा पर या केवल प्रशिक्षण सेट पर प्रशिक्षित किया जाना चाहिए?

मान लीजिए कि मैंने प्रशिक्षण सेट पर कई मॉडलों को प्रशिक्षित किया, परीक्षण सेट पर क्रॉस सत्यापन सेट और मापा प्रदर्शन का उपयोग करके सबसे अच्छा एक का चयन करें। इसलिए अब मेरे पास एक अंतिम सर्वश्रेष्ठ मॉडल है। क्या मुझे प्रशिक्षण सेट पर प्रशिक्षित अपने सभी उपलब्ध डेटा या …

23 machine-learning validation regression-strategies

4

एक समीक्षक के रूप में, क्या मैं डेटा और कोड के अनुरोध को सही ठहरा सकता हूं, भले ही वह जर्नल उपलब्ध न हो?

जैसा कि विज्ञान को प्रतिलिपि प्रस्तुत करने योग्य होना चाहिए, परिभाषा के अनुसार, यह मान्यता बढ़ रही है कि डेटा और कोड प्रजनन के लिए येलो राउंडटेबल द्वारा चर्चा किए गए अनुसार प्रतिलिपि प्रस्तुत करने का एक अनिवार्य घटक है । उस पत्रिका के लिए एक पांडुलिपि की समीक्षा करने …

23 dataset validation reproducible-research journals

3

क्या हमें k- गुना क्रॉस-सत्यापन का उपयोग करते समय एक परीक्षण सेट की आवश्यकता है?

मैं k- गुना सत्यापन के बारे में पढ़ रहा हूं, और मैं यह सुनिश्चित करना चाहता हूं कि मैं समझता हूं कि यह कैसे काम करता है। मुझे पता है कि होल्डआउट पद्धति के लिए, डेटा को तीन सेटों में विभाजित किया जाता है, और परीक्षण सेट का उपयोग केवल …

21 cross-validation validation out-of-sample

4

हाइपरपरमेटर ट्यूनिंग क्रॉस-वेलिडेशन के बाहर कितना बुरा है?

मुझे पता है कि क्रॉस-वैलिडेशन के बाहर हाइपरपैरेट ट्यूनिंग करने से बाहरी वैधता का पक्षपाती-उच्च अनुमान हो सकता है, क्योंकि प्रदर्शन को मापने के लिए आप जो डेटासेट का उपयोग करते हैं, वही आप सुविधाओं को ट्यून करने के लिए उपयोग करते हैं। मैं सोच रहा हूँ कि यह एक …

20 cross-validation validation hyperparameter

2

बायसेपियन सोच ओवरफिटिंग के बारे में

मैंने पारंपरिक अक्सरवादी सांख्यिकीय डोमेन में पूर्वानुमान मॉडल को मान्य करने के लिए तरीकों और सॉफ्टवेयर के विकास के लिए बहुत समय समर्पित किया है । व्यवहार और शिक्षण में अधिक बायेसियन विचारों को रखने में मुझे गले लगाने के लिए कुछ महत्वपूर्ण अंतर दिखाई देते हैं। सबसे पहले, बेयसियन …

20 bayesian cross-validation predictive-models validation regression-strategies

3

हम नैट सिल्वर की भविष्यवाणियों की सटीकता का न्याय कैसे कर सकते हैं?

सबसे पहले, वह परिणामों की संभावना देता है। इसलिए, उदाहरण के लिए, उसका अमेरिकी चुनाव के लिए भविष्यवाणी वर्तमान में 82% क्लिंटन बनाम 18% ट्रम्प है। अब, भले ही ट्रम्प जीत जाए, मुझे कैसे पता चलेगा कि यह उस जीत का सिर्फ 18% हिस्सा नहीं था? दूसरी समस्या यह है …

19 forecasting prediction validation accuracy scoring-rules

2

कैलिब्रेटेडक्लासीफायरसीवी के साथ सहपाठियों को जांचने का सही तरीका

Scikit में CalibratedClassifierCV है , जो हमें एक विशेष X, y जोड़ी पर हमारे मॉडल को कैलिब्रेट करने की अनुमति देता है। यह भी स्पष्ट रूप से बताता है किdata for fitting the classifier and for calibrating it must be disjoint. यदि उन्हें निराश होना चाहिए, तो क्या क्लासिफायर को …

16 cross-validation scikit-learn validation train calibration

3

क्या मैं एक छोटे से सत्यापन सेट का उपयोग कर सकता हूं?

मैं डेटा को टेस्ट सेट और वैलिडेशन सेट में विभाजित करने के पीछे के तर्क को समझता हूं। मैं यह भी समझता हूं कि विभाजन का आकार स्थिति पर निर्भर करेगा लेकिन आम तौर पर 50/50 से 90/10 तक भिन्न होगा। मैंने वर्तनी को सही करने और ~ 5m वाक्यों …

15 machine-learning neural-networks validation

1

अशक्त परिकल्पना के तहत विनिमेय नमूनों के पीछे अंतर्ज्ञान क्या है?

क्रमपरिवर्तन परीक्षण (इसे रेंडमाइजेशन टेस्ट, री-रैंडमाइजेशन टेस्ट या एक सटीक परीक्षण भी कहा जाता है) बहुत उपयोगी होते हैं और उदाहरण के लिए आवश्यक सामान्य वितरण की धारणा को पूरा करने और काम में आने पर काम में आते t-testहैं। गैर-पैरामीट्रिक परीक्षण की तरह Mann-Whitney-U-testअधिक जानकारी खो जाएगी। हालांकि, इस …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

"बूटस्ट्रैप वेलिडेशन" के लिए प्रक्रिया क्या है (उर्फ "रेज़म्पलिंग क्रॉस-वेलिडेशन")?

"बूटस्ट्रैप वेलिडेशन" / "रीसम्प्लिंग क्रॉस-वेलिडेशन" मेरे लिए नया है, लेकिन इस प्रश्न के उत्तर से चर्चा की गई थी । मैं इसे इकट्ठा करता हूं इसमें 2 प्रकार के डेटा शामिल हैं: वास्तविक डेटा और सिम्युलेटेड डेटा, जहां सिम्युलेटेड डेटा का एक सेट वास्तविक डेटा से उत्पन्न होता है, जब …

15 cross-validation bootstrap validation resampling

validation पर टैग किए गए जवाब