सांख्यिकी और बिग डेटा dataset

5

मशीन लर्निंग में पदानुक्रमित / नेस्टेड डेटा से कैसे निपटें

मैं अपनी समस्या को एक उदाहरण से समझाता हूँ। मान लीजिए कि आप किसी व्यक्ति की आय का अनुमान लगाना चाहते हैं, जो कुछ विशेषताएं बताती है: {आयु, लिंग, देश, क्षेत्र, शहर}। आपके पास एक प्रशिक्षण डाटासेट है train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

2

"आइरिस" डेटा सेट के कौन से पहलू इसे उदाहरण / शिक्षण / परीक्षण डेटा सेट के रूप में सफल बनाते हैं

"आइरिस" डाटासेट शायद यहां ज्यादातर लोगों के लिए परिचित है - यह विहित परीक्षण डेटा सेट में से एक और डेटा दृश्य से मशीन सीखने के लिए सब कुछ के लिए एक उदाहरण के जाने के लिए डाटासेट है। उदाहरण के लिए, इस प्रश्न में सभी ने उपचार द्वारा अलग …

28 dataset

1

एक लैमर मॉडल से प्रभावों की पुनरावृत्ति की गणना

मैं सिर्फ इस पेपर में आया था , जो बताता है कि मिश्रित प्रभाव मॉडलिंग के माध्यम से माप की पुनरावृत्ति (उर्फ विश्वसनीयता, उर्फ इंट्राक्लास सहसंबंध) की गणना कैसे की जाती है। आर कोड होगा: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

क्या स्वतंत्रता की डिग्री एक गैर-पूर्णांक संख्या हो सकती है?

जब मैं GAM का उपयोग करता हूं, तो यह मुझे अवशिष्ट डीएफ देता है (कोड में अंतिम पंक्ति)। इसका क्या मतलब है? GAM उदाहरण से परे, सामान्य तौर पर, क्या स्वतंत्रता की डिग्री की संख्या एक गैर-पूर्णांक संख्या हो सकती है?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

9

सांख्यिकीविद क्या करते हैं जो स्वचालित नहीं हो सकते?

क्या सॉफ्टवेयर अंततः सांख्यिकीविदों को अप्रचलित बना देगा? क्या किया जाता है जो कंप्यूटर में प्रोग्राम नहीं किया जा सकता है?

26 machine-learning dataset careers

4

एक समीक्षक के रूप में, क्या मैं डेटा और कोड के अनुरोध को सही ठहरा सकता हूं, भले ही वह जर्नल उपलब्ध न हो?

जैसा कि विज्ञान को प्रतिलिपि प्रस्तुत करने योग्य होना चाहिए, परिभाषा के अनुसार, यह मान्यता बढ़ रही है कि डेटा और कोड प्रजनन के लिए येलो राउंडटेबल द्वारा चर्चा किए गए अनुसार प्रतिलिपि प्रस्तुत करने का एक अनिवार्य घटक है । उस पत्रिका के लिए एक पांडुलिपि की समीक्षा करने …

23 dataset validation reproducible-research journals

2

सामान्य डेटासेट के लिए डेटा वृद्धि तकनीक?

कई मशीन सीखने के अनुप्रयोगों में, तथाकथित डेटा वृद्धि विधियों ने बेहतर मॉडल बनाने की अनुमति दी है। उदाहरण के लिए, बिल्लियों और कुत्तों की छवियों का एक प्रशिक्षण सेट मान लें । घूर्णन, मिररिंग, कंट्रास्ट को एडजस्ट करने आदि से मूल लोगों से अतिरिक्त चित्र उत्पन्न करना संभव है।100100100 …

21 machine-learning predictive-models dataset independence data-augmentation

4

पीसीए स्पेस पर एक नया वेक्टर कैसे प्रोजेक्ट करें?

प्रमुख घटक विश्लेषण (पीसीए) करने के बाद, मैं पीसीए अंतरिक्ष पर एक नया वेक्टर प्रोजेक्ट करना चाहता हूं (अर्थात पीसीए समन्वय प्रणाली में इसके निर्देशांक ढूंढें)। मैंने पीसी भाषा में पीसीए का उपयोग करके गणना की है prcomp। अब मुझे पीसीए रोटेशन मैट्रिक्स द्वारा अपने वेक्टर को गुणा करने में …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

9

ओवरफिटिंग और अंडरफिटिंग

मैंने ओवरफिटिंग और अंडरफिटिंग के बारे में कुछ शोध किया है, और मैंने समझा है कि वे वास्तव में क्या हैं, लेकिन मैं इसके कारणों का पता नहीं लगा सकता। ओवरफिटिंग और अंडरफिटिंग के मुख्य कारण क्या हैं? हम एक मॉडल को प्रशिक्षित करने में इन दो समस्याओं का सामना …

20 machine-learning dataset overfitting

1

मशीन लर्निंग एल्गोरिदम में लापता डेटा और विरल डेटा के बीच अंतर

विरल डेटा और लापता डेटा के बीच मुख्य अंतर क्या हैं? और यह मशीन सीखने को कैसे प्रभावित करता है? अधिक विशेष रूप से, स्पार्क डेटा और गुम डेटा का वर्गीकरण एल्गोरिदम और रिग्रेशन (संख्याओं की भविष्यवाणी) के प्रकारों पर क्या प्रभाव पड़ता है। मैं एक स्थिति के बारे में …

20 machine-learning dataset missing-data sparse

1

दूर की निगरानी: पर्यवेक्षण, अर्ध-पर्यवेक्षण, या दोनों?

"दूर का पर्यवेक्षण" एक सीखने की योजना है जिसमें एक क्लासिफायरियर को एक कमजोर लेबल प्रशिक्षण सेट दिया जाता है (प्रशिक्षण डेटा स्वचालित रूप से हेयूरिस्टिक्स / नियमों के आधार पर लेबल किया जाता है)। मुझे लगता है कि दोनों पर्यवेक्षित शिक्षण, और अर्ध-पर्यवेक्षित शिक्षण में ऐसे "दूर के पर्यवेक्षण" …

20 machine-learning data-mining dataset references unsupervised-learning

5

बुनियादी मशीन लर्निंग एल्गोरिदम सीखने के लिए कुछ अच्छे डेटासेट क्या हैं और क्यों?

मैं मशीन सीखने के लिए नया हूं और कुछ डेटासेट की तलाश कर रहा हूं जिसके माध्यम से मैं अलग-अलग मशीन लर्निंग एल्गोरिदम (डिसीजन ट्रीज, बूस्टिंग, एसवीएम और न्यूरल नेटवर्क्स) के बीच अंतर की तुलना और विरोधाभास कर सकता हूं। मुझे ऐसे डेटासेट कहां मिल सकते हैं? डेटासेट पर विचार …

19 machine-learning dataset

4

उपचार से प्रभावित कोवरिएट के साथ अच्छे डेटा उदाहरण की आवश्यकता होती है

मैंने बहुत सारे आर डेटासेट, डीएएसएल में पोस्टिंग और अन्य जगहों पर देखा है, और प्रयोगात्मक डेटा के लिए सहसंयोजक के विश्लेषण के दिलचस्प डेटासेट के बहुत अच्छे उदाहरण नहीं मिल रहे हैं। स्टेटबुक पाठ्यपुस्तकों में कंट्रोल्ड डेटा के साथ कई "टॉय" डेटासेट हैं। मैं एक उदाहरण रखना चाहता हूँ …

19 dataset ancova predictor

6

पूल पार अनुभागीय डेटा और पैनल डेटा के बीच अंतर क्या है?

वे समान लगते हैं। क्या वे एक ही चीज हैं लेकिन सिर्फ अलग-अलग नामों से संदर्भित हैं?

19 regression dataset econometrics

2

ओवरसाइम्ड इम्बैलेंस डेटा पर परीक्षण वर्गीकरण

मैं गंभीर रूप से असंतुलित डेटा पर काम कर रहा हूं। साहित्य में, री-सैंपलिंग (ओवर- या अंडर-सैंपलिंग) का उपयोग करके डेटा को फिर से संतुलित करने के लिए कई तरीकों का उपयोग किया जाता है। दो अच्छे दृष्टिकोण हैं: SMOTE: सिंथेटिक माइनॉरिटी ओवर-सैंपलिंग TEchnique ( SMOTE ) ADASYN: असंतुलित शिक्षण …

19 classification dataset resampling unbalanced-classes oversampling

dataset पर टैग किए गए जवाब