सांख्यिकी और बिग डेटा sampling

2

छोटे नमूने-आकार के डेटा के लिए प्रशिक्षण, क्रॉस-सत्यापन, और परीक्षण सेट आकार कैसे चुनें?

मान लें कि मेरे पास एक छोटा नमूना आकार है, जैसे कि एन = 100, और दो वर्ग। मुझे मशीन लर्निंग के लिए प्रशिक्षण, क्रॉस-सत्यापन, और परीक्षण सेट आकार कैसे चुनना चाहिए? मैं सहजता से चुनूंगा प्रशिक्षण सेट आकार 50 के रूप में क्रॉस सत्यापन सेट आकार 25, और 25 …

10 machine-learning sampling svm cross-validation sample-size

3

अमेरिकी समुदाय सर्वेक्षण विविधता डेटा को फिर से भारित करने में त्रुटि के मार्जिन को कैसे प्रभावित करेगा?

पृष्ठभूमि: मेरा संगठन वर्तमान में अमेरिकी श्रम सर्वेक्षण (अमेरिकी जनगणना ब्यूरो द्वारा एक सर्वेक्षण परियोजना) के आधार पर उन समूहों के लिए कुल श्रम शक्ति उपलब्धता के लिए अपने कर्मचारियों की विविधता के आंकड़ों (विकलांगों,% महिलाओं,% दिग्गजों) के साथ तुलना करता है। यह एक गलत मानदंड है, क्योंकि हमारे पास …

10 confidence-interval sampling data-transformation diversity

1

गॉसियन उच्च आदेश क्षणों के साथ वितरण की तरह

अज्ञात माध्य और विचरण के साथ गौसियन वितरण के लिए, मानक घातांक परिवार के रूप में पर्याप्त आँकड़े । मैं एक वितरण है कि है टी ( x ) = ( एक्स , एक्स 2 , । । । , X 2 एन )टी( x ) = ( x , …

10 normal-distribution sampling exponential-family

1

अनोवा (और ड्रॉप 1) जीएलएमएम के लिए अलग-अलग उत्तर क्यों प्रदान करते हैं?

मेरे पास फॉर्म का GLMM है: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) जब मैं उपयोग करता हूं drop1(model, test="Chi"), तो मुझे Anova(model, type="III")कार के पैकेज से उपयोग करने की तुलना में अलग-अलग परिणाम मिलते हैं या summary(model)। ये उत्तरार्द्ध दो ही जवाब …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

मात्रात्मक की परिभाषा

एन सैंपल वैल्यू को देखते हुए, "पी-थ-क्वांटाइल ऑफ द सैम्पल वैल्यू" का क्या अर्थ है?

10 sampling

3

उच्च-आयामी फ़ंक्शन के अपेक्षित मूल्य का मूल्यांकन करने के लिए MCMC का उपयोग करना

मैं एक शोध परियोजना पर काम कर रहा हूं जो अनुकूलन से संबंधित है और हाल ही में इस सेटिंग में एमसीएमसी का उपयोग करने का विचार था। दुर्भाग्य से, मैं MCMC विधियों के लिए काफी नया हूं इसलिए मेरे पास कई प्रश्न थे। मैं समस्या का वर्णन करके और …

10 sampling mcmc matlab expected-value

2

गैर-नकारात्मक पूर्णांक पर असतत वितरण से नमूना कैसे लें?

मेरे पास निम्न असतत वितरण है, जहां ज्ञात स्थिरांक हैं:α,βα,β\alpha,\beta p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,…p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,… p(x;\alpha,\beta) = \frac{\text{Beta}(\alpha+1, \beta+x)}{\text{Beta}(\alpha,\beta)} \;\;\;\;\text{for } x = 0,1,2,\dots इस वितरण से कुशलता से नमूना लेने के लिए कुछ दृष्टिकोण क्या हैं?

10 sampling mcmc computational-statistics importance-sampling rejection-sampling

3

गैर-यादृच्छिक नमूने का रैंडमाइजेशन

प्रायोगिक अध्ययन में भाग लेने के लिए मनोवैज्ञानिक विज्ञापनों को देखकर मैं हमेशा थोड़ा आश्चर्यचकित रह जाता हूं। निश्चित रूप से, जो लोग इन विज्ञापनों का जवाब देते हैं, वे बेतरतीब ढंग से नमूना नहीं होते हैं और इसलिए वे स्व-चयनित आबादी हैं। क्योंकि यह ज्ञात है कि यादृच्छिककरण स्व-चयन …

10 sampling psychology random-allocation

2

मोंटे कार्लो नमूनाकरण के लिए मार्कोव श्रृंखला "सर्वश्रेष्ठ" नमूना आधारित है? क्या कोई वैकल्पिक योजनाएं उपलब्ध हैं?

मार्कोव चेन मोंटे कार्लो मार्कोव श्रृंखलाओं पर आधारित एक विधि है जो हमें गैर-मानक वितरण से नमूने (एक मोंटे कार्लो सेटिंग में) प्राप्त करने की अनुमति देती है जिससे हम सीधे नमूने नहीं खींच सकते हैं। मेरा सवाल है कि मोंटे कार्लो नमूनाकरण के लिए मार्कोव श्रृंखला "अत्याधुनिक" क्यों है। …

10 sampling mcmc monte-carlo markov-chain stochastic-approximation

1

फोन बुक से नमूना लेने के बारे में एक कहानी का संदर्भ

मैं आज किसी के साथ नमूने के बारे में बात कर रहा था और एक विशेष कानूनी मामले में फोन बुक से व्यवस्थित नमूना लेने की सिफारिश करने वाले कुछ बहुत ही सम्मानित सांख्यिकीविदों के बारे में एक कहानी याद है। मुझे याद है कि अदालत में जज की तरह …

10 sampling references history

4

समानांतर में प्रतिरोधों की भिन्नता

मान लीजिए कि आपके पास रेसिस्टर्स R का एक सेट है, जो सभी माध्य μ और विचरण mean के साथ वितरित किए गए हैं। निम्नलिखित लेआउट वाले सर्किट के एक सेक्शन पर विचार करें: (r) || (r + r) || (आर + r + r)। प्रत्येक भाग का बराबर प्रतिरोध …

10 probability sampling variance

1

रेखीय प्रतिगमन श्रेणीगत चर "छिपा हुआ" मान

यह सिर्फ एक उदाहरण है कि मैं कई बार आया हूं, इसलिए मेरे पास कोई नमूना डेटा नहीं है। R में एक रैखिक प्रतिगमन मॉडल चलाना: a.lm = lm(Y ~ x1 + x2) x1एक सतत चर है। x2श्रेणीबद्ध है और इसके तीन मान हैं "उदा", "मध्यम" और "उच्च"। हालाँकि R …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

2

बड़े समग्र डेटासेट से प्रतिनिधि नमूना कैसे सेट करें?

नमूना सेट बनाने के लिए सांख्यिकीय तकनीक क्या हैं, जो पूरी आबादी का प्रतिनिधि है (ज्ञात आत्मविश्वास स्तर के साथ)? इसके अलावा, कैसे सत्यापित करें, यदि नमूना समग्र डेटासेट में फिट बैठता है? क्या यह संभव है, संपूर्ण डेटासेट को पार्स किए बिना (जो अरबों रिकॉर्ड हो सकते हैं)?

10 sampling sample-size validation

1

कौन सा गहन शिक्षण मॉडल उन श्रेणियों को वर्गीकृत कर सकता है जो पारस्परिक रूप से अनन्य नहीं हैं

उदाहरण: मेरे पास नौकरी के विवरण में एक वाक्य है: "यूके में जावा वरिष्ठ इंजीनियर"। मैं इसे 2 श्रेणियों के रूप में भविष्यवाणी करने के लिए एक गहरे शिक्षण मॉडल का उपयोग करना चाहता हूं: English और IT jobs। यदि मैं पारंपरिक वर्गीकरण मॉडल का उपयोग करता हूं, तो यह …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

1

संभावना है कि बूटस्ट्रैप नमूना मूल नमूने के समान ही है

बस कुछ तर्क की जाँच करना चाहते हैं। यदि मेरा मूल नमूना आकार और मैं इसे बूटस्ट्रैप करता हूं, तो मेरी विचार प्रक्रिया इस प्रकार है:nnn 1n1n\frac{1}{n} मूल नमूने से निकाले गए किसी भी अवलोकन का मौका है। यह सुनिश्चित करने के लिए कि अगला ड्रा पूर्व नमूना अवलोकन नहीं …

9 sampling bootstrap sample-size subsampling

sampling पर टैग किए गए जवाब