सांख्यिकी और बिग डेटा sample

25

स्वतंत्र रूप से उपलब्ध डेटा नमूनों का पता लगाना

मैं किसी भी उपसमूह की विशेषताओं के foreknowledge बिना आबादी के उपसमूहों को पहचानने और अलग करने के लिए डेटासेट का विश्लेषण और पार्स करने के लिए एक नई विधि पर काम कर रहा हूं। जबकि विधि कृत्रिम डेटा नमूनों (यानी विशेष रूप से जनसंख्या के सबसेट को पहचानने और …

98 dataset sample population teaching

5

जनसंख्या और नमूने में क्या अंतर है?

जनसंख्या और नमूने में क्या अंतर है? हर एक के लिए क्या सामान्य चर और आँकड़े उपयोग किए जाते हैं, और वे एक दूसरे से कैसे संबंधित हैं?

38 standard-deviation variance sample population

3

आर: रैंडम फ़ॉरेस्ट NaN / Inf को "विदेशी फ़ंक्शन कॉल" त्रुटि के बावजूद NaN के डेटासेट में बंद नहीं किया गया [बंद]

बन्द है। यह सवाल ऑफ टॉपिक है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न को अपडेट करें ताकि यह क्रॉस मान्य के लिए विषय पर हो । 2 साल पहले बंद हुआ । मैं एक डेटासेट पर एक क्रॉस वेरिफाइड …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

3

क्या होगा यदि आपका यादृच्छिक नमूना स्पष्ट रूप से प्रतिनिधि नहीं है?

क्या होगा यदि आप एक यादृच्छिक नमूना लेते हैं और आप देख सकते हैं कि यह स्पष्ट रूप से प्रतिनिधि नहीं है, जैसा कि हालिया प्रश्न में है । उदाहरण के लिए, क्या होगा यदि जनसंख्या वितरण 0 के आसपास सममित माना जाता है और आपके द्वारा बेतरतीब ढंग से …

28 sampling experiment-design inference sample

1

एक लैमर मॉडल से प्रभावों की पुनरावृत्ति की गणना

मैं सिर्फ इस पेपर में आया था , जो बताता है कि मिश्रित प्रभाव मॉडलिंग के माध्यम से माप की पुनरावृत्ति (उर्फ विश्वसनीयता, उर्फ इंट्राक्लास सहसंबंध) की गणना कैसे की जाती है। आर कोड होगा: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

क्या स्वतंत्रता की डिग्री एक गैर-पूर्णांक संख्या हो सकती है?

जब मैं GAM का उपयोग करता हूं, तो यह मुझे अवशिष्ट डीएफ देता है (कोड में अंतिम पंक्ति)। इसका क्या मतलब है? GAM उदाहरण से परे, सामान्य तौर पर, क्या स्वतंत्रता की डिग्री की संख्या एक गैर-पूर्णांक संख्या हो सकती है?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

9

मैं यह कैसे पता लगाऊं कि पिंग प्रतिक्रिया समय पर इस तरह का वितरण किस तरह का प्रतिनिधित्व करता है?

मैंने एक वास्तविक विश्व प्रक्रिया, नेटवर्क पिंग समय का नमूना लिया है। "गोल-यात्रा-समय" को मिलीसेकंड में मापा जाता है। परिणाम हिस्टोग्राम में प्लॉट किए जाते हैं: पिंग समय का न्यूनतम मूल्य है, लेकिन एक लंबी ऊपरी पूंछ है। मैं जानना चाहता हूं कि यह सांख्यिकीय वितरण क्या है, और इसके …

22 distributions sample-size sample normality-assumption distribution-identification

2

नमूना विचरण और नमूना विचरण के बीच अंतर क्या है?

नमूना विचरण और नमूना विचरण के बीच अंतर क्या है? वही लगते हैं। क्या वे नहीं हैं?

15 sampling variance sample

3

बूटस्ट्रैप: ओवरफिटिंग का मुद्दा

ड्राइंग द्वारा एक प्रदर्शन तथाकथित गैर पैरामीट्रिक बूटस्ट्रैप मान लीजिए आकार के नमूने मूल से प्रत्येक प्रतिस्थापन के साथ टिप्पणियों। मेरा मानना है कि यह प्रक्रिया आनुभविक cdf द्वारा संचयी वितरण समारोह का आकलन करने के बराबर है:BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function और फिर एक पंक्ति में अनुमानित cdf बार से टिप्पणियों का …

14 bootstrap sample-size sample small-sample finite-population

3

मतलब बीएमआई की गणना करने के लिए औसत लंबाई और औसत वजन का उपयोग करना?

यह मान्य मतलब लंबाई (उपयोग करने के लिए है hhh ) और मतलब वजन ( www एक दिया आबादी से)) मतलब बॉडी मास इंडेक्स की गणना करने के ( BMI=wh2BMI=wh2BMI = \frac{w}{h^2} ) उस आबादी के लिए?

13 mean sample population

4

क्या जनसंख्या की कोई मात्रात्मक संपत्ति "पैरामीटर" है?

मैं आँकड़ों और पैरामीटर के बीच के अंतर से अपेक्षाकृत परिचित हूँ। मैं एक आँकड़ों को नमूना डेटा में एक फ़ंक्शन को लागू करने से प्राप्त मूल्य के रूप में देखता हूं। हालांकि, मापदंडों के अधिकांश उदाहरण पैरामीट्रिक वितरण को परिभाषित करने से संबंधित हैं। एक सामान्य उदाहरण सामान्य वितरण …

13 estimation terminology sample population

1

बड़ा नमूना स्पर्शोन्मुख / सिद्धांत - देखभाल करने के लिए क्यों?

मुझे उम्मीद है कि इस प्रश्न को "बहुत सामान्य" के रूप में चिह्नित नहीं किया गया है और आशा है कि एक चर्चा शुरू हो जाती है जो सभी को लाभ देती है। आंकड़ों में, हम बड़े नमूना सिद्धांतों को सीखने में बहुत समय बिताते हैं। हम अपने आकलनकर्ताओं की …

13 sample asymptotics

1

लार्स बनाम लैस्सो के लिए वंश का समन्वय

लार्स का उपयोग करने के पेशेवरों और विपक्ष क्या हैं [1] बनाम एल -1-नियमित रैखिक प्रतिगमन फिटिंग के लिए समन्वित वंश का उपयोग करना? मुझे मुख्य रूप से प्रदर्शन के पहलुओं में दिलचस्पी है (मेरी समस्याएं Nसैकड़ों और हजारों की संख्या में हैं p। <20) हालांकि, किसी भी अन्य अंतर्दृष्टि …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

यादृच्छिक चर और यादृच्छिक नमूने के बीच अंतर क्या है?

जब मैं आँकड़े सीख रहा था तब इन दोनों अभिव्यक्तियों ने मुझे बहुत भ्रमित किया। यह मुझे लगता है कि वे पूरी तरह से अलग चीजें हैं। एक यादृच्छिक नमूना आबादी से एक नमूना लेने के लिए है, जबकि एक यादृच्छिक चर एक फ़ंक्शन की तरह है जो एक प्रयोग …

13 mathematical-statistics random-variable terminology sample

2

क्या कागल प्रतियोगिता सिर्फ संयोग से जीती हैं?

कैगल प्रतियोगिताओं में आयोजित आउट-टेस्ट टेस्ट के आधार पर अंतिम रैंकिंग निर्धारित की जाती है। एक आयोजित-आउट परीक्षण सेट एक नमूना है; यह मॉडलिंग की जा रही आबादी का प्रतिनिधि नहीं हो सकता है। चूंकि प्रत्येक सबमिशन एक परिकल्पना की तरह है, प्रतियोगिता को जीतने वाले एल्गोरिदम को कुल मिलाकर, …

12 machine-learning probability hypothesis-testing sample kaggle

sample पर टैग किए गए जवाब