सांख्यिकी और बिग डेटा

2

दंडित प्रतिगमन मॉडल से आर-स्क्वेर और सांख्यिकीय महत्व का अनुमान लगाना

मैं एक डाटासेट के लिए गुणांक के सिकुड़े हुए अनुमानों को प्राप्त करने के लिए दंडित आर पैकेज का उपयोग कर रहा हूं जहां मेरे पास बहुत सारे भविष्यवक्ता हैं और जिनमें से महत्वपूर्ण हैं थोड़ा ज्ञान। जब मैंने ट्यूनिंग पैरामीटर L1 और L2 को चुना है और मैं अपने …

20 regression lasso stepwise-regression ridge-regression

3

चौकोर टी वेरिएंट का योग क्या है?

चलो के साथ एक छात्र टी वितरण से आईआईडी तैयार किया जा एन , स्वतंत्रता की डिग्री मध्यम आकार के लिए n (कहते हैं कि 100 से कम)। निर्धारित टी = Σ 1 ≤ मैं ≤ कश्मीर टी 2 मैं है लगभग एक ची-वर्ग के साथ के रूप में वितरित …

20 chi-squared central-limit-theorem t-distribution

2

एक अजगर matplotlib boxplot में टिक्स का नाम कैसे दें

ताला लगा हुआ । यह सवाल और इसके जवाब बंद हैं क्योंकि यह सवाल ऑफ-टॉपिक है लेकिन इसका ऐतिहासिक महत्व है। यह वर्तमान में नए उत्तरों या इंटरैक्शन को स्वीकार नहीं कर रहा है। Python matplotlib में एक बॉक्सप्लॉट कमांड है । आम तौर पर, ग्राफ के सभी हिस्से संख्यात्मक …

20 python matplotlib

14

आसानी से मजबूत डेटा की खोज के लिए सॉफ्टवेयर

स्प्रेडशीट तबाही से लड़ने के मेरे प्रयासों में, मैं अक्सर अधिक मजबूत साधनों जैसे कि सच्चे सांख्यिकी सॉफ्टवेयर (आर, स्टाटा, और इसी तरह) को आगे बढ़ाने में इंजील हूं। हाल ही में, मुझे इस दृश्य पर किसी ऐसे व्यक्ति द्वारा चुनौती दी गई थी जिसने फ्लैट से कहा था कि …

20 data-visualization software

2

आरओसी वक्र विश्लेषण में सहसंयोजकों के लिए समायोजन

यह प्रश्न एक बहु-आयामी स्क्रीनिंग प्रश्नावली पर कट-ऑफ स्कोर का अनुमान लगाने के बारे में है, जो कि सहसंबद्ध तराजू की उपस्थिति में एक बाइनरी एंडपॉइंट की भविष्यवाणी करता है। मुझे संबद्ध उपकेंद्रों के लिए नियंत्रण के हित के बारे में पूछा गया था जब एक माप पैमाने (व्यक्तित्व लक्षण) …

20 epidemiology roc

3

कई प्रतिरूपण का उपयोग करते समय मिश्रित-प्रभाव मॉडल के एक विचरण घटक के लिए आत्मविश्वास अंतराल कैसे संयोजित करें

मल्टीपल इंप्यूटेशन (एमआई) का तर्क एक बार नहीं बल्कि कई (आमतौर पर एम = 5) बार गुम मूल्यों को लागू करना है, जिसके परिणामस्वरूप एम पूरा डेटासेट होता है। एम पूरा किए गए डेटासेट का विश्लेषण तब पूर्ण-डेटा विधियों के साथ किया जाता है, जिस पर एम अनुमान और उनकी …

20 modeling confidence-interval mixed-model data-imputation

6

एनोवा और एंकोवा को समझने के लिए अच्छा संसाधन?

मैं एक पेपर के लिए प्रयोग कर रहा हूं और मैं यह समझने के लिए एक दिलचस्प पुस्तक / वेबसाइट की तलाश कर रहा हूं कि एनोवा और एएनसीओवीए कैसे काम करते हैं। मेरे पास एक अच्छी गणित पृष्ठभूमि है, इसलिए मुझे एक वल्गर स्पष्टीकरण की आवश्यकता नहीं है। मैं …

20 anova references ancova

2

दो-तरफ़ा एनोवा में बातचीत के लिए NULL परिकल्पना क्या है?

मान लें कि हमारे दो कारक हैं (A और B), प्रत्येक दो स्तरों (A1, A2 और B1, B2) और एक प्रतिक्रिया चर (y) के साथ है। जब दो तरह का एनोवा प्रदर्शन कर रहा हो: y~A+B+A*B हम तीन अशक्त परिकल्पना का परीक्षण कर रहे हैं: कारक A के साधनों में …

20 hypothesis-testing anova

3

रैखिक तरीकों के लिए "गिरी चाल" को लागू करना?

गिरी चाल कई शिक्षण मॉडेल (जैसे में प्रयोग किया जाता है SVM )। इसे पहली बार 1964 में "पैटर्न रिकॉग्निशन लर्निंग में संभावित फ़ंक्शन विधि की सैद्धांतिक नींव" में पेश किया गया था। विकिपीडिया परिभाषा कहती है कि यह है एक गैर-रैखिक समस्या को हल करने के लिए एक रैखिक-श्रेणीबद्ध …

20 machine-learning kernel-trick

4

धार के मामलों में सटीक और याद रखने के लिए सही मूल्य क्या हैं?

परिशुद्धता के रूप में परिभाषित किया गया है: p = true positives / (true positives + false positives) क्या यह सही है, जैसा कि true positivesऔर false positivesदृष्टिकोण 0, सटीक दृष्टिकोण 1? याद करने के लिए एक ही सवाल: r = true positives / (true positives + false negatives) मैं …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

बेतरतीब जंगल कैसे करता है बेतरतीब जंगल

मैं यादृच्छिक वन का विशेषज्ञ नहीं हूं, लेकिन मैं स्पष्ट रूप से समझता हूं कि यादृच्छिक वन के साथ प्रमुख मुद्दा (यादृच्छिक) वृक्ष पीढ़ी है। क्या आप मुझे समझा सकते हैं कि पेड़ कैसे पैदा होते हैं? (अर्थात वृक्ष निर्माण के लिए प्रयुक्त वितरण क्या है?) अग्रिम में धन्यवाद !

20 machine-learning r algorithms cart random-forest

6

क्या मेरा वेदरमैन सटीक है?

एक प्रश्न जो मुझे कुछ समय के लिए परेशान करता है, जिसे मैं नहीं जानता कि मुझे कैसे संबोधित करना है: हर दिन, मेरा मौसम विशेषज्ञ बारिश का एक प्रतिशत मौका देता है (मान लें कि इसकी गणना 9000 अंकों की है और उसने कभी कोई संख्या दोहराई नहीं है)। …

20 hypothesis-testing forecasting

4

कूपन कलेक्टर समय पर एक तंग कम बाध्य है?

क्लासिक कूपन कलेक्टर की समस्या में , यह सर्वविदित है कि समय बेतरतीब ढंग से चुने गए कूपन के एक सेट को पूरा करने के लिए आवश्यक है, , , और ।TTTnnnE[T]∼nlnnE[T]∼nln⁡nE[T] \sim n \ln n Var(T)∼n2Var(T)∼n2Var(T) \sim n^2पीआर ( टी> एन एलएनn + c n ) < ई- सीPr(T>nln⁡n+cn)<e−c\Pr(T …

20 probability probability-inequalities coupon-collector-problem

5

विषयों के परीक्षण के लिए पोस्ट-होक्स?

विषय परीक्षणों के लिए पोस्ट-होक्स के संचालन के लिए पसंदीदा तरीका क्या है? मैंने प्रकाशित काम देखा है जहां टकी के एचएसडी कार्यरत हैं लेकिन केपेल और मैक्सवेल एंड डेलाने की समीक्षा से पता चलता है कि इन डिज़ाइनों में गोलाकार का उल्लंघन त्रुटि अवधि को गलत बनाता है और …

20 r repeated-measures multiple-comparisons post-hoc sphericity

5

प्रतिगमन मॉडल निर्दिष्ट करने के लिए आप डेटा-आधारित मानदंड का उपयोग कब कर सकते हैं?

मैंने सुना है कि जब कई प्रतिगमन मॉडल विनिर्देशों (कहते हैं, ओएलएस में) को एक डेटासेट के लिए संभावनाओं के रूप में माना जाता है, इससे कई तुलनात्मक समस्याएं होती हैं और पी-मान और आत्मविश्वास अंतराल अब विश्वसनीय नहीं हैं। इसका एक चरम उदाहरण स्टेप वाइज रिग्रेशन है। मॉडल को …

20 regression frequentist multiple-comparisons