सांख्यिकी और बिग डेटा

4

मान लीजिए हम NNN औसत दर्जे का चर, (a1,a2,…,aN)(a1,a2,…,aN)(a_1, a_2, \ldots, a_N) , हम एक नंबर करने के M>NM>NM > N माप की, और उसके बाद प्रदर्शन करना चाहते विलक्षण मूल्य अपघटन के लिए उच्चतम विचरण के कुल्हाड़ियों को खोजने के लिए परिणामों पर MMM , NNN -डायमेंशनल स्पेस में …

17 pca data-transformation normalization dimensionality-reduction svd

2

मैं संभावनाओं को प्राप्त करने के लिए लॉजिस्टिक रिग्रेशन बेटस + रॉ डेटा का उपयोग कैसे कर सकता हूं

मेरे पास एक मॉडल है (साहित्य से)। मेरे पास पूर्वानुमानित चरों के लिए कच्चा डेटा भी है। संभावनाएं प्राप्त करने के लिए मुझे क्या समीकरण का उपयोग करना चाहिए? मूल रूप से, मैं संभावनाओं को प्राप्त करने के लिए कच्चे डेटा और गुणांक को कैसे संयोजित करूं?

17 regression logistic

5

क्या डेटा की सफाई सांख्यिकीय विश्लेषण के परिणामों को खराब कर सकती है?

वायरस के प्रचलन के कारण महामारी (संख्या में अचानक वृद्धि) के दौरान होने वाले मामलों और मौतों की संख्या में वृद्धि (2002 में संयुक्त राज्य अमेरिका में वेस्ट नाइल वायरस) या लोगों की प्रतिरोधक क्षमता में कमी या भोजन या पानी के दूषित होने या संख्या में वृद्धि के कारण …

17 time-series forecasting epidemiology outliers

2

सर्वाइवल मॉडल फॉर प्रड्यूसिंग द चर्न - टाइम-डिफरेंट प्रेडिक्टर्स?

मैं मंथन की भविष्यवाणी करने के लिए एक पूर्वानुमान मॉडल का निर्माण करना चाहता हूं और एक व्यक्ति-काल प्रशिक्षण डेटासेट के लिए फिट किए गए एक असतत समय के जीवित रहने वाले मॉडल का उपयोग करना चाहता हूं (प्रत्येक ग्राहक के लिए एक पंक्ति और जोखिम के समय वे घटना …

17 survival predictive-models churn

1

स्वेव और xtable के साथ रंगीन टेबल कैसे बनाएं? [बन्द है]

बन्द है। यह सवाल ऑफ टॉपिक है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस प्रश्न को सुधारना चाहते हैं? प्रश्न अपडेट करें तो यह है क्रॉस मान्य के लिए विषय पर हो । 2 साल पहले बंद हुआ । मैं रिपोर्ट बनाने के लिए Sweave और …

17 r reproducible-research

1

सरल रैखिक प्रतिगमन में एनोवा एफ-टेस्ट के पीछे तर्क

मैं सरल रैखिक प्रतिगमन विश्लेषण में एनोवा एफ-टेस्ट के पीछे के तर्क को समझने की कोशिश कर रहा हूं। मेरे पास प्रश्न इस प्रकार है। जब F मान, यानी MSR/MSEबड़ा है तो हम मॉडल को महत्वपूर्ण मानते हैं। इसके पीछे क्या तर्क है?

17 regression anova

3

इंटरैक्टिव डेटा विज़ुअलाइज़ेशन का उपयोग कब उपयोगी है?

एक बात की तैयारी करते हुए, मैं जल्द ही दे दूंगा, मैंने हाल ही में इंटरेक्टिव डेटा विज़ुअलाइज़ेशन के लिए दो प्रमुख (फ्री) टूल्स में खुदाई शुरू की: जीजीबी और मॉन्ड्रियन - दोनों क्षमताओं की एक बड़ी रेंज पेश करते हैं (भले ही वे थोड़ी छोटी गाड़ी हों)। मैं आर्टिकुलेटिंग …

17 data-visualization data-mining interactive-visualization

2

क्या "हर नीली टी-शर्ट वाला व्यक्ति" एक व्यवस्थित नमूना है?

मैं एक इंट्रो स्टैटिस्टिक्स क्लास पढ़ा रहा हूं और सैंपलिंग के प्रकारों की समीक्षा कर रहा था, जिसमें व्यवस्थित सैंपलिंग भी शामिल है जहां आप हर केथ इंडिविजुअल या ऑब्जेक्ट का सैंपल लेते हैं। एक छात्र ने पूछा कि क्या प्रत्येक व्यक्ति को किसी विशेष विशेषता के साथ नमूना लेना …

17 sampling

3

प्रधान घटक विश्लेषण "पीछे की ओर": चर के दिए गए रैखिक संयोजन द्वारा डेटा का कितना विचरण समझाया जाता है?

मैंने छह चर AAA , BBB , CCC , DDD , EEE और एक प्रमुख घटक विश्लेषण किया है FFF। अगर मैं सही ढंग से समझता हूं, तो असम्बद्ध PC1 मुझे बताता है कि इन चरों में से कौन सा रैखिक संयोजन डेटा में सबसे अधिक विचरण का वर्णन करता …

17 variance pca r-squared covariance-matrix

3

लॉजिस्टिक रिग्रेशन और डेटसेट स्ट्रक्चर

मुझे उम्मीद है कि मैं इस सवाल को सही तरीके से पूछ सकता हूं। मेरे पास प्ले-बाय-प्ले डेटा तक पहुंच है, इसलिए यह सबसे अच्छा दृष्टिकोण और डेटा को ठीक से निर्माण के साथ एक समस्या है। मैं ऐसा करने के लिए देख रहा हूं कि एनएचएल गेम जीतने की …

17 time-series probability logistic

2

सांख्यिकीय परिदृश्य

क्या किसी ने आँकड़ों के विभिन्न दृष्टिकोणों का एक संक्षिप्त सर्वेक्षण लिखा है? पहले सन्निकटन के लिए आपके पास लगातार और बायेसियन आँकड़े हैं। लेकिन जब आप करीब देखते हैं तो आपके पास संभावनावादी और अनुभवजन्य बेयर्स जैसे अन्य दृष्टिकोण भी होते हैं। और फिर आपके पास समूहों के भीतर …

17 bayesian frequentist philosophical

7

क्या माध्य माध्य से अधिक उचित है?

मैंने हाल ही में सलाह पढ़ी है कि आपको आम तौर पर मध्यवर्ग का उपयोग करना चाहिए न कि आउटलेर्स को खत्म करने के लिए। उदाहरण: निम्न आलेख http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/ इस समय 16 समीक्षाएँ हैं: review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, …

17 mean median average

5

डेटा संग्रहीत करने के लिए सरल, विश्वसनीय, खुला और अंतर-सादा पाठ प्रारूप

पिछले प्रश्न में मैंने CSV फ़ाइलों के संपादन के लिए उपकरणों के बारे में पूछा था । गैविन आर डंकन मर्डोक द्वारा आर हेल्प पर एक टिप्पणी से जुड़ा हुआ है जो यह सुझाव देता है कि डेटा इंटरचेंज फॉर्मेट सीएसवी की तुलना में डेटा स्टोर करने का एक अधिक …

17 project-management

2

प्लॉट की स्केलिंग का उपयोग क्यों करें?

पर्यवेक्षित अधिगम में संभाव्यता के लिए एक विश्वास स्तर को जांचने के लिए (एक एसवीएम या ओवरसम्प्ट डेटा का उपयोग करके एक निर्णय पेड़ से विश्वास को मैप करने के लिए) एक विधि प्लॉट की स्केलिंग (जैसे, बूस्टिंग के लिए कैलिब्रेटेड संभावनाओं को प्राप्त करना ) का उपयोग करना है। …

17 logistic cross-validation calibration

2

Nonparametric Bayesian R में विश्लेषण

मैं Rपदानुक्रमित डीरिचलेट प्रक्रिया (HDP) (हाल ही में और लोकप्रिय गैरपारंपरिक बायेसियन विधियों में से एक) का उपयोग करके क्लस्टरिंग डेटा पर एक अच्छे ट्यूटोरियल की तलाश कर रहा हूं । नहीं है DPpackage(IMHO, सबसे सभी उपलब्ध लोगों की व्यापक) में Rnonparametric बायेसियन विश्लेषण के लिए। लेकिन मैं R Newsएचडीपी …

17 r bayesian clustering nonparametric