सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

1
एक विशाल विरल आकस्मिक तालिका की कल्पना कैसे करें?
मेरे पास दो चर हैं: ड्रग नाम (डीएन) और इसी प्रतिकूल घटना (एई), जो कई-से-कई संबंधों में हैं। 33,556 दवा के नाम और 9,516 प्रतिकूल घटनाएं हैं। नमूना का आकार लगभग 5.8 मिलियन अवलोकन है। मैं डीएन और एई के बीच संबंध / संबंध का अध्ययन और समझना चाहता हूं। …

5
जब नमूनों का वितरण गैर-सामान्य हो तो स्वतंत्र नमूने टी-टेस्ट कितना मजबूत होता है?
मैंने पढ़ा है कि जब नमूनों का वितरण सामान्यता से हटता है तो t -est "काफी मजबूत" होता है। बेशक, यह उन अंतरों का नमूना वितरण है जो महत्वपूर्ण हैं। मेरे पास दो समूहों के लिए डेटा है। समूहों में से एक आश्रित चर पर अत्यधिक तिरछा है। दोनों समूहों …

2
GAM में इंटरेक्शन टर्म कैसे शामिल करें?
निम्नलिखित कोड दो समय श्रृंखला के बीच समानता का मूल्यांकन करता है: set.seed(10) RandData <- rnorm(8760*2) America <- rep(c('NewYork','Miami'),each=8760) Date = seq(from=as.POSIXct("1991-01-01 00:00"), to=as.POSIXct("1991-12-31 23:00"), length=8760) DatNew <- data.frame(Loc = America, Doy = as.numeric(format(Date,format = "%j")), Tod = as.numeric(format(Date,format = "%H")), Temp = RandData, DecTime = rep(seq(1, length(RandData)/2) / (length(RandData)/2), …

3
दो समय श्रृंखला के बीच सहसंबंध
दो समय श्रृंखलाओं के बीच सहसंबंध की गणना करने का सबसे आसान तरीका / तरीका क्या है जो वास्तव में एक ही आकार के हैं? मैंने गुणा और( y [ t ] - μ y )(x[t]−μx)(x[t]−μx)(x[t]-\mu_x)(y[t]−μy)(y[t]−μy)(y[t] - \mu_y) , और गुणा को जोड़ने का विचार किया। तो अगर यह एकल …

4
L1 प्रतिगमन औसत दर्जे का अनुमान लगाता है जबकि L2 प्रतिगमन अनुमानों का मतलब है?
इसलिए मुझसे एक सवाल पूछा गया कि केंद्रीय उपाय L1 (यानी, लासो) और L2 (यानी रिज रिग्रेशन) का अनुमान है। इसका उत्तर L1 = माध्यिका और L2 = माध्य है। क्या इसका किसी प्रकार का सहज तर्क है? या क्या यह बीजगणितीय रूप से निर्धारित किया जाना है? यदि हां, …

4
गणितीय आँकड़ों और आँकड़ों के बीच क्या अंतर है?
गणितीय आँकड़ों और आँकड़ों का अंतर क्या है? मैंने पढ़ा है यह : सांख्यिकी डेटा के संग्रह, संगठन, विश्लेषण और व्याख्या का अध्ययन है। यह इसके सभी पहलुओं से संबंधित है, जिसमें सर्वेक्षण और प्रयोगों के डिजाइन के संदर्भ में डेटा संग्रह की योजना भी शामिल है। और यह : …

1
के-फोल्ड क्रॉस-वेलिडेशन का आविष्कार किसने किया?
मैं उस कागज के संदर्भ की तलाश कर रहा हूं जहां के-फोल्ड क्रॉस-वैरिडेशन पेश किया गया था (बजाय विषय के लिए एक अच्छा अकादमिक संदर्भ के)। शायद यह पहले से ही बहुत पहले कागज की पहचान करने के लिए समय के मिस्ट्स में बहुत दूर है, इसलिए किसी भी शुरुआती …

3
जब परिणाम भिन्नात्मक (दो संख्याओं का अनुपात) हो तो R में लॉजिस्टिक रिग्रेशन कैसे करें?
मैं एक कागज की समीक्षा कर रहा हूं जिसमें निम्नलिखित जैविक प्रयोग हैं। एक उपकरण का उपयोग द्रव कतरनी तनाव की अलग-अलग मात्रा में कोशिकाओं को उजागर करने के लिए किया जाता है। जैसा कि अधिक कतरनी तनाव कोशिकाओं पर लागू होता है, उनमें से अधिक सब्सट्रेट से अलग होने …

3
क्या गैर-यादृच्छिक नमूनों का मानक सांख्यिकीय परीक्षणों का उपयोग करके विश्लेषण किया जा सकता है?
कई नैदानिक ​​अध्ययन गैर-यादृच्छिक नमूनों पर आधारित हैं। हालांकि, अधिकांश मानक परीक्षण (जैसे टी-परीक्षण, एनोवा, रैखिक प्रतिगमन, लॉजिस्टिक प्रतिगमन) इस धारणा पर आधारित हैं कि नमूनों में "यादृच्छिक संख्या" होती है। क्या परिणाम मान्य हैं यदि इन गैर-यादृच्छिक नमूनों का मानक परीक्षणों द्वारा विश्लेषण किया गया था? धन्यवाद।

3
Sanity check: पी-वैल्यू कितना कम जा सकता है?
मैं दो नमूने (की औसत की तुलना करने के ranksum परीक्षण का उपयोग कर रहा ) और पाया है कि वे साथ काफी अलग हैं: । मैं इस तरह के एक छोटे से संदिग्ध होना चाहिए -value या मैं इसे एक बहुत बड़ी नमूना होने के साथ जुड़े उच्च सांख्यिकीय …

4
क्या आपके पास उन विश्लेषण तकनीकों पर वैश्विक दृष्टि है?
मैं वर्तमान में एक ऐसी परियोजना पर हूं, जहां मुझे मूल रूप से जरूरत है, जैसे हम सब समझते हैं कि आउटपुट इनपुट से कैसे संबंधित है । यहाँ ख़ासियत यह है कि डेटा मुझे एक बार में एक टुकड़ा दिया जाता है, इसलिए मैं हर बार जब मैं एक …

4
प्रतिगमन और रैखिक विभेदक विश्लेषण (LDA) के बीच क्या संबंध है?
क्या प्रतिगमन और रैखिक भेदभावपूर्ण विश्लेषण (LDA) के बीच एक संबंध है? उनकी समानताएं और अंतर क्या हैं? क्या इससे कोई फ़र्क पड़ता है अगर दो वर्ग हैं या दो से अधिक वर्ग हैं?

2
R में बार-बार उपाय ANOVA के लिए lme और aov अलग-अलग परिणाम क्यों देते हैं?
मैं बार-बार उपायों एनोवा के लिए ezपैकेज का उपयोग करने से आगे बढ़ने की कोशिश कर lmeरहा हूं (जैसा कि मुझे आशा है कि मैं इसके साथ कस्टम विरोधाभासों का उपयोग करने में सक्षम होऊंगा lme)। इस ब्लॉग पोस्ट की सलाह के बाद मैं दोनों का उपयोग करके एक ही …

4
वीबुल वितरण के लिए ईएम अधिकतम संभावना अनुमान
नोट: मैं अपना एक पूर्व छात्र से एक प्रश्न पोस्ट कर रहा हूं जो तकनीकी कारणों से अपने आप पोस्ट करने में असमर्थ है। एक iid नमूना को एक वितरण से pdf है, जिसमें एक उपयोगी उत्पाद चर प्रतिनिधित्व और इसलिए एक संबद्ध EM (अपेक्षा-अधिकतमकरण) एल्गोरिथ्म है जिसका उपयोग सीधा …

5
जब प्रारंभिक अवस्था में नैदानिक ​​परीक्षण समाप्त हो जाता है तो पूर्वाग्रह क्यों प्रभावित होता है?
एक अंतरिम विश्लेषण एक या अधिक समय बिंदुओं पर डेटा का विश्लेषण है, जो कि अध्ययन के आधिकारिक करीबी अंक से पहले है, उदाहरण के लिए, संभवतः अध्ययन को जल्दी समाप्त करना। Piantadosi के अनुसार, एस। ( क्लिनिकल परीक्षण - एक तरीका ): " एक उपचार प्रभाव का अनुमान तब …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.