सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

3
दो सामान्य वितरणों के बीच अंतर का वितरण
मेरे पास सामान्य वितरण के दो प्रायिकता घनत्व कार्य हैं: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } तथा f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } मैं और बीच पृथक्करण की संभाव्यता घनत्व फ़ंक्शन की तलाश कर रहा हूं …

1
क्या मुझे सूक्ष्म-औसत या मैक्रो-औसत मूल्यांकन उपायों के आधार पर निर्णय लेना चाहिए?
मैंने अलग-अलग बाइनरी वर्गीकरण एल्गोरिदम पर एक ही डेटासेट के साथ 10-गुना क्रॉस सत्यापन चलाया, और माइक्रो और मैक्रो औसत परिणाम दोनों प्राप्त किए। यह उल्लेख किया जाना चाहिए कि यह एक बहु-लेबल वर्गीकरण समस्या थी। मेरे मामले में, सच्चे नकारात्मक और सकारात्मक सकारात्मक को समान रूप से तौला जाता …

2
रिज प्रतिगमन की धारणाएं क्या हैं और उनका परीक्षण कैसे किया जाए?
कई प्रतिगमन के लिए मानक मॉडल पर विचार करें जहां ε ~ एन ( 0 , σ 2 मैं nY=Xβ+εY=Xβ+εY=X\beta+\varepsilon , तो सामान्य, homoscedasticity और सभी पकड़ त्रुटियों की uncorrelatedness।ε∼N(0,σ2In)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) मान लीजिए कि हम के विकर्ण के सभी तत्वों के लिए एक ही छोटी राशि जोड़कर …

1
जीएलएम में अर्ध-पोइसन को नकारात्मक द्विपद के एक विशेष मामले के रूप में क्यों नहीं माना जाता है?
मैं सामान्यीकृत रैखिक मॉडल को गिनती डेटा के कुछ सेटों में फिट करने की कोशिश कर रहा हूं जो कि अतिविशिष्ट नहीं हो सकते हैं। EVON और विचरण के साथ दो विहित वितरण जो यहां लागू होते हैं, पोइसन और नकारात्मक द्विपद (नेगबिन) हैंμμ\mu वीएक आरपी= μवीएआरपी=μVar_P = \mu वीएक …


4
मिश्रित डेटा को यूक्लिडियन-आधारित क्लस्टरिंग एल्गोरिदम के लिए एक समस्या क्यों है?
अधिकांश शास्त्रीय क्लस्टरिंग और डायमेंशन कम करने वाले एल्गोरिदम (पदानुक्रमित क्लस्टरिंग, प्रिंसिपल कंपोनेंट एनालिसिस, के-मीन्स, सेल्फ-ऑर्गनाइजिंग मैप्स ...) विशेष रूप से न्यूमेरिक डेटा के लिए डिज़ाइन किए गए हैं, और उनके इनपुट डेटा को यूक्लिडियन स्पेस में पॉइंट के रूप में देखा जाता है। यह निश्चित रूप से एक समस्या …

3
यादृच्छिक डेटा के एसवीडी परिणामों में अजीब सहसंबंध; क्या उनके पास गणितीय स्पष्टीकरण है या यह एक लैप बग है?
मैं यादृच्छिक डेटा के SVD परिणाम में एक बहुत ही अजीब व्यवहार का निरीक्षण करता हूं, जिसे मैं Matlab और R दोनों में पुन: उत्पन्न कर सकता हूं। यह LAPACK लाइब्रेरी में कुछ संख्यात्मक मुद्दे जैसा दिखता है; क्या यह? मैं शून्य माध्य और पहचान सहसंयोजक के साथ आयामी गाऊसी …

4
मैं गैर-सामान्य वितरण के लिए विश्वास अंतराल की गणना कैसे करूं?
मेरे पास 383 नमूने हैं जिनमें कुछ सामान्य मूल्यों के लिए भारी पूर्वाग्रह है, मैं इस मतलब के लिए 95% सीआई की गणना कैसे करूंगा? जिस CI की मैंने गणना की है वह रास्ता बंद लगता है, जो मुझे लगता है क्योंकि मेरा डेटा हिस्टोग्राम बनाते समय वक्र की तरह …

4
यदि मेरा वितरण मल्टीमॉडल है तो परीक्षण कैसे करें?
जब मैं अपने डेटा का हिस्टोग्राम प्लॉट करता हूं, तो इसके दो शिखर होते हैं: क्या इसका मतलब एक संभावित बहु-मोडल वितरण है? मैं dip.testआर ( library(diptest)) में भाग गया , और आउटपुट है: D = 0.0275, p-value = 0.7913 मैं यह निष्कर्ष निकाल सकता हूं कि मेरे डेटा में …

2
सरल रेखीय प्रतिगमन में, अवशिष्टों के विचरण का सूत्र कहां से आता है?
मेरे द्वारा उपयोग किए जा रहे पाठ के अनुसार, अवशिष्ट के विचलन का सूत्र निम्न द्वारा दिया गया है:ithithi^{th} σ2(1−1n−(xi−x¯¯¯)2Sxx)σ2(1−1n−(xi−x¯)2Sxx)\sigma^2\left ( 1-\frac{1}{n}-\frac{(x_{i}-\overline{x})^2}{S_{xx}} \right ) मुझे यह विश्वास करना कठिन है क्योंकि अवशिष्ट, प्रेक्षित मूल्य और सज्जित मूल्य के बीच का अंतर है ; यदि कोई अंतर के विचरण की गणना …

3
एआईसी में 'मापदंडों की संख्या' का अर्थ
जब कंप्यूटिंग एआईसी, AIC=2k−2lnLAIC=2k−2lnLAIC = 2k - 2 ln L k का अर्थ है 'मापदंडों की संख्या'। लेकिन एक पैरामीटर के रूप में क्या मायने रखता है? तो उदाहरण के लिए मॉडल में y=ax+by=ax+by = ax + b क्या ए और बी को हमेशा मापदंडों के रूप में गिना जाता …
21 aic 

2
कैसे कई रेखीय प्रतिगमन मॉडल का वर्णन या कल्पना करें
मैं इनपुट के कुछ मापदंडों के साथ अपने डेटा के लिए एक बहु रैखिक प्रतिगमन मॉडल फिट करने की कोशिश कर रहा हूं, 3 कहते हैं। एफ( x )एफ( x )= ए एक्स1+ बी एक्स2+ सीएक्स3+ dया= ( ए बी सी )टी( x)1 एक्स2 एक्स3) + ड(मैं)(Ii)(i)F(x)=Ax1+Bx2+Cx3+dor(ii)F(x)=(A B C)T(x1 x2 …


2
अधिकतम संभावना अनुमान की मानक त्रुटि से क्या अभिप्राय है?
मैं एक गणितज्ञ स्व-अध्ययन के आँकड़े और विशेष रूप से भाषा के साथ संघर्ष कर रहा हूँ। मैं जिस पुस्तक का उपयोग कर रहा हूं, उसमें निम्नलिखित समस्या है: एक यादृच्छिक चर को रूप में दिया गया है, जिसे Alpha साथ वर्गीकृत किया गया है । (बेशक, आप इस प्रश्न …

2
यदि k- साधन क्लस्टरिंग गाऊसी मिश्रण मॉडलिंग का एक रूप है, तो क्या इसका उपयोग तब किया जा सकता है जब डेटा सामान्य न हो?
मैं GMM के लिए EM एल्गोरिथ्म और GMM और k- साधनों के बीच संबंध पर बिशप पढ़ रहा हूं। इस पुस्तक में यह कहा गया है कि k- साधन GMM का एक कठिन संस्करण है। मैं सोच रहा हूँ कि इसका मतलब यह है कि अगर मैं जिस डेटा को …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.