सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

4
"अर्ध पर्यवेक्षित शिक्षण" - क्या यह ओवरफिटिंग है?
मैं एक कागल प्रतियोगिता ( मालवेयर क्लासिफिकेशन ) के जीतने के समाधान की रिपोर्ट पढ़ रहा था । रिपोर्ट इस फ़ोरम पोस्ट में पाई जा सकती है । समस्या एक वर्गीकरण समस्या थी (नौ कक्षाएं, ट्रेन सेट में 10000 तत्वों के साथ मीट्रिक का लॉगरिदमिक नुकसान था), परीक्षण सेट में …

3
प्रशिक्षण के रूप में केवल सकारात्मक मामलों के साथ परिणाम की भविष्यवाणी कैसे करें?
सरलता के लिए, मान लीजिए कि मैं स्पैम / नॉन-स्पैम ईमेल के क्लासिक उदाहरण पर काम कर रहा हूं। मेरे पास 20000 ईमेल का एक सेट है। इनमें से, मुझे पता है कि 2000 स्पैम हैं, लेकिन मेरे पास नॉट-स्पैम ईमेल का कोई उदाहरण नहीं है। मैं भविष्यवाणी करना चाहता …

1
बैसेशियन बूटस्ट्रैपिंग बूटस्ट्रैपिंग वैचारिक रूप से?
मुझे यह समझने में परेशानी हो रही है कि बायेसियन बूटस्ट्रैपिंग प्रक्रिया क्या है, और यह आपके सामान्य बूटस्ट्रैपिंग से कैसे भिन्न होगा। और अगर कोई सहज / वैचारिक समीक्षा और दोनों की तुलना कर सकता है, तो यह बहुत अच्छा होगा। एक उदाहरण लेते हैं। मान लें कि हमारे …

1
एक ही बॉक्स और व्हिस्कर्स प्लॉट के साथ Anscombe- जैसे डेटासेट (माध्य / std / मंझला / MAD / मिनट / अधिकतम)
संपादित करें: जैसा कि इस सवाल को फुलाया गया है, एक सारांश: एक ही मिश्रित आंकड़ों (मतलब, मध्य, midrange और उनके संबंधित फैलाव, और प्रतिगमन) के साथ अलग-अलग सार्थक और व्याख्यात्मक डेटासेट खोजना। Anscombe चौकड़ी ( उच्च आयामी डेटा को देखने का उद्देश्य देखें ? ) चार - डेटासेट का …

2
असंतुलित डेटा के लिए लॉजिस्टिक रिग्रेशन के लिए वेट जोड़ना
मैं असंतुलित डेटा (9: 1) के साथ एक लॉजिस्टिक प्रतिगमन मॉडल करना चाहता हूं। मैं glmआर में फ़ंक्शन में वज़न विकल्प का प्रयास करना चाहता था , लेकिन मैं 100% निश्चित नहीं हूं कि यह क्या करता है। कहते हैं कि मेरा आउटपुट वेरिएबल है c(0,0,0,0,0,0,0,0,0,1)। अब मैं "1" 10 …

1
गणना डेटा के लिए पॉइज़न बनाम ज्यामितीय बनाम नकारात्मक द्विपद जीएलएम का उपयोग कब करें?
मैं अपने लिए लेआउट की कोशिश कर रहा हूं, जब यह उचित हो कि कौन सा प्रतिगमन प्रकार (ज्यामितीय, पोइसोन, ऋणात्मक द्विपद) गिनें डेटा के साथ, GLM ढांचे के भीतर (8 GLM वितरणों में से केवल 3 का उपयोग गणना डेटा के लिए किया जाता है, हालांकि अधिकांश क्या मैंने …

1
क्या मैंने आरओसी घटता के विश्लेषण के लिए सिर्फ एक बायेसियन विधि का आविष्कार किया था?
प्रस्तावना यह एक लंबी पोस्ट है। यदि आप इसे दोबारा पढ़ रहे हैं, तो कृपया ध्यान दें कि मैंने प्रश्न भाग को संशोधित कर दिया है, हालांकि पृष्ठभूमि सामग्री समान है। इसके अतिरिक्त, मुझे विश्वास है कि मैंने समस्या का समाधान तैयार कर लिया है। वह समाधान पोस्ट के नीचे …

2
नियमित अंतराल के साथ आत्मविश्वास का अंतराल
मान लीजिए, मैं कुछ उच्च-नियमित डेटा से बड़ी संख्या में मापदंडों का अनुमान लगाने की कोशिश कर रहा हूं, कुछ प्रकार के नियमित अनुमानों का उपयोग कर रहा हूं। नियमितकर्ता कुछ पूर्वाग्रह को अनुमानों में पेश करता है, लेकिन यह अभी भी एक अच्छा व्यापार-बंद हो सकता है क्योंकि विचरण …

2
सामान्य डेटासेट के लिए डेटा वृद्धि तकनीक?
कई मशीन सीखने के अनुप्रयोगों में, तथाकथित डेटा वृद्धि विधियों ने बेहतर मॉडल बनाने की अनुमति दी है। उदाहरण के लिए, बिल्लियों और कुत्तों की छवियों का एक प्रशिक्षण सेट मान लें । घूर्णन, मिररिंग, कंट्रास्ट को एडजस्ट करने आदि से मूल लोगों से अतिरिक्त चित्र उत्पन्न करना संभव है।100100100 …

2
प्रतिगमन रेखा का अनुमान लगाने के उद्देश्य से अवशिष्टों की सामान्यता "सभी पर बमुश्किल महत्वपूर्ण" क्यों है?
गेलमैन एंड हिल (2006) ने p46 पर लिखा है कि: रिग्रेशन धारणा जो आम तौर पर कम से कम महत्वपूर्ण है, वह यह है कि त्रुटियों को आम तौर पर वितरित किया जाता है। वास्तव में, प्रतिगमन रेखा (व्यक्तिगत डेटा बिंदुओं की भविष्यवाणी करने की तुलना में) का अनुमान लगाने …

2
ग्रेंजर और पर्ल के कारण के ढांचे के बीच मुख्य अंतर क्या हैं?
हाल ही में, मैंने कई कागजात और ऑनलाइन संसाधनों को चलाया, जिसमें ग्रेंजर कारण का उल्लेख है । इसी विकिपीडिया लेख के माध्यम से संक्षिप्त ब्राउज़िंग ने मुझे इस धारणा के साथ छोड़ दिया कि यह शब्द समय श्रृंखला (या, आमतौर पर, स्टोकेस्टिक प्रक्रियाओं ) के संदर्भ में कार्य-कारणता को …

2
क्या इस असतत वितरण का कोई नाम है?
क्या इस असतत वितरण का कोई नाम है? के लिए i∈1...Ni∈1...Ni \in 1...N f(i)=1N∑Nj=i1jf(i)=1N∑j=iN1jf(i) = \frac{1}{N} \sum_{j = i}^N \frac{1}{j} मैं निम्नलिखित से इस वितरण में आया था: मेरे पास कुछ उपयोगिता फ़ंक्शन द्वारा रैंक किए गए आइटमों की एक सूची है । मैं सूची के प्रारंभ की ओर पूर्वाग्रह …

3
नेमन-पियरसन लेम्मा
मैंने पुस्तक परिचय से लेकर मूड, ग्रेबिल और बोस द्वारा सांख्यिकी के सिद्धांत से नेमन-पियरसन लेम्मा पढ़ा है । लेकिन मैं लेम्मा को नहीं समझ पाया हूं। क्या कोई मुझे सीधे शब्दों में लम्मा समझा सकता है? यह क्या राज्य करता है? Neyman-पियर्सन लेम्मा: Let से नमूने के तौर पर …

1
क्लॉगल लॉजिस्टिक रिग्रेशन के अनुमानों की व्याख्या करना
क्या कोई मुझे सलाह दे सकता है कि एक क्लॉगल लिंक का उपयोग करके लॉजिस्टिक रिग्रेशन से अनुमानों की व्याख्या कैसे करें? मैंने निम्नलिखित मॉडल फिट किया है lme4: glm(cbind(dead, live) ~ time + factor(temp) * biomass, data=mussel, family=binomial(link=cloglog)) उदाहरण के लिए, समय का अनुमान 0.015 है। क्या यह कहना …

3
टूटी हुई छड़ी (स्पेसिंग) के सबसे बड़े टुकड़े का वितरण
लंबाई 1 की छड़ी को k+1k+1k+1 टुकड़े में समान रूप से यादृच्छिक पर तोड़ा जाए । सबसे लंबे टुकड़े की लंबाई का वितरण क्या है? और अधिक औपचारिक रूप से, (U1,…Uk)(U1,…Uk)(U_1, \ldots U_k) IID U(0,1)U(0,1)U(0,1) , और let (U(1),…,U(k))(U(1),…,U(k))(U_{(1)}, \ldots, U_{(k)}) संबंधित आदेश आँकड़े हों, अर्थात हम केवल ऐसे नमूने …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.