सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

4
माध्य और माध्य गुण
क्या कोई मुझे समझा सकता है कि गणितीय तर्क दो बयानों (ए) और (बी) को एक साथ जोड़ देगा? आइए हम मानों (कुछ वितरण) का एक सेट करें। अभी, ए) मेडियन हर मूल्य पर निर्भर नहीं करता है [यह सिर्फ एक या दो मध्य मूल्यों पर निर्भर करता है]; बी) …

3
सामान्य वितरण के निश्चित अंतराल का मूल्यांकन करें
मुझे पता है कि एक सामान्य वितरण के सीडीएफ के लिए एक आसान सूत्र को संभालना कुछ हद तक गायब है, क्योंकि इसमें जटिल त्रुटि समारोह है। हालांकि, मुझे आश्चर्य है कि अगर वहाँ के लिए आ अच्छा सूत्र है N(c−≤x&lt;c+|μ,σ2)N(c−≤x&lt;c+|μ,σ2)N(c_{-} \leq x < c_{+}| \mu, \sigma^2) । या इस …

3
रैखिक मिश्रित मॉडल के नुकसान
रैखिक मिश्रित-प्रभाव मॉडल का उपयोग करने के कुछ मुख्य नुकसान क्या हैं? आपके मॉडल की उपयुक्तता का आकलन करने के लिए परीक्षण / देखने के लिए सबसे महत्वपूर्ण चीजें क्या हैं? एक ही डेटासेट के मॉडल की तुलना करते समय, सबसे महत्वपूर्ण चीजें क्या हैं?

2
सामान्य स्वतंत्र चर के साथ लॉग इन करें
एक तर्क मॉडल में, क्या प्रत्येक स्तर के लिए डमी चर का उपयोग करने की तुलना में एक स्वतंत्र क्रमिक चर के प्रभाव को निर्धारित करने का एक स्मार्ट तरीका है?

4
क्या मैं केवल दो भविष्यवाणियों में से एक को हटा सकता हूं जो अत्यधिक रैखिक रूप से सहसंबद्ध हैं?
पियर्सन के सहसंबंध गुणांक का उपयोग करते हुए, मेरे पास कई चर हैं जो अत्यधिक सहसंबद्ध हैं ( 2 मॉडल के जोड़े के लिए और ρ = 0.989 जो मेरे मॉडल में हैं)।ρ=0.978ρ=0.978\rho = 0.978ρ=0.989ρ=0.989\rho = 0.989 कारण चर के कुछ अत्यधिक सहसंबद्ध होते हैं क्योंकि एक चर में इस्तेमाल …

4
Tufte के अक्ष को प्राप्त करने के लिए R भूखंडों में सीमाओं को हटाना
ताला लगा हुआ । यह सवाल और इसके जवाब बंद हैं क्योंकि यह सवाल ऑफ-टॉपिक है लेकिन इसका ऐतिहासिक महत्व है। यह वर्तमान में नए उत्तरों या इंटरैक्शन को स्वीकार नहीं कर रहा है। निम्नलिखित ग्राफ पर विचार करें: x &lt;- 1:100 y1 &lt;- rnorm(100) y2 &lt;- rnorm(100)+100 par(mar=c(5,5,5,5)) plot(x,y1,pch=0,type="b",col="red",yaxt="n",ylim=c(-8,2),ylab="") …

10
सामाजिक नेटवर्क डेटासेट
ताला लगा हुआ । यह सवाल और इसके जवाब बंद हैं क्योंकि यह सवाल ऑफ-टॉपिक है लेकिन इसका ऐतिहासिक महत्व है। यह वर्तमान में नए उत्तरों या इंटरैक्शन को स्वीकार नहीं कर रहा है। मैं वर्गीकरण कार्यों के लिए सामाजिक नेटवर्क डेटासेट (ट्विटर, फ्रेंडफीड, फ़ेसबुक, लास्टफ़ इत्यादि) की तलाश कर …

10
अल्पविराम से अलग किए गए मान (CSV) फ़ाइलों के संपादन की रणनीति
जब मैं डेटा विश्लेषण परियोजनाओं पर काम करता हूं तो मैं अक्सर कॉमा या टैब-सीमांकित (सीएसवी, टीएसवी) डेटा फ़ाइलों में डेटा संग्रहीत करता हूं। जबकि डेटा अक्सर एक समर्पित डेटाबेस प्रबंधन प्रणाली में होता है। मेरे कई अनुप्रयोगों के लिए, यह बहुत अधिक चीजें होंगी। मैं एक्सेल में CSV और …

5
मैट्रिक्स डिकम्पोजिशन पर आवश्यक कागजात
मैंने हाल ही में मैट्रिक्स डिकम्पोजिशन पर Skillicorn की किताब पढ़ी, और थोड़ा निराश था, क्योंकि यह एक स्नातक दर्शकों के लिए लक्षित था। मैं मैट्रिक्स के डिकम्पोजिशन पर आवश्यक कागजात (सर्वेक्षण, लेकिन साथ ही सफलता के कागजात) की एक छोटी ग्रंथ सूची का संकलन करना चाहूंगा। मेरे मन में …

5
भविष्यवाणी के लिए lmer का उपयोग करना
नमस्कार मुझे दो समस्याएं हैं जो बहुस्तरीय / मिश्रित मॉडल के लिए प्राकृतिक उम्मीदवारों की तरह लगती हैं, जिनका मैंने कभी उपयोग नहीं किया है। सरल, और एक है कि मैं एक परिचय के रूप में प्रयास करने की उम्मीद है, इस प्रकार है: डेटा प्रपत्र की कई पंक्तियों की …


7
"स्टोकेस्टिक प्रक्रियाओं" का अध्ययन एक सांख्यिकीविद् के रूप में मेरी मदद कैसे करेगा?
मैं यह तय करना चाहता हूं कि क्या मुझे "INTRODUCTION TO STOCHASTIC PROCESSES" नाम का एक कोर्स करना चाहिए, जो मेरे विश्वविद्यालय में अगले सेमेस्टर में होगा। मैंने व्याख्याता से पूछा कि इस तरह के पाठ्यक्रम का अध्ययन मुझे एक सांख्यिकीविद् के रूप में कैसे मदद करेगा, उन्होंने कहा कि …

2
लॉजिस्टिक रिग्रेशन और टी-टेस्ट की शक्ति की तुलना कैसे होती है?
क्या लॉजिस्टिक रिग्रेशन और एक टी-टेस्ट की शक्ति बराबर है? यदि ऐसा है, तो उन्हें "डेटा घनत्व समतुल्य" होना चाहिए, जिसके द्वारा मेरा मतलब है कि अंतर्निहित टिप्पणियों की समान संख्या उसी शक्ति का उत्पादन करती है जिसे .05 का एक निश्चित अल्फा दिया जाता है। दो मामलों पर विचार …

1
क्या मैंने इन संभावना अनुपातों की सही गणना की है?
मैं आर के लिए ईज़ पैकेज का लेखक हूं , और मैं एनोवा के आउटपुट में संभावना अनुपात (एलआर) की स्वचालित गणना को शामिल करने के लिए एक अपडेट पर काम कर रहा हूं। विचार प्रत्येक प्रभाव के लिए एक एलआर प्रदान करना है जो उस प्रभाव के परीक्षण के …

3
रिज प्रतिगमन का उपयोग करते समय मैं गुणांक मानक त्रुटियों का अनुमान कैसे लगा सकता हूं?
मैं अत्यधिक बहुस्तरीय डेटा पर रिज प्रतिगमन का उपयोग कर रहा हूं। ओएलएस के उपयोग से मुझे मल्टीकोलिनरिटी के कारण गुणांक पर बड़ी मानक त्रुटियां मिलती हैं। मैं जानता हूं कि रिज रिग्रेशन इस समस्या से निपटने का एक तरीका है, लेकिन रिज रिग्रेशन के सभी कार्यान्वयनों में जो मैंने …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.