सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

3
झूठी खोज दर और कई परीक्षण के साथ भ्रम (Colquhoun 2014 पर)
मैंने डेविड कोलक्हौं द्वारा इस महान पत्र को पढ़ा है: झूठी खोज दर की जांच और पी-मूल्यों (2014) की गलत व्याख्या । संक्षेप में, वह बताते हैं कि क्यों झूठी खोज दर (FDR) अधिक हो सकती है, भले ही हम α = 0.05 के साथ टाइप I त्रुटि के लिए …

4
डेटा को सामान्य रूप से वितरित करने के कारण
कुछ प्रमेय क्या हैं जो समझा सकते हैं (यानी, उदारतापूर्वक) क्यों वास्तविक दुनिया के डेटा को सामान्य रूप से वितरित किए जाने की उम्मीद की जा सकती है? वहाँ दो हैं जो मुझे पता है: केंद्रीय सीमा प्रमेय (निश्चित रूप से), जो हमें बताता है कि माध्य और विचरण के …

1
शेयर की कीमतें क्यों असामान्य हैं लेकिन स्टॉक रिटर्न सामान्य हैं
इस तथ्य को छोड़कर कि रिटर्न नकारात्मक हो सकता है जबकि कीमतें सकारात्मक होनी चाहिए, क्या शेयर की कीमतों में मॉडलिंग के पीछे एक सामान्य वितरण के रूप में कोई अन्य कारण है लेकिन स्टॉक वितरण सामान्य वितरण के रूप में है?

2
रैखिक मिश्रित मॉडल में यादृच्छिक और निश्चित-प्रभाव संरचना कैसे चुनें?
विषयों के डिजाइन के भीतर दो तरह से निम्नलिखित डेटा पर विचार करें: df <- "http://personality-project.org/r/datasets/R.appendix4.data" df <- read.table(df,header=T) head(df) Observation Subject Task Valence Recall 1 1 Jim Free Neg 8 2 2 Jim Free Neu 9 3 3 Jim Free Pos 5 4 4 Jim Cued Neg 7 5 …

4
वास्तव में क्या क्षण हैं? वे कैसे व्युत्पन्न हैं?
जब तक हम जनसंख्या के सभी मापदंडों का अनुमान नहीं लगाते हैं, तब तक हम आम तौर पर क्षणों के अनुमानकों को "उनके नमूना समकक्ष के लिए जनसंख्या के क्षणों की बराबरी" द्वारा पेश करते हैं; इसलिए, एक सामान्य वितरण के मामले में, हमें केवल पहले और दूसरे क्षण की …

4
क्या इसका मतलब है = माध्य का अर्थ है कि एक असमान वितरण सममित है?
एक असमान वितरण के लिए, यदि माध्य = माध्य है तो क्या यह कहना पर्याप्त है कि वितरण सममित है? मीन और माध्य के बीच संबंध में विकिपीडिया कहता है : "यदि वितरण सममित है तो माध्य माध्य के बराबर है और वितरण में शून्य तिरछापन होगा। यदि, इसके अलावा, …

2
सामान्यीकृत योज्य मॉडल - साइमन वुड के अलावा उन पर शोध कौन करता है?
मैं अधिक से अधिक GAMs का उपयोग करता हूं। जब मैं उनके विभिन्न घटकों (स्मूथिंग पैरामीटर चयन, विभिन्न स्लाइन बेस, चिकनी शब्दों के पी-वैल्यू) के लिए संदर्भ प्रदान करने के लिए जाता हूं, तो वे सभी एक शोधकर्ता - साइमन वुड, यूनिवर्सिटी ऑफ बाथ, इंग्लैंड में हैं। वह mgcvआर का …

4
क्या इसका अर्थ प्लस एक मानक विचलन अधिकतम मूल्य से अधिक हो सकता है?
मेरे पास नमूने के लिए 74.10 और मानक विचलन 33.44 है, जिसमें न्यूनतम 0 और अधिकतम 94.33 है। मेरे प्रोफेसर मुझसे पूछते हैं कि कैसे मतलब हो सकता है प्लस एक मानक विचलन अधिकतम से अधिक है। मैंने उसे इस बारे में कई उदाहरण दिखाए, लेकिन वह समझ नहीं पाई। …

2
"लॉजिस्टिक रिग्रेशन" नाम का क्या अर्थ है?
मैं यहाँ से लॉजिस्टिक रिग्रेशन के कार्यान्वयन की जाँच कर रहा हूँ । उस लेख को पढ़ने के बाद, मुझे लगता है कि महत्वपूर्ण हिस्सा सिग्मॉइड फ़ंक्शन को निर्धारित करने के लिए सबसे अच्छा गुणांक है। तो मुझे आश्चर्य है कि इस पद्धति को "लॉजिस्टिक रिग्रेशन" क्यों कहा जाता है। …


2
समय-श्रृंखला डेटा पर पीसीए की व्याख्या कैसे करें?
मैं एक हालिया जर्नल लेख में "क्लस्टर कंप्यूटिंगमैन एट अल के साथ पैमाने पर मानचित्रण मस्तिष्क गतिविधि" शीर्षक से हाल ही में पीसीए के उपयोग को समझने की कोशिश कर रहा हूं , ( लैब वेबसाइट पर उपलब्ध मुफ्त पीडीएफ )। वे समय श्रृंखला डेटा पर पीसीए का उपयोग करते …

2
लॉग-ट्रांसफ़ॉर्म के बाद मानक त्रुटि की गणना करना
सामान्य रूप से वितरित की जाने वाली संख्याओं के एक यादृच्छिक सेट पर विचार करें: x <- rnorm(n=1000, mean=10) हम इस माध्य और मानक त्रुटि को जानना चाहेंगे ताकि हम निम्नलिखित कार्य करें: se <- function(x) { sd(x)/sqrt(length(x)) } mean(x) # something near 10.0 units se(x) # something near 0.03 …

4
उपचार से प्रभावित कोवरिएट के साथ अच्छे डेटा उदाहरण की आवश्यकता होती है
मैंने बहुत सारे आर डेटासेट, डीएएसएल में पोस्टिंग और अन्य जगहों पर देखा है, और प्रयोगात्मक डेटा के लिए सहसंयोजक के विश्लेषण के दिलचस्प डेटासेट के बहुत अच्छे उदाहरण नहीं मिल रहे हैं। स्टेटबुक पाठ्यपुस्तकों में कंट्रोल्ड डेटा के साथ कई "टॉय" डेटासेट हैं। मैं एक उदाहरण रखना चाहता हूँ …

1
मैं ggplot2 में geom_point की स्थिति को कैसे 'चकमा' दे सकता हूं?
ताला लगा हुआ । यह सवाल और इसके जवाब बंद हैं क्योंकि यह सवाल ऑफ-टॉपिक है लेकिन इसका ऐतिहासिक महत्व है। यह वर्तमान में नए उत्तरों या इंटरैक्शन को स्वीकार नहीं कर रहा है। मैं निम्नलिखित में से प्लॉट बनाने के लिए R में ggplot2 का उपयोग कर रहा हूं: …

1
PCA से पहले डेटा को सामान्य नहीं करना बेहतर समझा गया भिन्नता अनुपात है
मैंने अपने डेटासेट को सामान्य किया, फिर छोटे समझाया संस्करण अनुपात ([0.50, 0.1, 0.05]) प्राप्त करने के लिए 3 घटक पीसीए को चलाया। जब मैंने सामान्य नहीं किया, लेकिन मेरे डेटासेट को सफेद कर दिया, तो 3 घटक पीसीए चला, मुझे उच्च समझाया गया विचरण अनुपात ([0.86, 0.06,0.01]) मिला। चूंकि …
19 pca 

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.