सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

3
पॉइसन रिग्रेशन से प्राप्त अवशेषों बनाम सज्जित मूल्यों की व्याख्या करना
मैं आरएल में एक जीएलएम (पिसोन रिग्रेशन) के साथ डेटा को फिट करने की कोशिश कर रहा हूं। जब मैंने अवशेषों बनाम फिट किए गए मूल्यों की साजिश रची, तो प्लॉट ने कई (लगभग थोड़ा अवतल वक्र के साथ रैखिक) "लाइनें" बनाईं। इसका क्या मतलब है? library(faraway) modl <- glm(doctorco …

2
चौरसाई के लिए बंटवारे चौरसाई तुलना बनाम?
मैं कुछ वक्र को सुचारू करने के लिए लूस या एक चौरसाई विभाजन का उपयोग करने के लिए पेशेवरों / विपक्षों को बेहतर ढंग से समझने की इच्छा रखता हूं। मेरे प्रश्न का एक और रूपांतर यह है कि अगर एक तरह से स्मूथिंग स्लाइन का निर्माण होता है तो …

6
आर के साथ आंकड़ों के लिए संदर्भ पुस्तक - क्या इसका अस्तित्व है और इसमें क्या होना चाहिए?
पृष्ठभूमि इसके चारों ओर बहुत अधिक चर्चा है, इसलिए मैंने सोचा कि मैं अपने उत्तर को स्टैकएक्सचेंज पर पहले के टीबों से और गुगली से गुस्से में पा सकता हूं। आर के साथ (जैव) आंकड़ों के लिए केवल एक संदर्भ पुस्तक को खोजने की कोशिश करने के लिए आधे दिन …
25 r  references 

6
वितरण की तुलना करने के लिए अच्छे डेटा विज़ुअलाइज़ेशन तकनीक क्या हैं?
मैं अपनी पीएचडी थीसिस लिख रहा हूं और मुझे एहसास हुआ है कि मैं वितरण की तुलना करने के लिए बॉक्स भूखंडों में अत्यधिक भरोसा करता हूं। इस कार्य को प्राप्त करने के लिए आपको और कौन से विकल्प पसंद हैं? मैं यह भी पूछना चाहता हूं कि क्या आपको …

5
एक साधारण ग्रिड के बजाय मोंटे कार्लो पद्धति का उपयोग क्यों करें?
एक समारोह या जटिल सिमुलेशन को एकीकृत करते समय, मैंने देखा है कि मोंटे कार्लो विधि का व्यापक रूप से उपयोग किया जाता है। मैं अपने आप से पूछ रहा हूं कि यादृच्छिक बिंदुओं को खींचने के बजाय किसी फ़ंक्शन को एकीकृत करने के लिए अंक का ग्रिड क्यों नहीं …

4
ज़िलक (2011) ने पी-वैल्यू के उपयोग का विरोध किया और कुछ विकल्पों का उल्लेख किया; वे क्या हैं?
हाल ही में एक कहा जाता सांख्यिकीय निष्कर्ष के लिए पी-मूल्य, पर भरोसा करने की दोष पर चर्चा लेख में "।। Matrixx वी Siracusano और छात्र वी परीक्षण पर फिशर सांख्यिकीय महत्व" (DOI: 10.1111 / j.1740-9713.2011.00511.x), स्टीफन टी। ज़िलीक पी-मूल्यों के उपयोग का विरोध करते हैं। समापन पैराग्राफ में वे …

2
कलमन फ़िल्टर और मूविंग एवरेज में क्या अंतर है?
मैं एक बहुत ही सरल कलमन फ़िल्टर (रैंडम वॉक + शोर मॉडल) की गणना कर रहा हूं। मुझे लगता है कि फिल्टर का उत्पादन एक चलती औसत के समान है। क्या दोनों के बीच एक समानता है? यदि नहीं, तो क्या अंतर है?

7
उदाहरण के लिए, लिंग को आमतौर पर 1/2 के बजाय 0/1 कोडित क्यों किया जाता है?
मैं डेटा विश्लेषण के लिए कोडिंग के तर्क को समझता हूं। नीचे मेरा प्रश्न एक विशिष्ट कोड के उपयोग पर है। क्या एक कारण है कि लिंग को अक्सर महिला के लिए 0 और पुरुष के लिए 1 के रूप में कोडित किया जाता है? इस कोडिंग को 'मानक' क्यों …

4
मॉडल अनिश्चितता को संबोधित करते हुए
मैं सोच रहा था कि क्रॉसविलेक्टेड समुदाय के बायेसियन कैसे मॉडल अनिश्चितता की समस्या को देखते हैं और वे इससे कैसे निपटना पसंद करते हैं? मैं अपने प्रश्न को दो भागों में बाँटने की कोशिश करूँगा: मॉडल अनिश्चितता से कैसे महत्वपूर्ण (आपके अनुभव / राय में) है? मुझे मशीन लर्निंग …

1
प्रोफ़ाइल संभावना के आधार पर आत्मविश्वास अंतराल का निर्माण
मेरी प्राथमिक आंकड़ों में बेशक, मैं कैसे जनसंख्या माध्य के रूप में इस तरह के अंतराल 95% विश्वास का निर्माण करने के सीखा है, , के आधार पर asymptotic सामान्य "बड़ी" नमूना आकार के लिए। फिर से शुरू करने के तरीकों (जैसे बूटस्ट्रैप) के अलावा, "प्रोफ़ाइल संभावना" के आधार पर …

2
मुझे MLE के लिए R * के एलएमएम फ़ंक्शन का उपयोग कब नहीं * करना चाहिए?
मैं एक दंपति गाइड के बारे में बताता हूं कि मैं अधिकतम संभावना आकलन के लिए आर के एलएमएम का उपयोग करता हूं। लेकिन उनमें से कोई भी ( आर के प्रलेखन सहित ) फ़ंक्शन का उपयोग करने या न करने के लिए बहुत सैद्धांतिक मार्गदर्शन देता है। जहां तक …

2
क्या पीसीए मल्टीकोलिनरिटी के तहत अस्थिर है?
मुझे पता है कि एक प्रतिगमन स्थिति में, यदि आपके पास अत्यधिक सहसंबद्ध चर का एक सेट है, तो यह आमतौर पर "खराब" है क्योंकि अनुमानित गुणांक में अस्थिरता के कारण (प्रसरण अनंतता की ओर जाता है क्योंकि निर्धारक शून्य की ओर जाता है)। मेरा सवाल यह है कि क्या …

3
पहले प्रयास करने के लिए शीर्ष पांच क्लासिफायर
जैसे स्पष्ट क्लासिफायर विशेषता कम्प्यूटेशनल लागत, सुविधाओं / लेबल के अपेक्षित डेटा प्रकार और डेटा सेट के कुछ आकारों और आयामों के लिए उपयुक्तता, शीर्ष पांच (या 10, 20?) एक नए डेटा सेट पर पहले प्रयास करने वाले क्लासिफायर एक के बारे में अभी तक बहुत कुछ नहीं जानते हैं …


2
सामान्य रैखिक मॉडल बनाम सामान्यीकृत रैखिक मॉडल (एक पहचान लिंक फ़ंक्शन के साथ?)
यह मेरी पहली पोस्ट है, इसलिए कृपया मुझ पर आसान ले लो अगर मैं कुछ मानकों का पालन नहीं कर रहा हूँ! मैंने अपने प्रश्न की खोज की और कुछ भी नहीं आया। मेरा प्रश्न ज्यादातर सामान्य रैखिक मॉडलिंग (GLM) और सामान्यीकृत रैखिक मॉडलिंग (GZLM) के बीच व्यावहारिक अंतरों से …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.