सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

4
क्या छोटे पी-वैल्यू अधिक ठोस हैं?
मैं पर पढ़ने किया गया है -values, प्रकार 1 त्रुटि दर, महत्व स्तर, शक्ति गणना, प्रभाव आकार और फिशर बनाम Neyman-पियर्सन बहस। इससे मुझे कुछ अटपटा सा लगा। मैं पाठ की दीवार के लिए माफी मांगता हूं, लेकिन मैंने महसूस किया कि इन अवधारणाओं की मेरी वर्तमान समझ का अवलोकन …

5
परिशुद्धता (यदि कुछ भी हो) के बारे में विश्वास अंतराल क्या कहते हैं?
मोरे एट अल (2015) का तर्क है कि विश्वास अंतराल भ्रामक हैं और उनकी समझ से संबंधित कई पूर्वाग्रह हैं। दूसरों के बीच, वे निम्नलिखित के रूप में सटीक गिरावट का वर्णन करते हैं: परिशुद्धता की गिरावट आत्मविश्वास अंतराल की चौड़ाई पैरामीटर के बारे में हमारे ज्ञान की सटीकता को …

1
नकारात्मक द्विपद प्रतिगमन प्रश्न - क्या यह एक खराब मॉडल है?
मैं काउंटर डेटा के लिए प्रतिगमन मॉडल पर सेलर्स और शुमेली द्वारा एक बहुत ही दिलचस्प लेख पढ़ रहा हूं । शुरुआत के करीब (पृष्ठ 944) वे मैककुल्फ और नेल्डर (1989) का हवाला देते हुए कहते हैं कि नकारात्मक द्विपद प्रतिगमन अलोकप्रिय है और एक समस्याग्रस्त विहित लिंक है। मुझे …

2
"गहरी शिक्षा" और बहुस्तरीय / श्रेणीबद्ध मॉडलिंग के बीच क्या अंतर है?
क्या "गहरी सीख" मल्टीलेवल / पदानुक्रमित मॉडलिंग के लिए सिर्फ एक और शब्द है? मैं पूर्व की तुलना में उत्तरार्द्ध से बहुत अधिक परिचित हूं, लेकिन मैं जो बता सकता हूं, उससे प्राथमिक अंतर उनकी परिभाषा में नहीं है, लेकिन उनका उपयोग और मूल्यांकन उनके आवेदन डोमेन के भीतर कैसे …

2
क्या 'पी-वैल्यू' का सही मूल्य अर्थहीन है?
मैंने 2009 में एक सांख्यिकीविद् के साथ चर्चा की, जहां उन्होंने कहा कि पी-मूल्य का सटीक मूल्य अप्रासंगिक है: केवल एक चीज जो महत्वपूर्ण है वह महत्वपूर्ण है या नहीं। यानी एक परिणाम दूसरे से अधिक महत्वपूर्ण नहीं हो सकता है; उदाहरण के लिए आपके नमूने, या तो एक ही …

8
मतलब के साथ आउटलेर्स की जगह
यह सवाल मेरे दोस्त ने पूछा था जो इंटरनेट का जानकार नहीं है। मेरे पास कोई सांख्यिकी पृष्ठभूमि नहीं है और मैं इस प्रश्न के लिए इंटरनेट पर खोज कर रहा हूं। सवाल यह है कि क्या आउटेल को माध्य मान से बदलना संभव है? यदि यह संभव है, तो …

1
एक बड़े, विरल मैट्रिक्स पर आयामीता में कमी (SVD या PCA)
/ संपादित करें: आगे का अनुसरण करें अब आप irlba :: prcomp_irlba का उपयोग कर सकते हैं / संपादित करें: मेरी अपनी पोस्ट पर चल रहा है। irlbaअब "केंद्र" और "पैमाने" तर्क हैं, जो आपको सिद्धांत घटकों की गणना करने के लिए इसका उपयोग करते हैं, उदाहरण के लिए: pc …

4
निचले पी-मान नल के खिलाफ अधिक सबूत क्यों नहीं हैं? जोहानसन 2011 से तर्क
जोहानसन (2011) में " जय हो असंभव: P-मूल्यों, सबूत, और संभावना है " (यहाँ भी है पत्रिका के लिए लिंक कहा गया है कि कम) -values अक्सर अशक्त के खिलाफ मजबूत साक्ष्य के रूप में माना जाता है। जोहानसन का तात्पर्य यह है कि लोग शून्य के खिलाफ सबूतों पर …

5
लाइन भूखंडों के लिए रंग और लाइन मोटाई की सिफारिशें
सामान्य रूप से मैप्स, बहुभुज और छायांकित क्षेत्रों के लिए रंग अंधा-अनुकूल रंग विकल्पों के बारे में बहुत कुछ लिखा गया है (उदाहरण के लिए देखें http://colorbrewer2.org )। मैं रेखाचित्रों के लिए लाइन रंगों और अलग-अलग लाइन मोटाई के लिए सिफारिशें नहीं पा सका हूं। लक्ष्य हैं: आसानी से अंतर …

1
GBM मापदंडों के लिए कुछ उपयोगी दिशानिर्देश क्या हैं?
GBM का उपयोग करके परीक्षण मापदंडों (यानी इंटरैक्शन डेप्थ, माइनचाइल्ड, सैंपल रेट आदि) के लिए कुछ उपयोगी दिशानिर्देश क्या हैं? मान लें कि मेरे पास 70-100 सुविधाएँ हैं, 200,000 की आबादी है और मैं 3 और 4 की बातचीत की गहराई का परीक्षण करने का इरादा रखता हूं। स्पष्ट रूप …

3
समय के विरोधाभास के शालिज़ी के बायेसियन पिछड़े तीर के एंट्रोपी-आधारित प्रतिनियुक्ति?
में इस पत्र , प्रतिभाशाली शोधकर्ता कोस्मा शालिज़ी का तर्क पूरी तरह से एक व्यक्तिपरक बायेसियन दृश्य स्वीकार करने के लिए, एक भी एक unphysical नतीजा यह है कि समय के तीर (एन्ट्रापी के प्रवाह द्वारा दिए गए) वास्तव में जाना चाहिए स्वीकार करना चाहिए कि पीछे की ओर । …

5
कई स्वतंत्र चर में से महत्वपूर्ण भविष्यवाणियों का पता लगाना
दो गैर-अतिव्यापी आबादी (रोगियों और स्वस्थ, कुल ) के एक डेटासेट में मैं निरंतर आश्रित चर के लिए महत्वपूर्ण ( स्वतंत्र चर में से) महत्वपूर्ण भविष्यवाणियां खोजना चाहता हूं । भविष्यवक्ताओं के बीच सहसंबंध मौजूद है। मुझे यह पता लगाने में दिलचस्पी है कि क्या भविष्यवाणियों में से कोई भी …

3
चर चयन क्यों आवश्यक है?
सामान्य डेटा-आधारित चर चयन प्रक्रियाएं (उदाहरण के लिए, आगे, पिछड़े, स्टेपवाइज, सभी सबसेट) अवांछनीय गुणों वाले मॉडल का उत्पादन करते हैं, जिनमें शामिल हैं: गुणांक शून्य से दूर पक्षपाती। मानक त्रुटियां जो बहुत छोटी हैं और आत्मविश्वास अंतराल जो बहुत संकीर्ण हैं। परीक्षण के आँकड़े और पी-मान जिनका विज्ञापित अर्थ …

2
कैसे सांख्यिकीय सीखना के तत्वों से एक k- निकटतम पड़ोसी क्लासिफायर का निर्णय सीमा की साजिश करने के लिए?
मैं ElemStatLearn की किताब "द एलिमेंट्स ऑफ स्टैटिस्टिकल लर्निंग: डेटा माइनिंग, इनविज़न एंड प्रेडिक्शन। दूसरा संस्करण" ट्रेवर हस्ती और रॉबर्ट टिब्शिरानी और जेरोम फ्रीडमैन की पुस्तक में वर्णित प्लॉट जनरेट करना चाहता हूं। साजिश है: मैं सोच रहा हूं कि मैं इस सटीक ग्राफ को कैसे बना सकता हूं R, …

3
गुडमैन-क्रुस्ल गामा और केंडल ताऊ या स्पीयरमैन रो सहसंबंध की तुलना कैसे करते हैं?
मेरे काम में, हम डेटा के कुछ सेटों के लिए अनुमानित रैंकिंग बनाम वास्तविक रैंकिंग की तुलना कर रहे हैं। हाल तक तक, हम अकेले केंडल-ताऊ का उपयोग कर रहे हैं। इसी तरह की परियोजना पर काम करने वाले एक समूह ने सुझाव दिया कि हम इसके बजाय गुडमैन-क्रुस्ल गामा …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.