सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

3
गैर-सामान्य वितरण में मानक विचलन हमें क्या बताता है
एक सामान्य वितरण में, 68-95-99.7 नियम मानक विचलन को बहुत अधिक अर्थ प्रदान करता है, लेकिन गैर-सामान्य वितरण (मल्टीमॉडल या तिरछी) में मानक विचलन का क्या अर्थ होगा? क्या सभी डेटा मूल्य अभी भी 3 मानक विचलन के भीतर होंगे? क्या हमारे पास गैर-सामान्य वितरण के लिए 68-95-99.7 जैसे नियम …

6
बूटस्ट्रैप नमूनों की संख्या के लिए अंगूठे का नियम
मुझे आश्चर्य है कि अगर किसी को बूटस्ट्रैप नमूनों की संख्या के बारे में किसी भी सामान्य नियम को जानना चाहिए जो डेटा की विशेषताओं (टिप्पणियों, आदि) और / या चर शामिल की विशेषताओं के आधार पर उपयोग करना चाहिए?

3
प्रतिगमन में दमन प्रभाव: परिभाषा और दृश्य स्पष्टीकरण / चित्रण
एकाधिक प्रतिगमन में एक दबानेवाला यंत्र चर क्या है और दृष्टिगोचर प्रभाव (इसके यांत्रिकी या परिणामों में इसके प्रमाण) को प्रदर्शित करने के तरीके क्या हो सकते हैं? मैं हर उस व्यक्ति को आमंत्रित करना चाहता हूं जिसके पास विचार है, साझा करने के लिए।

2
"बड़े डेटा" से वैध निष्कर्ष कैसे निकालें?
"बिग डेटा" मीडिया में हर जगह है। हर कोई कहता है कि "बड़ा डेटा" 2012 के लिए बड़ी बात है, उदाहरण के लिए KDNuggets 2012 के लिए गर्म विषयों पर सर्वेक्षण । हालाँकि, मेरी यहाँ गहरी चिंताएँ हैं। बड़े डेटा के साथ, हर कोई बस कुछ भी पाने के लिए …

5
मंझला के लिए आत्मविश्वास अंतराल
मुझे मंझले और अन्य प्रतिशत पर 95% सीआई ढूंढना है। मैं नहीं जानता कि यह कैसे दृष्टिकोण है। मैं मुख्य रूप से R को एक प्रोग्रामिंग टूल के रूप में उपयोग करता हूं।

2
यादृच्छिक जंगलों में चर महत्व के उपाय
मैं प्रतिगमन के लिए यादृच्छिक जंगलों के साथ खेल रहा हूं और मुझे यह समझने में कठिनाई हो रही है कि महत्व के दो उपायों का क्या मतलब है, और उनकी व्याख्या कैसे की जानी चाहिए। importance()समारोह हर चर के लिए दो मानों देता है: %IncMSEऔर IncNodePurity। क्या इन 2 …

3
एनोवा में एफ- और पी-मूल्य की व्याख्या कैसे करें?
मैं आंकड़ों के लिए नया हूं और मैं वर्तमान में एनोवा के साथ काम करता हूं। मैं R उपयोग में एक ANOVA परीक्षण करता हूं aov(dependendVar ~ IndependendVar) मुझे मिलता है - दूसरों के बीच - एक एफ-मूल्य और एक पी-मूल्य। मेरी अशक्त परिकल्पना ( ) यह है कि सभी …

4
आर में तार्किक प्रतिगमन (विषम अनुपात)
मैं एक लॉजिस्टिक रिग्रेशन एनालिसिस करने की कोशिश कर रहा हूँ R। मैंने STATA का उपयोग करके इस सामग्री को कवर करने वाले पाठ्यक्रमों में भाग लिया। मुझे कार्यक्षमता को दोहराने में बहुत मुश्किल हो रही है R। क्या यह इस क्षेत्र में परिपक्व है? लगता है बहुत कम प्रलेखन …
40 r  logistic  odds-ratio 

3
माध्य, मध्य और विधा के बीच अनुभवजन्य संबंध
एक असमान वितरण के लिए जो मामूली तिरछा है, हमारे मध्यमान, माध्य और मोड: के बीच निम्नलिखित अनुभवजन्य संबंध है। यह रिश्ता कैसा था निकाली गई?(माध्य - विधा) ∼ ३(मध्यमान माध्यिका)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} क्या कार्ल पियर्सन ने इस निष्कर्ष को बनाने से …

7
तंत्रिका नेटवर्क में डेटा सामान्यीकरण और मानकीकरण
मैं तंत्रिका नेटवर्क (एएनएन) का उपयोग करके एक जटिल प्रणाली के परिणाम की भविष्यवाणी करने की कोशिश कर रहा हूं। परिणाम (निर्भर) मान 0 और 10,000 के बीच होते हैं। अलग-अलग इनपुट वैरिएबल की अलग-अलग रेंज होती हैं। सभी चर में लगभग सामान्य वितरण होते हैं। मैं प्रशिक्षण से पहले …

3
क्या ऐसे मामले हैं जहां पीसीए टी-एसएनई से अधिक उपयुक्त है?
मैं यह देखना चाहता हूं कि पाठ सुधार व्यवहार के 7 उपाय (पाठ को सही करने में लगने वाला समय, कीस्ट्रोक्स की संख्या आदि) एक-दूसरे से संबंधित हैं। उपाय सहसंबद्ध हैं। मैंने पीसीए को यह देखने के लिए चलाया कि कैसे उपायों को पीसी 1 और पीसी 2 पर पेश …
39 pca  tsne 

7
डेटा एकत्र या व्याख्या करते समय सबसे आम पूर्वाग्रह मनुष्य क्या बनाते हैं?
मैं एक ईकोन / स्टेट प्रमुख हूं। मुझे पता है कि अर्थशास्त्रियों ने उन स्थितियों की पहचान करके मानवीय व्यवहार और तर्कसंगतता के बारे में अपनी धारणाओं को संशोधित करने की कोशिश की है, जिसमें लोग तर्कसंगत व्यवहार नहीं करते हैं। उदाहरण के लिए, मान लीजिए कि मैं आपको $ …
39 bias 

4
दो नमूना टी-परीक्षण के बराबर बायेसियन?
मैं बेस्ट इन आर जैसे प्लग एंड प्ले विधि की तलाश नहीं कर रहा हूं, बल्कि कुछ बायेसियन विधियों के गणितीय स्पष्टीकरण का उपयोग कर सकता हूं, जिसका उपयोग मैं दो नमूनों के बीच के अंतर का परीक्षण करने के लिए कर सकता हूं।

2
पीपी-प्लॉट्स बनाम क्यूक्यू-प्लॉट्स
डेटा के लिए सज्जित वितरण का विश्लेषण करने की कोशिश करते समय संभाव्यता भूखंडों, पीपी-भूखंडों और क्यूक्यू-भूखंडों के बीच अंतर क्या है?

7
क्या एक बायेसियन मानता है कि एक निश्चित पैरामीटर मान है?
बायेसियन डेटा विश्लेषण में, मापदंडों को यादृच्छिक चर के रूप में माना जाता है। यह संभावना की Bayesian व्यक्तिपरक अवधारणा से उपजी है। लेकिन क्या बायेशियन सैद्धांतिक रूप से स्वीकार करते हैं कि 'वास्तविक दुनिया' में एक सही निश्चित पैरामीटर मान है? ऐसा लगता है कि स्पष्ट उत्तर 'हां' है, …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.