सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

4
कमिंग (2008) का दावा है कि प्रतिकृति में प्राप्त पी-वैल्यू का वितरण केवल मूल पी-मूल्य पर निर्भर करता है। यह कैसे सच हो सकता है?
मैं जियोफ़ कमिंग के 2008 के पेपर प्रतिकृति और अंतरालोंpppppp पी पी को पढ़ रहा हूं : मान भविष्य की केवल अस्पष्ट भविष्यवाणी करते हैं, लेकिन विश्वास अंतराल बहुत बेहतर करते हैं [Google विद्वान में 200 उद्धरण] - और इसके केंद्रीय दावों में से एक से भ्रमित हूं। यह कागजात …

8
टकी द्वारा अन्वेषणात्मक डेटा विश्लेषण के लिए आधुनिक उत्तराधिकारी?
मैं Tukey की पुस्तक "Exploratory Data Analysis" पढ़ रहा हूं। 1977 में लिखे जाने के कारण, पुस्तक कागज / पेंसिल के तरीकों पर जोर देती है। क्या एक और 'आधुनिक' उत्तराधिकारी है जो इस बात को ध्यान में रखता है कि हम अब बड़े डेटा सेट को तुरंत तैयार कर …

5
तंत्रिका नेटवर्क बनाम सपोर्ट वेक्टर मशीनें: क्या दूसरी निश्चित रूप से बेहतर हैं?
कागजात के कई लेखक मैं पढ़ता हूं एसवीएम उनके प्रतिगमन / वर्गीकरण समस्या का सामना करने के लिए बेहतर तकनीक है, इस बात से अवगत कि वे एनएन के माध्यम से समान परिणाम प्राप्त नहीं कर सकते थे। अक्सर तुलना में कहा गया है कि एनवी के बजाय एसवीएम, एक …

6
क्या एक रैंडम फ़ॉरेस्ट मॉडल की भविष्यवाणियों में एक पूर्वानुमान अंतराल है?
यदि मैं एक randomForestमॉडल चलाता हूं , तो मैं मॉडल के आधार पर भविष्यवाणियां कर सकता हूं। क्या प्रत्येक पूर्वानुमान की भविष्यवाणी अंतराल प्राप्त करने का एक तरीका है जैसे कि मुझे पता है कि मॉडल कैसे "निश्चित" है। यदि यह संभव है तो यह केवल पूरे मॉडल के लिए …


3
ANOVA धारणा सामान्यता / अवशिष्टों का सामान्य वितरण
एनोवा पर विकिपीडिया पृष्ठ तीन मान्यताओं को सूचीबद्ध करता है , अर्थात्: मामलों की स्वतंत्रता - यह उस मॉडल की धारणा है जो सांख्यिकीय विश्लेषण को सरल बनाता है। सामान्यता - अवशिष्टों के वितरण सामान्य हैं। भिन्नता की समानता (या "समरूपता"), जिसे समरूपता कहा जाता है ... यहां रुचि का …

2
चि स्क्वेर्ड टेस्ट और समान अनुपात के परीक्षण के बीच क्या संबंध है?
मान लीजिए कि मेरे पास चार, पारस्परिक रूप से अनन्य विशेषताओं के साथ तीन आबादी है। मैं प्रत्येक आबादी से यादृच्छिक नमूने लेता हूं और उन विशेषताओं के लिए एक क्रोस्टैब या आवृत्ति तालिका का निर्माण करता हूं जो मैं माप रहा हूं। क्या मैं यह कहने में सही हूं: …

8
एक्सेल एक सांख्यिकी कार्यक्षेत्र के रूप में
ऐसा लगता है कि बहुत से लोग (मेरे सहित) एक्सेल में खोजपूर्ण डेटा विश्लेषण करना पसंद करते हैं। कुछ सीमाएँ, जैसे स्प्रेडशीट में अनुमत पंक्तियों की संख्या एक दर्द है, लेकिन ज्यादातर मामलों में डेटा के साथ खेलने के लिए एक्सेल का उपयोग करना असंभव नहीं है। मैकुलॉ और हेसर …

14
गॉसियन (सामान्य) वितरण का सबसे आश्चर्यजनक लक्षण वर्णन क्या है?
पर एक मानकीकृत गाऊसी वितरण स्पष्ट रूप से इसकी घनत्व देकर परिभाषित किया जा सकता है: RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} या इसकी विशेषता समारोह। जैसा कि इस प्रश्न में याद किया जाता है कि यह एकमात्र वितरण भी है जिसके लिए नमूना माध्य और विचरण स्वतंत्र हैं। गाऊसी उपायों के अन्य आश्चर्यजनक …

10
एक दूरी मैट्रिक्स के साथ क्लस्टरिंग
मेरे पास एक (सममित) मैट्रिक्स Mहै जो प्रत्येक जोड़ी नोड्स के बीच की दूरी का प्रतिनिधित्व करता है। उदाहरण के लिए, abcdefghijkl एक 0 20 20 20 40 60 60 60 100 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 …
52 clustering 

6
दृढ़ता से असंतुलित कक्षाओं के साथ द्विआधारी वर्गीकरण
मेरे पास (सुविधाओं, बाइनरी आउटपुट 0 या 1) के रूप में एक डेटा सेट है, लेकिन 1 बहुत कम ही होता है, इसलिए केवल हमेशा 0 की भविष्यवाणी करने से, मुझे 70% और 90% के बीच सटीकता मिलती है (विशेष डेटा के आधार पर मैं देखता हूं )। एमएल विधियां …

2
एक कृत्रिम तंत्रिका नेटवर्क एएनएन, का उपयोग अनियंत्रित क्लस्टरिंग के लिए कैसे किया जा सकता है?
मैं समझता हूं artificial neural network (ANN)कि भविष्यवाणियों में त्रुटि को कम करके फिटिंग को बेहतर बनाने के लिए बैकप्रोपोगेशन का उपयोग करके पर्यवेक्षित तरीके से कैसे प्रशिक्षित किया जा सकता है। मैंने सुना है कि एक ANN का उपयोग अप्रशिक्षित सीखने के लिए किया जा सकता है लेकिन अनुकूलन …

5
क्या प्रतिगमन विश्लेषण के लिए स्केलिंग सुविधाओं के अलावा लक्ष्य मान को मापना आवश्यक है?
मैं प्रतिगमन मॉडल बना रहा हूं। एक प्रीप्रोसेसिंग कदम के रूप में, मैं 0 और मानक विचलन का मतलब करने के लिए अपने फीचर मानों को स्केल करता हूं। क्या लक्ष्य मानों को भी सामान्य करना आवश्यक है?

4
लिकेन तराजू का उपयोग किन परिस्थितियों में किया जाना चाहिए?
सामाजिक विज्ञानों में कई अध्ययन लिकर्ट स्केल का उपयोग करते हैं। लिकट डेटा को ऑर्डिनल के रूप में उपयोग करना कब उचित है और कब अंतराल डेटा के रूप में इसका उपयोग करना उचित है?

5
असंतुलित डेटा कब मशीन लर्निंग में एक समस्या है?
लॉजिस्टिक रिग्रेशन , एसवीएम , डिसीजन ट्री , बैगिंग और इसी तरह के कई अन्य सवालों का उपयोग करते समय हमारे पास असंतुलित डेटा के बारे में पहले से ही कई सवाल थे , जो इसे बहुत लोकप्रिय विषय बनाता है! दुर्भाग्य से, प्रत्येक प्रश्न एल्गोरिदम-विशिष्ट प्रतीत होता है और …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.