सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

4
फिशर और नेमन-पीयरसन ढांचे का उपयोग कब करें?
मैं हाल ही में फिशर की परिकल्पना परीक्षण और नेमन-पियर्सन स्कूल ऑफ़ थिंक के बीच अंतर के बारे में बहुत कुछ पढ़ रहा हूं। मेरा सवाल है, एक पल के लिए दार्शनिक आपत्तियों की अनदेखी; जब हमें सांख्यिकीय मॉडलिंग के फिशर के दृष्टिकोण का उपयोग करना चाहिए और कब महत्व …

4
एक "अनइनफॉर्मेटिव प्रीवियस" क्या है? क्या हम कभी भी सही मायने में कोई जानकारी नहीं रख सकते?
इस सवाल से एक टिप्पणी से प्रेरित : हम पूर्व में "अनइनफॉर्मेटिव" पर क्या विचार करते हैं - और क्या जानकारी अभी भी एक कथित रूप से अनइनफॉर्मेटिव में निहित है? मैं आम तौर पर एक विश्लेषण में पूर्व को देखता हूं जहां यह या तो एक बार-बार किया जाने …
73 bayesian  prior 

8
मल्टीस्कल्स-मल्टीलेबल वर्गीकरण के लिए सटीक / रिकॉल की गणना कैसे करें?
मैं सोच रहा हूं कि मल्टीस्केल्स मल्टीलेबल वर्गीकरण के लिए सटीक और रिकॉल उपायों की गणना कैसे करें, अर्थात वर्गीकरण जहां दो से अधिक लेबल हैं, और जहां प्रत्येक उदाहरण में कई लेबल हो सकते हैं?

7
एकाधिक प्रतिगमन के लिए न्यूनतम नमूना आकार के लिए अंगूठे के नियम
सामाजिक विज्ञान में एक शोध प्रस्ताव के संदर्भ में, मुझे निम्नलिखित प्रश्न पूछा गया था: मैं हमेशा 100 + मी (जहां मीटर भविष्यवक्ताओं की संख्या है) द्वारा गया है जब कई प्रतिगमन के लिए न्यूनतम नमूना आकार का निर्धारण। क्या यह उचित है? मुझे इसी तरह के सवाल बहुत मिलते …

14
कब (यदि कभी) एक लगातार दृष्टिकोण एक बायेसियन की तुलना में बेहतर है?
पृष्ठभूमि : मेरे पास बायेसियन सांख्यिकी में एक औपचारिक प्रशिक्षण नहीं है (हालांकि मुझे और अधिक सीखने में बहुत दिलचस्पी है), लेकिन मुझे पर्याप्त पता है - मुझे लगता है कि क्यों कई लोगों को लगता है कि वे फ्रीक्वेंटिस्ट आंकड़ों के लिए बेहतर हैं। यहाँ तक कि परिचयात्मक आँकड़ों …

7
यूक्लिडियन दूरी आमतौर पर विरल डेटा के लिए अच्छा नहीं है?
मैंने कहीं देखा है कि जब हम बहुआयामी और विरल डेटा होते हैं तो शास्त्रीय दूरी (जैसे यूक्लिडियन दूरी) कमजोर रूप से भेदभावपूर्ण हो जाती है। क्यों? क्या आपके पास दो विरल डेटा वैक्टर का उदाहरण है जहां यूक्लिडियन दूरी अच्छा प्रदर्शन नहीं करती है? इस मामले में हमें किस …

4
पोइसन और घातीय वितरण के बीच संबंध
पॉइसन वितरण के लिए प्रतीक्षा समय पैरामीटर लैम्ब्डा के साथ एक घातीय वितरण है। लेकिन मुझे यह समझ में नहीं आता है। उदाहरण के लिए पॉइज़न प्रति यूनिट समय पर आगमन की संख्या को दर्शाता है। यह घातीय वितरण से कैसे संबंधित है? कहते हैं कि समय की एक इकाई …

10
रैखिक प्रतिगमन के लिए सामान्य मान्यताओं की पूरी सूची क्या है?
रैखिक प्रतिगमन के लिए सामान्य धारणाएं क्या हैं? क्या वे शामिल हैं: स्वतंत्र और आश्रित चर के बीच एक रैखिक संबंध स्वतंत्र त्रुटियाँ त्रुटियों का सामान्य वितरण homoscedasticity क्या कोई और हैं?

13
शैनन की एन्ट्रापी में लघुगणक की भूमिका क्या है?
शैनन की एन्ट्रॉपी प्रत्येक परिणाम की संभावनाओं के लघुगणक द्वारा गुणा किए गए प्रत्येक परिणाम की संभावनाओं के योग का ऋणात्मक है। इस समीकरण में लघुगणक का क्या उद्देश्य है? एक सहज या दृश्य उत्तर (गहन गणितीय उत्तर के विपरीत) बोनस अंक दिए जाएंगे!

2
रिज रिग्रेशन को "रिज" क्यों कहा जाता है, इसकी आवश्यकता क्यों है, और क्या होता है जब अनंत तक जाता है?
रिज रिग्रेशन गुणांक अनुमान ऐसे मान हैं जो न्यूनतम होते हैंβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. मेरे प्रश्न हैं: यदि , तो हम देखते हैं कि ऊपर की अभिव्यक्ति सामान्य RSS पर कम हो जाती है। क्या होगा अगर ? मुझे गुणांक के व्यवहार की पाठ्यपुस्तक की व्याख्या समझ में …

2
बंद-रूप बनाम ढाल वंश में प्रतिगमन मापदंडों के लिए समाधान
एंड्रयू एनजी के मशीन लर्निंग कोर्स में , वह रैखिक प्रतिगमन और लॉजिस्टिक रिग्रेशन का परिचय देता है, और दिखाता है कि कैसे ढाल वंश और न्यूटन की विधि का उपयोग करके मॉडल मापदंडों को फिट किया जाए। मुझे पता है कि ढाल सीखने की मशीन सीखने के कुछ अनुप्रयोगों …

8
मशीन सीखने वालों में खोजने के लिए कौशल कठिन?
ऐसा लगता है कि डेटा माइनिंग और मशीन लर्निंग इतनी लोकप्रिय हो गई है कि अब लगभग हर सीएस छात्र को क्लासिफायर, क्लस्टरिंग, स्टेटिस्टिकल एनएलपी ... आदि के बारे में पता है, इसलिए ऐसा लगता है कि आजकल डेटा माइनर्स ढूंढना कोई मुश्किल बात नहीं है। मेरा सवाल है: क्या …

2
R [बंद] में डुप्लिकेट पंक्तियों को हटाकर डेटा फ्रेम
मैं इस उदाहरण डेटा फ़्रेम से डुप्लिकेट पंक्तियाँ कैसे निकाल सकता हूँ? A 1 A 1 A 2 B 4 B 1 B 1 C 2 C 2 मैं दोनों कॉलम के आधार पर डुप्लिकेट को निकालना चाहता हूं: A 1 A 2 B 4 B 1 C 2 आदेश …
71 r 

15
आर का उपयोग करके प्रतिलिपि प्रस्तुत करने योग्य अनुसंधान के पूर्ण मूल उदाहरण
प्रश्न: क्या आर के उपयोग से प्रजनन योग्य अनुसंधान के कोई अच्छे उदाहरण हैं जो स्वतंत्र रूप से ऑनलाइन उपलब्ध हैं? आदर्श उदाहरण: विशेष रूप से, आदर्श उदाहरण प्रदान करेगा: कच्चा डेटा (और आदर्श रूप से मेटा डेटा की व्याख्या करने वाला डेटा), डेटा आयात, प्रसंस्करण, विश्लेषण और उत्पादन पीढ़ी …


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.