सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

26
हर सांख्यिकीविद् को एक सबसे प्रभावशाली किताब कौन सी पढ़नी चाहिए?
यदि आप समय पर वापस जा सकते हैं और अपने आप को एक सांख्यिकीविद् के रूप में अपने कैरियर की शुरुआत में एक विशिष्ट पुस्तक पढ़ने के लिए कह सकते हैं, तो यह कौन सी पुस्तक होगी?
77 references 

6
टी-एसएनई के आउटपुट पर क्लस्टरिंग
मुझे एक आवेदन मिला है, जहां समूहों के भीतर उपसमूह प्रभाव की तलाश करने से पहले शोर करने वाले डेटासेट को क्लस्टर करना आसान होगा। मैंने पहली बार PCA को देखा, लेकिन इसमें 90% परिवर्तनशीलता प्राप्त करने के लिए ~ 30 घटक लगते हैं, इसलिए पीसी के एक जोड़े पर …

9
गणितज्ञ एक गुणवत्ता आँकड़े डिग्री के बराबर ज्ञान चाहता है
मुझे पता है कि लोग डुप्लिकेट को बंद करना पसंद करते हैं इसलिए मैं सीखने के आँकड़े ( यहाँ ) शुरू करने के लिए संदर्भ नहीं माँग रहा हूँ । मेरे पास गणित में डॉक्टरेट है लेकिन कभी भी आँकड़े नहीं सीखे। एक शीर्ष पायदान बीएस सांख्यिकी की डिग्री के …

7
आंकड़ों में 'बड़ी समस्याएं' क्या हैं?
गणित की अपनी प्रसिद्ध मिलेनियम समस्याएं हैं (और, ऐतिहासिक रूप से, हिल्बर्ट 23 ), ऐसे प्रश्न जिन्होंने क्षेत्र की दिशा को आकार देने में मदद की। मुझे बहुत कम अंदाजा है, हालांकि, रिमान हाइपोथेसिस और पी बनाम एनपी के आंकड़े क्या होंगे। तो, आंकड़ों में भारी सवाल क्या हैं? जोड़ने …
77 history 


14
"सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं" का अर्थ क्या है
"अनिवार्य रूप से, सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं।" --- बॉक्स, जॉर्ज ईपी; नॉर्मन आर। ड्रेपर (1987)। अनुभवजन्य मॉडल-बिल्डिंग और प्रतिक्रिया सतहों, पी। 424, विले। आईएसबीएन 0471810339। उपरोक्त वाक्यांश का सही अर्थ क्या है?
76 modeling 

3
फ़ीचर चयन और क्रॉस-सत्यापन
मैं हाल ही में इस साइट पर बहुत कुछ पढ़ रहा हूं (@Aniko, @Dikran Marsupial, @Erik) और अन्य जगहों पर क्रॉस वैरिफिकेशन के साथ ओवरफिटिंग की समस्या के बारे में - (स्मियालॉस्की एट अल 2010 बायोइनफॉरमैटिक्स, हस्ती, सांख्यिकीय शिक्षा के तत्व)। सुझाव यह है कि किसी भी पर्यवेक्षित सुविधा चयन …

5
चरणबद्ध प्रतिगमन के लिए आधुनिक, आसानी से उपयोग किए जाने वाले विकल्प क्या हैं?
मेरे पास लगभग 30 स्वतंत्र चर के साथ एक डेटासेट है और उनके और आश्रित चर के बीच संबंधों का पता लगाने के लिए एक सामान्यीकृत रैखिक मॉडल (GLM) का निर्माण करना चाहते हैं। मुझे ज्ञात है कि इस स्थिति के लिए मुझे जो विधि सिखाई गई थी, स्टेप वाइज …

1
सहायता वेक्टर मशीनों को समझने में मेरी मदद करें
मैं एक सपोर्ट वेक्टर मशीनों के उद्देश्य की मूल बातें समझता हूं, जो कई अलग-अलग वर्गों में सेट किए गए इनपुट को वर्गीकृत करने के संदर्भ में है, लेकिन जो मुझे समझ में नहीं आता है वह है कुछ बारीकियों का विवरण। शुरुआत के लिए, मैं स्लैक वेरिएबल्स के उपयोग …

6
मशीन लर्निंग में क्रॉस-सत्यापन करते समय "अंतिम" मॉडल के लिए फ़ीचर चयन
मैं फीचर चयन और मशीन सीखने के बारे में थोड़ा भ्रमित हो रहा हूं और मैं सोच रहा था कि क्या आप मेरी मदद कर सकते हैं। मेरे पास एक माइक्रोएरे डेटासेट है जिसे दो समूहों में वर्गीकृत किया गया है और इसमें कई सुविधाएँ हैं। मेरा उद्देश्य हस्ताक्षर में …

3
लॉजिस्टिक रिग्रेशन को लॉजिस्टिक क्लासिफिकेशन क्यों नहीं कहा जाता है?
चूंकि लॉजिस्टिक रिग्रेशन एक सांख्यिकीय वर्गीकरण मॉडल है जो श्रेणीबद्ध निर्भर चर के साथ काम करता है, इसे लॉजिस्टिक वर्गीकरण क्यों नहीं कहा जाता है ? क्या "प्रतिगमन" नाम को निरंतर आश्रित चर से निपटने वाले मॉडल के लिए आरक्षित नहीं किया जाना चाहिए?

3
लसो वैरिएबल चयन क्यों प्रदान करता है?
मैं स्टैटिस्टिकल लर्निंग के एलीमेंट्स पढ़ रहा हूं, और मैं जानना चाहूंगा कि लास्सो वेरिएबल सेलेक्शन और रिज रिग्रेशन क्यों नहीं देता। दोनों विधियाँ वर्गों के अवशिष्ट योग को कम करती हैं और पैरामीटर के संभावित मूल्यों पर एक बाधा होती हैं । लास्सो के लिए, बाधा है , जबकि …

3
एक प्रकाशन में एक यादृच्छिक जंगल प्रस्तुत करने का सबसे अच्छा तरीका?
मैं विभिन्न सुविधाओं के साथ एक माइक्रोएरे अध्ययन में दो समूहों के एक मजबूत वर्गीकरण के रूप में यादृच्छिक वन एल्गोरिथ्म का उपयोग कर रहा हूं। यादृच्छिक वन को प्रस्तुत करने का सबसे अच्छा तरीका क्या है ताकि एक कागज में इसे प्रतिलिपि प्रस्तुत करने योग्य बनाने के लिए पर्याप्त …

5
कृपया विरोधाभास की व्याख्या करें
कुछ साल पहले मैंने एक रेडिएशन डिटेक्टर डिजाइन किया था, जो उन्हें गिनने के बजाय घटनाओं के बीच के अंतराल को मापकर काम करता है। मेरी धारणा थी, कि जब गैर-सन्निहित नमूनों को मापा जाता है, तो औसतन मैं वास्तविक अंतराल के आधे हिस्से को मापूंगा। हालाँकि जब मैंने एक …

3
लॉजिस्टिक प्रतिगमन के लिए निदान?
रैखिक प्रतिगमन के लिए, हम नैदानिक ​​भूखंडों (अवशिष्ट भूखंडों, सामान्य QQ भूखंडों, आदि) की जांच कर सकते हैं कि क्या रैखिक प्रतिगमन की धारणाओं का उल्लंघन किया गया है। लॉजिस्टिक रिग्रेशन के लिए, मुझे उन संसाधनों को खोजने में परेशानी हो रही है जो बताते हैं कि लॉजिस्टिक रिग्रेशन मॉडल …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.