सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

1
"वर्णक्रमीय अपघटन" के माध्यम से रिज प्रतिगमन का उपयोग करने वाले गुणांक के सिकुड़ने का प्रमाण
मैंने समझा है कि रिज रिग्रेशन गुणांक को शून्य ज्यामितीय रूप से कैसे सिकोड़ता है। इसके अलावा मुझे पता है कि विशेष "ऑर्थोनॉमिक केस" में यह कैसे साबित किया जाए, लेकिन मैं भ्रमित हूं कि यह सामान्य मामले में "स्पेक्ट्रल अपघटन" के माध्यम से कैसे काम करता है।

7
सममित सकारात्मक निश्चित (एसपीडी) मैट्रिक्स इतने महत्वपूर्ण क्यों हैं?
मैं सममित सकारात्मक निश्चित (एसपीडी) मैट्रिक्स की परिभाषा जानता हूं, लेकिन अधिक समझना चाहता हूं। वे इतने महत्वपूर्ण क्यों हैं, सहज ज्ञान युक्त? यहाँ मुझे क्या पता है और क्या? किसी दिए गए डेटा के लिए, सह-विचरण मैट्रिक्स SPD है। सह-विचरण मैट्रिक्स एक महत्वपूर्ण मीट्रिक है, सहज व्याख्या के लिए …

4
सीखने और अनुमान में क्या अंतर है?
मशीन लर्निंग रिसर्च पेपर अक्सर सीखने और अनुमान को दो अलग-अलग कार्यों के रूप में मानते हैं, लेकिन यह मेरे लिए बिल्कुल स्पष्ट नहीं है कि भेद क्या है। में इस पुस्तक उदाहरण के लिए वे कार्य के दोनों प्रकार के लिए बायेसियन आंकड़ों का उपयोग, लेकिन वह गौरव के …

4
तंत्रिका नेटवर्क के लिए कोण डेटा एन्कोडिंग
मैं एक तंत्रिका नेटवर्क (विवरण महत्वपूर्ण नहीं) का प्रशिक्षण ले रहा हूं जहां लक्ष्य डेटा कोणों (0 और 2 * पीआई के बीच) का वेक्टर है। मैं इस डेटा को एन्कोड करने की सलाह के लिए देख रहा हूँ। यहाँ मैं वर्तमान में (सीमित सफलता के साथ) कोशिश कर रहा …

1
यदि LASSO लाइपलेस के साथ रैखिक प्रतिगमन के बराबर है, तो शून्य पर घटकों के साथ सेट पर द्रव्यमान कैसे हो सकता है?
हम सभी इस धारणा से परिचित हैं कि साहित्य में अच्छी तरह से प्रलेखित है, कि LASSO ऑप्टिमाइज़ेशन (सरलता के लिए लीनियर रिग्रेशन के मामले पर यहाँ ध्यान देना) गाऊसी त्रुटियों के साथ रेखीय मॉडल है, जिसमें मापदंडों लाप्लास दिया जाता है पूर्व के बराबर है \ exp - (\ …

3
क्यों AUC = 1 भी क्लासिफायर ने नमूने के आधे हिस्से को गलत तरीके से रखा है?
मैं एक क्लासिफायरियर का उपयोग कर रहा हूं जो संभाव्यता लौटाता है। एयूसी की गणना करने के लिए, मैं पीआरओसी आर-पैकेज का उपयोग कर रहा हूं। क्लासिफायर से आउटपुट संभावनाएं हैं: probs=c(0.9865780, 0.9996340, 0.9516880, 0.9337157, 0.9778576, 0.8140116, 0.8971550, 0.8967585, 0.6322902, 0.7497237) probsकक्षा '1' में होने की संभावना दर्शाता है। जैसा …

3
मशीन लर्निंग में, सब्सक्रिप्शन के बजाय सुपरस्क्रिप्ट का उपयोग क्यों किया जाता है?
मैं कोर्टर के माध्यम से मशीन लर्निंग पर एंड्रयू एनजी का कोर्स कर रहा हूं । समीकरणों के लिए, सब्सक्रिप्शन के बजाय सुपरस्क्रिप्ट का उपयोग किया जाता है। उदाहरण के लिए, बजाय निम्नलिखित समीकरण का उपयोग किया जाता है : x iएक्स( i )x(i)x^{(i)}एक्समैंxix_i जे( θ0, θ1) = 12 मीΣमैं …

1
क्या भविष्यवाणी के लिए स्प्लिन का उपयोग किया जा सकता है?
मैं डेटा की प्रकृति के बारे में विशिष्ट नहीं हो सकता क्योंकि यह स्वामित्व है, लेकिन मान लीजिए कि हमारे पास इस तरह का डेटा है: प्रत्येक महीने, कुछ लोग एक सेवा के लिए साइन अप करते हैं। फिर, प्रत्येक बाद के महीने में, वे लोग सेवा को अपग्रेड कर …


1
नमूना मानक विचलन की मानक त्रुटि क्या है?
मैंने वहां से पढ़ा कि नमूना विचरण की मानक त्रुटि है SEs2=2σ4N−1−−−−−−√SEs2=2σ4N−1SE_{s^2} = \sqrt{\frac{2 \sigma^4}{N-1}} What is the standard error of the sample standard deviation? I'd be tempted to guess and say that SEs=SEs2−−−−√SEs=SEs2SE_{s} = \sqrt{SE_{s^2}} but I am not sure.

5
क्यों हम एक सामान्य वितरण के के लिए एक पक्षपाती और भ्रामक मानक विचलन सूत्र का उपयोग कर रहे हैं ?
यह एक सदमे का एक सा के रूप में मेरे लिए पहली बार मैं एक सामान्य वितरण मोंटे कार्लो सिमुलेशन किया था और पता चला कि का मतलब आया से मानक विचलन नमूने, सब केवल का एक नमूना आकार होने , बहुत कम साबित हुई की तुलना में, औसत, बार, …

4
मैट्रिक्स कैलकुलस पर पाठ्यपुस्तकें?
इस सवाल को मैथ एसई पर देखें । लघु कथा: मैंने पढ़ा सांख्यिकीय लर्निंग के तत्वों और निराश हो गया जब मैं, परिणाम में से कुछ को सत्यापित करने के कोशिश कर रहा था जैसे, दी तो आरएसएस ( β) = ( Y - एक्स β)टी( y - एक्स β) …

1
क्या स्टीन के विरोधाभास अभी भी पकड़ का उपयोग करते समय आदर्श के बजाय आदर्श?
स्टीन के विरोधाभास से पता चलता है कि जब तीन या अधिक मापदंडों का एक साथ अनुमान लगाया जाता है, तो संयुक्त अनुमानक किसी भी विधि की तुलना में औसतन अधिक सटीक होते हैं (अर्थात कम अपेक्षित औसत वर्ग त्रुटि), जो मापदंडों को अलग से संभालती है। यह एक बहुत …

1
पीसीए / पत्राचार विश्लेषण में "घोड़े की नाल प्रभाव" और / या "आर्च प्रभाव" क्या है?
बहुआयामी डेटा के खोजपूर्ण डेटा विश्लेषण के लिए पारिस्थितिक आंकड़ों में कई तकनीकें हैं। इन्हें 'ऑर्डिनेशन' तकनीक कहा जाता है। कई समान या बारीकी से आँकड़ों में कहीं सामान्य तकनीकों से संबंधित हैं। शायद प्रोटोटाइप का उदाहरण मुख्य घटक विश्लेषण (पीसीए) होगा। पारिस्थितिकीविज्ञानी 'ग्रेडिएंट' का पता लगाने के लिए पीसीए …

1
क्रमिक डेटा आउटपुट करने के लिए तंत्रिका नेटवर्क कैसे सेट करें?
मेरे पास एक तंत्रिका नेटवर्क है जो कुछ का अनुमान लगाने के लिए सेट किया गया है जहां आउटपुट चर सामान्य है। मैं नीचे तीन संभावित आउटपुट ए <बी <सी का उपयोग करके वर्णन करूंगा। यह स्पष्ट है कि कैसे एक न्यूरल नेटवर्क का उपयोग श्रेणीबद्ध डेटा के उत्पादन के …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.