सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

2
10-गुना क्रॉस-सत्यापन बनाम छुट्टी-एक-आउट क्रॉस-सत्यापन
मैं नेस्ट क्रॉस-वेलिडेशन कर रहा हूं। मैंने पढ़ा है कि लीव-वन-आउट क्रॉस-वैरिडेशन को बायस्ड किया जा सकता है (याद नहीं क्यों)। क्या 10-गुना क्रॉस-वैलिडेशन या लीव-वन-आउट-क्रॉस-वेलिडेशन का उपयोग करना बेहतर है, लीव-वन-आउट क्रॉस-वैलिडेशन के लिए लंबी अवधि के अलावा?

4
ओवरसैंपलिंग, अंडरसमैंपिंग और SMOTE से क्या समस्या हल होती है?
हाल ही में, अच्छी तरह से पढ़ा गया, सवाल, टिम पूछता है कि असंतुलित डेटा वास्तव में मशीन लर्निंग में एक समस्या है ? प्रश्न का आधार यह है कि वर्ग संतुलन और असंतुलित कक्षाओं की समस्या पर चर्चा करने वाला मशीनी अधिगम साहित्य है । यह विचार है कि …

1
अनुभवजन्य खाड़ी कैसे मान्य है?
इसलिए मैंने सिर्फ एक महान पुस्तक परिचय परिचय को पढ़ना समाप्त कर दिया । मुझे लगा कि पुस्तक महान थी, लेकिन डेटा से पुजारियों का निर्माण गलत लगा। मुझे प्रशिक्षण दिया गया था कि आप एक विश्लेषण योजना के साथ आते हैं, तब आप डेटा एकत्र करते हैं, फिर आप …

2
नकारात्मक द्विपद वितरण का निरंतर सामान्यीकरण
नकारात्मक द्विपद (NB) वितरण को गैर-नकारात्मक पूर्णांक पर परिभाषित किया गया है और इसमें प्रायिकता मास फ़ंक्शनक्या यह एक ही सूत्र द्वारा परिभाषित गैर-नकारात्मक वास्तविक पर निरंतर वितरण पर विचार करने के लिए समझ में आता है ( k_ in \ mathbb N_0 द्वारा x \ द्वारा \ mathbb R …

2
मात्रात्मक प्रतिगमन: हानि कार्य
मैं मात्रात्मक प्रतिगमन को समझने की कोशिश कर रहा हूं, लेकिन एक चीज जो मुझे परेशान करती है, वह है हानि कार्य का विकल्प। ρτ(u)=u(τ−1{u&lt;0})ρτ(u)=u(τ−1{u&lt;0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) मुझे पता है कि की उम्मीद की न्यूनतम के बराबर है -quantile, लेकिन सहज ज्ञान युक्त कारण इस समारोह के साथ शुरू करने …

2
निर्णय वृक्ष का आविष्कार किसने किया?
मैं ट्रेस करने की कोशिश कर रहा हूं कि निर्णय वृक्ष डेटा संरचना और एल्गोरिथ्म का आविष्कार किसने किया। निर्णय वृक्ष सीखने पर विकिपीडिया प्रविष्टि में दावा किया गया है कि "ID3 और CART का आविष्कार लगभग उसी समय (1970 और 1980 के बीच) में स्वतंत्र रूप से किया गया …
24 cart  history 

1
परिवर्तनशील ऑटोएन्कोडर्स क्या हैं और उनका उपयोग किन शिक्षण कार्यों के लिए किया जाता है?
के अनुसार इस और इस सवाल का जवाब, autoencoders एक तकनीक आयाम कम करने के लिए तंत्रिका नेटवर्क का उपयोग करता है होने लगते हैं। मैं अतिरिक्त पता है कि एक है चाहते हैं परिवर्तन संबंधी autoencoder (अपने मुख्य अंतर / एक "पारंपरिक" autoencoders से अधिक लाभ) है और यह …

2
क्या मिश्रित मॉडल भविष्य कहनेवाला मॉडल के रूप में उपयोगी हैं?
मैं भविष्यवाणी मॉडलिंग के संबंध में मिश्रित मॉडल के लाभों के बारे में थोड़ा भ्रमित हूं। चूंकि पूर्वानुमान मॉडल आमतौर पर पहले अज्ञात टिप्पणियों के मूल्यों की भविष्यवाणी करने के लिए होते हैं, तो यह मुझे स्पष्ट लगता है कि मिश्रित मॉडल का एकमात्र तरीका उपयोगी हो सकता है, जो …

3
बिना किसी पूर्व सिद्धांत के इतिहास
मैं एक बेनेसियन स्टेटिस्टिक्स कोर्स (इन इकोनॉमिक्स एम.एससी।) के लिए एक छोटा सैद्धांतिक निबंध लिख रहा हूं। अब तक, मेरे समयरेखा को तीन मुख्य चरण बनाए गए हैं: लाप्लास का उदासीनता सिद्धांत (1812), गैर-अनौपचारिक पादरी (जेफ्रीस (1946)), बर्नार्डो संदर्भ पूर्व (1979)। मेरे साहित्य की समीक्षा से, मुझे समझ में आया …

1
अर्ध कॉची वितरण के गुण क्या हैं?
मैं वर्तमान में एक समस्या पर काम कर रहा हूं, जहां मुझे एक राज्य अंतरिक्ष मॉडल के लिए मार्कोव श्रृंखला मोंटे कार्लो (एमसीएमसी) एल्गोरिदम विकसित करने की आवश्यकता है । समस्या को हल करने में सक्षम होने के लिए, मैं के निम्नलिखित संभावना दिया गया है ττ\tau पी (: ) …

3
क्या कारण है कि एडम ऑप्टिमाइज़र को अपने उच्च मापदंडों के मूल्य के लिए मजबूत माना जाता है?
मैं डीप लर्निंग के लिए एडम ऑप्टिमाइज़र के बारे में पढ़ रहा था और बेंगियो, गुडफेलो और कोर्टविल की नई किताब डीप लर्निंग में निम्नलिखित वाक्य आया : एडम को आमतौर पर हाइपर मापदंडों के चुनाव के लिए काफी मजबूत माना जाता है, हालांकि सीखने की दर को कभी-कभी सुझाए …

3
जब अंकगणित माध्य ज्यामितीय माध्य के बहुत करीब होता है तो डेटा के बारे में क्या निष्कर्ष निकाला जा सकता है?
क्या ज्यामितीय माध्य और अंकगणित माध्य के बारे में कुछ महत्वपूर्ण है जो एक दूसरे के बहुत करीब आते हैं, कहते हैं ~ 0.1%? ऐसे डेटा सेट के बारे में क्या अनुमान लगाया जा सकता है? मैं एक डेटा सेट का विश्लेषण करने पर काम कर रहा हूं, और मैं …

1
MCMC नमूनों से सीमांत संभावना की गणना
यह एक आवर्ती प्रश्न है ( इस पोस्ट , इस पोस्ट और इस पोस्ट को देखें ), लेकिन मेरे पास एक अलग स्पिन है। मान लीजिए कि मेरे पास एक सामान्य MCMC नमूना से नमूनों का एक गुच्छा है। प्रत्येक नमूने के लिए θθ\theta , मैं लॉग संभावना का मूल्य …

7
आंकड़ों में गैर-तकनीकी अभी तक गहरे लेखों के लिए सिफारिशें
इस सवाल के लिए प्रेरणा देर लियो-ब्रेमेन के प्रसिद्ध लेख सांख्यिकीय मॉडलिंग: द टू कल्चर (उपलब्ध खुली पहुंच) से मिलती है । लेखक तुलना करता है कि वह डेटा का विश्लेषण करने के लिए दो विषम दृष्टिकोणों के रूप में क्या देखता है, शास्त्रीय आंकड़ों और मशीन सीखने के प्रमुख …
24 references 

4
एनोवा बनाम कई रैखिक प्रतिगमन? प्रायोगिक अध्ययनों में ANOVA का आमतौर पर उपयोग क्यों किया जाता है?
एनोवा बनाम कई रैखिक प्रतिगमन? मैं समझता हूं कि ये दोनों विधियाँ एक ही सांख्यिकीय मॉडल का उपयोग करती हैं। हालाँकि मुझे किन परिस्थितियों में किस विधि का उपयोग करना चाहिए? तुलना करने पर इन तरीकों के फायदे और नुकसान क्या हैं? ANOVA का प्रयोग आमतौर पर प्रायोगिक अध्ययनों में …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.