सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

9
तंत्रिका नेटवर्क भविष्यवाणी के विश्वास का निर्धारण कैसे करें?
मेरे प्रश्न का वर्णन करने के लिए, मान लीजिए कि मेरे पास एक प्रशिक्षण सेट है जहां इनपुट में शोर की डिग्री है, लेकिन आउटपुट उदाहरण के लिए नहीं है; # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : …

3
व्याख्यात्मक चर के साथ प्रतिगमन त्रुटि शब्द को कभी कैसे संबद्ध किया जा सकता है?
इस विकी पृष्ठ के पहले वाक्य का दावा है कि "अर्थमिति में, एक समरूपता समस्या तब होती है जब एक व्याख्यात्मक चर त्रुटि शब्द के साथ सहसंबद्ध होता है। 1 " मेरा सवाल यह है कि यह कभी कैसे हो सकता है? क्या प्रतिगमन बीटा ऐसा नहीं चुना गया है …
22 regression 

3
अत्यधिक असंतुलित डेटा के लिए वर्गीकरण / मूल्यांकन मेट्रिक्स
मैं एक धोखाधड़ी का पता लगाने (क्रेडिट-स्कोरिंग जैसी) समस्या से निपटता हूं। जैसे कि धोखाधड़ी और गैर-धोखाधड़ी टिप्पणियों के बीच अत्यधिक असंतुलित संबंध है। http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html विभिन्न वर्गीकरण मीट्रिक का एक बड़ा अवलोकन प्रदान करता है। Precision and Recallया kappaदोनों एक अच्छा विकल्प लगते हैं: ऐसे क्लासिफायर के परिणामों को सही …

3
एक तंत्रिका नेटवर्क के पूर्व प्रशिक्षण क्या है?
खैर सवाल यह सब कहता है। "पूर्व प्रशिक्षण एक तंत्रिका नेटवर्क" से क्या अभिप्राय है? क्या कोई शुद्ध सरल अंग्रेजी में समझा सकता है? मुझे इससे संबंधित कोई संसाधन नहीं मिल रहे हैं। यह बहुत अच्छा होगा अगर कोई मुझे उनसे बात कर सके।

2
क्या सभी मशीन लर्निंग एल्गोरिदम अलग-अलग डेटा को लीनियरली करते हैं?
मैं प्रोग्रामिंग और मशीन लर्निंग का शौकीन हूं। केवल कुछ महीने पहले मैंने मशीन लर्निंग प्रोग्रामिंग के बारे में सीखना शुरू किया। बहुत से लोग जिनके पास मात्रात्मक विज्ञान की पृष्ठभूमि नहीं है, मैंने भी व्यापक रूप से उपयोग किए जाने वाले एमएल पैकेज (कैरेट आर) में एल्गोरिदम और डेटासेट …

6
संभावना - क्यों गुणा करें?
मैं अधिकतम संभावना आकलन के बारे में अध्ययन कर रहा हूं और मैंने पढ़ा है कि संभावना फ़ंक्शन प्रत्येक चर की संभावनाओं का उत्पाद है। यह उत्पाद क्यों है? योग क्यों नहीं? मैं Google पर खोज करने की कोशिश कर रहा हूं लेकिन मुझे कोई सार्थक उत्तर नहीं मिल रहा …

2
क्रमपरिवर्तन परीक्षण की क्या धारणाएं हैं?
यह अक्सर कहा जाता है कि क्रमपरिवर्तन परीक्षणों की कोई धारणा नहीं है, हालांकि यह निश्चित रूप से सच नहीं है। उदाहरण के लिए अगर मेरे नमूने किसी तरह सहसंबद्ध हैं, तो मैं सोच सकता हूं कि उनके लेबल को अनुमति देना सही बात नहीं होगी। केवल मुझे लगता है …

2
औसत निरपेक्ष त्रुटि की व्याख्या (MASE)
मीन पूर्ण निरपेक्ष त्रुटि (MASE) कोहलर और हयंडमैन (2006) द्वारा प्रस्तावित पूर्वानुमान सटीकता का एक उपाय है । एमअ सए= एमए ईएमए ईi n - s a m p l e ,nएक मैं वी ईएमएएसए=एमएएएमएएमैंn-रोंएमीटरपीएलई,nएमैंvईMASE=\frac{MAE}{MAE_{in-sample, \, naive}} जहां वास्तविक पूर्वानुमान द्वारा उत्पादित औसत निरपेक्ष त्रुटि है; जबकि एक भोले पूर्वानुमान …

1
विचरण का नमूना वितरण एक ची-वर्गीय वितरण क्यों है?
बयान नमूना विचरण का नमूना वितरण स्वतंत्रता के बराबर की डिग्री के साथ एक ची-वर्गीय वितरण है n−1n−1n-1, जहां nnn नमूना आकार है (यह देखते हुए कि ब्याज का यादृच्छिक चर सामान्य रूप से वितरित किया जाता है)। स्रोत मेरा अंतर्ज्ञान यह थोड़े मेरे लिए सहज ज्ञान युक्त बनाता है …

3
एक आंशिक निर्भरता भूखंडों की वाई अक्ष की व्याख्या करना
इस सवाल को स्टैक ओवरफ्लो से माइग्रेट किया गया क्योंकि इसका जवाब क्रॉस वैलिडेट पर दिया जा सकता है। माइग्रेट 5 साल पहले । मैंने आंशिक निर्भरता भूखंडों पर अन्य विषयों के माध्यम से पढ़ा है और उनमें से अधिकांश इस बात पर हैं कि आप वास्तव में उन्हें अलग-अलग …

5
समय-श्रृंखला भविष्यवाणी के लिए डेटासेट कैसे विभाजित करें?
मेरे पास एक बेकरी से ऐतिहासिक बिक्री डेटा है (दैनिक, 3 साल से अधिक)। अब मैं भविष्य की बिक्री की भविष्यवाणी करने के लिए एक मॉडल बनाना चाहता हूं (कार्यदिवस, मौसम चर, आदि जैसी सुविधाओं का उपयोग करके)। मुझे मॉडल के फिटिंग और मूल्यांकन के लिए डेटासेट कैसे विभाजित करना …

4
क्या फिशर का एलएसडी उतना ही बुरा है जितना वे कहते हैं?
जब हम दो समूहों पर प्रयोग करते हैं (छोटे नमूना आकार पर (आमतौर पर उपचार समूह प्रति नमूना आकार 7 ~ 8 के बारे में)), हम अंतर के लिए परीक्षण करने के लिए एक टी-टेस्ट का उपयोग करते हैं। हालाँकि, जब हम एक एनोवा (स्पष्ट रूप से दो से अधिक …

3
अनुचित पूर्व उचित वितरण को कैसे बढ़ावा दे सकता है?
हम जानते हैं कि उचित पूर्व वितरण के मामले में, पी( ∣ θ X) = पी( एक्स)| Θ ) पी( Θ )पी( एक्स))पी(θ|एक्स)=पी(एक्स|θ)पी(θ)पी(एक्स)P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} ∝ पी( एक्स)| Θ ) पी( Θ )αपी(एक्स|θ)पी(θ) \propto P(X \mid \theta)P(\theta) । इस कदम का सामान्य औचित्य यह है कि …

2
डेटा में कुछ भिन्नता होने के बावजूद मुझे अपने मिश्रित मॉडल में एक यादृच्छिक प्रभाव का शून्य संस्करण क्यों मिलता है?
हमने निम्नलिखित सिंटैक्स का उपयोग करके एक मिश्रित प्रभाव लॉजिस्टिक रिग्रेशन चलाया है; # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) विषय और आइटम यादृच्छिक प्रभाव हैं। हम एक विषम परिणाम प्राप्त कर रहे हैं जो …

3
क्यों अधिकतम संभावना और अपेक्षित संभावना नहीं है?
मापदंडों के अधिकतम संभावना अनुमान प्राप्त करना इतना सामान्य क्यों है, लेकिन आप वास्तव में संभावित संभावना पैरामीटर अनुमानों के बारे में कभी नहीं सुनते हैं (यानी, संभावना फ़ंक्शन के मोड के बजाय अपेक्षित मूल्य के आधार पर )? क्या यह मुख्य रूप से ऐतिहासिक कारणों से है, या अधिक …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.