सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

1
क्या L1 नियमितीकरण के साथ प्रतिगमन Lasso के समान है, और L2 नियमितीकरण के साथ रिज प्रतिगमन के समान है? और "लासो" कैसे लिखें?
मैं एक सॉफ्टवेयर इंजीनियर लर्निंग मशीन लर्निंग हूं, खासकर एंड्रयू एनजी के मशीन लर्निंग कोर्स के जरिए । नियमितीकरण के साथ रैखिक प्रतिगमन का अध्ययन करते समय , मुझे ऐसे शब्द मिले हैं जो भ्रामक हैं: एल 1 नियमितीकरण या एल 2 नियमितीकरण के साथ प्रतिगमन LASSO रिज रिग्रेशन तो …

3
रैंडम वन आउटलेर्स के प्रति संवेदनशील नहीं हैं
मैंने इस एक सहित कुछ स्रोतों में पढ़ा है , कि रैंडम फ़ॉरेस्ट आउटलेर्स के लिए संवेदनशील नहीं हैं (जिस तरह से लॉजिस्टिक रिग्रेशन और अन्य एमएल तरीके हैं, उदाहरण के लिए)। हालाँकि, अंतर्ज्ञान के दो टुकड़े मुझे अन्यथा बताते हैं: जब भी निर्णय वृक्ष का निर्माण किया जाता है, …

1
बूस्टिंग के लिए सापेक्ष चर महत्व
मैं इस बात की व्याख्या कर रहा हूं कि कैसे ग्रेडिएंट बूस्टेड पेड़ों में सापेक्ष परिवर्तनीय महत्व की गणना की जाती है जो सामान्य रूप से सामान्य / सरल नहीं है: उपायों को विभाजित करने के लिए चर का चयन करने की संख्या के आधार पर किया जाता है, प्रत्येक …

2
क्या तिखोनोव नियमितीकरण रिज रिज्रेशन के समान है?
Tikhonov नियमितीकरण और रिज प्रतिगमन अक्सर ऐसे शब्दों के रूप में उपयोग किया जाता है जैसे कि वे समान थे। क्या यह निर्दिष्ट करना संभव है कि अंतर क्या है?

2
रैखिक प्रतिगमन में विश्वास बैंड के आकार और गणना को समझना
मैं एक ओएलएस रैखिक प्रतिगमन के साथ जुड़े विश्वास बैंड के घुमावदार आकार की उत्पत्ति को समझने की कोशिश कर रहा हूं और यह कैसे प्रतिगमन मापदंडों (ढलान और अवरोधन) के आत्मविश्वास अंतराल से संबंधित है, उदाहरण के लिए (आर का उपयोग करके): require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) …

3
छिपे हुए मार्कोव मॉडल और सशर्त यादृच्छिक क्षेत्रों के बीच सहज अंतर
मैं समझता हूं कि एचएमएम (हिडन मार्कोव मॉडल) जेनेरेटिव मॉडल हैं, और सीआरएफ भेदभावपूर्ण मॉडल हैं। मैं यह भी समझता हूं कि CRF (कंडिशनल रैंडम फील्ड्स) कैसे डिजाइन और उपयोग किए जाते हैं। मुझे समझ में नहीं आता कि वे एचएमएम से कैसे अलग हैं? मैंने पढ़ा है कि एचएमएम …

4
रिज, लासो और इलास्टिक नेट
रिज, LASSO और इलास्टिक नियमितिकरण विधियों की तुलना कैसे करते हैं? उनके संबंधित फायदे और नुकसान क्या हैं? किसी भी अच्छे तकनीकी पेपर, या लेक्चर नोट्स की सराहना की जाएगी।

2
बूटस्ट्रैप विधि / प्रस्तावित विधि के लिए आवश्यक नमूना आकार का निर्धारण
मुझे पता है कि यह एक बहुत ही गर्म विषय है जहां कोई भी वास्तव में एक सरल जवाब नहीं दे सकता है। फिर भी मैं सोच रहा हूं कि क्या निम्नलिखित दृष्टिकोण उपयोगी नहीं हो सकता है। बूटस्ट्रैप विधि केवल तभी उपयोगी है जब आपका नमूना अधिक या कम …

5
असतत और निरंतर चर दोनों के साथ एक डाटासेट क्लस्टरिंग
मेरे पास एक डेटासेट X है जिसमें 10 आयाम हैं, जिनमें से 4 असतत मान हैं। वास्तव में, वे 4 असतत चर क्रमबद्ध होते हैं, अर्थात उच्च मूल्य का अर्थ उच्च / बेहतर शब्दार्थ होता है। इन असतत चर में से 2 इस अर्थ में स्पष्ट हैं कि इनमें से …

5
सूचना का लाभ, आपसी जानकारी और संबंधित उपाय
एंड्रयू अधिक जानकारी के लाभ को परिभाषित करता है : IG(Y|X)=H(Y)−H(Y|X)मैंजी(Y|एक्स)=एच(Y)-एच(Y|एक्स)IG(Y|X) = H(Y) - H(Y|X) जहां है सशर्त एन्ट्रापी । हालाँकि, विकिपीडिया उपरोक्त मात्रा को पारस्परिक जानकारी कहता है ।H(Y|X)H(Y|X)H(Y|X) दूसरी ओर विकिपीडिया दो यादृच्छिक चर के बीच सूचना लाभ को कुल्बैक-लीब्लर डाइवर्जेंस (उर्फ सूचना विचलन या रिश्तेदार एन्ट्रापी) के …

7
क्या विमान पर एक नमूने के मध्य के लिए एक स्वीकृत परिभाषा है, या उच्चतर रिक्त स्थान हैं?
यदि ऐसा है तो क्या? यदि नहीं, तो क्यों नहीं? लाइन पर एक नमूना के लिए, माध्य कुल निरपेक्ष विचलन को कम करता है। यह परिभाषा को R2 तक विस्तारित करना स्वाभाविक होगा, आदि, लेकिन मैंने इसे कभी नहीं देखा है। लेकिन फिर, मैं लंबे समय से बाएं क्षेत्र में …

7
आप केंद्रीय सीमा प्रमेय की सुंदरता को एक गैर-सांख्यिकीविद् तक कैसे पहुंचाते हैं?
मेरे पिता एक गणित उत्साही हैं, लेकिन आंकड़ों में ज्यादा दिलचस्पी नहीं रखते हैं। यह आँकड़ों के कुछ अद्भुत बिट्स को चित्रित करने का प्रयास करना अच्छा होगा , और CLT एक प्रमुख उम्मीदवार है। आप एक गैर-सांख्यिकीविद को केंद्रीय सीमा प्रमेय के गणितीय सौंदर्य और प्रभाव को कैसे बताएंगे?

4
तनह लगभग हमेशा एक सक्रियण फ़ंक्शन के रूप में सिग्मॉइड से बेहतर क्यों होता है?
एंड्रयू एनजी के दशक में Coursera पर तंत्रिका नेटवर्क और दीप लर्निंग पाठ्यक्रम वह कहता है कि का उपयोग कर लगभग हमेशा उपयोग करने के लिए बेहतर है ।tanhtanhtanhsigmoidsigmoidsigmoid कारण वह देता है कि का उपयोग कर उत्पादन है केंद्र नहीं बल्कि आसपास 0 से के 0.5, और इस "अगले …

2
पदानुक्रमित क्लस्टरिंग के लिए सही लिंकेज विधि चुनना
मैं उस डेटा पर पदानुक्रमिक क्लस्टरिंग कर रहा हूं जिसे मैंने इकट्ठा किया है और Google BigQuery पर रेडिट डेटा डंप से संसाधित किया है। मेरी प्रक्रिया निम्नलिखित है: नवीनतम 1000 पोस्ट / आर / राजनीति में प्राप्त करें सभी टिप्पणियों को इकट्ठा करें डेटा संसाधित करें और एक n …

1
पूर्ववर्ती पूर्वानुमान जांच क्या हैं और क्या उन्हें उपयोगी बनाती हैं?
मैं समझता हूं कि पोस्टीरियर प्रेडिक्टिव डिस्ट्रीब्यूशन क्या है और मैं पोस्टीरियर प्रेडिक्टिव चेक के बारे में पढ़ रहा हूं , हालांकि यह मेरे लिए स्पष्ट नहीं है कि यह अभी तक क्या है। वास्तव में पश्चगामी पूर्वानुमान क्या है? क्यों कुछ लेखकों का कहना है कि पोस्टीरियर प्रेडिक्टिव चेक …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.