सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

2
मॉडल चयन के बाद क्रॉस सत्यापन (त्रुटि सामान्यीकरण)
नोट: मामला n >> p है मैं सांख्यिकीय शिक्षण के तत्वों को पढ़ रहा हूं और क्रॉस वेलिडेशन करने के "सही" तरीके के बारे में विभिन्न उल्लेख हैं (जैसे पृष्ठ 60, पृष्ठ 245)। विशेष रूप से, मेरा सवाल यह है कि जब कोई मॉडल खोज की गई है तो के-गुना …

4
पैमाने के मापदंडों के लिए कमजोर सूचनात्मक पूर्व वितरण
जब मैं पैमाने के मापदंडों (सामान्य वितरण, टी वितरण आदि) के लिए पूर्व वितरण के रूप में लॉग सामान्य वितरण का उपयोग कर रहा हूं, जब मुझे इस बारे में एक मोटा विचार है कि पैमाने क्या होना चाहिए, लेकिन मैं यह नहीं जानता कि मैं क्या करना चाहता हूं …


5
सिद्धांत को मापने के लिए परिचय
मुझे नॉनपैरेमेट्रिक बायेसियन (और संबंधित) तकनीकों के बारे में अधिक जानने में दिलचस्पी है। मेरी पृष्ठभूमि कंप्यूटर विज्ञान में है और हालांकि मैंने कभी भी माप सिद्धांत या संभाव्यता सिद्धांत पर कोई कोर्स नहीं किया है, लेकिन मुझे संभावना और सांख्यिकी में सीमित प्रशिक्षण मिला है। क्या कोई मुझे शुरू …

2
मापने दस्तावेज़ समानता
क्लस्टर (पाठ) दस्तावेजों के लिए आपको दस्तावेजों के जोड़े के बीच समानता को मापने का एक तरीका चाहिए। दो विकल्प हैं: कॉशन समानता के रूप में टर्म वैक्टर के दस्तावेजों की तुलना करें - और शब्दों के लिए भार के रूप में TF / IDF। F-divergence जैसे Kullback-Leibler divergence का …

2
कैसे एक बिजली कानून के लिए एक प्रवृत्ति के फिट की अच्छाई को मापने / तर्क करने के लिए?
मेरे पास कुछ डेटा है जिसके लिए मैं एक ट्रेंडलाइन फिट करने की कोशिश कर रहा हूं। मेरा मानना ​​है कि डेटा एक शक्ति कानून का पालन करता है, और इसलिए लॉग-इन कुल्हाड़ियों पर डेटा को एक सीधी रेखा की तलाश में लगाया है। इसके परिणामस्वरूप (लगभग) सीधी रेखा और …

3
निर्धारण का गुणांक (
मैं पूरी तरह से की धारणा को समझना चाहता हूं चर के बीच भिन्नता की मात्रा का वर्णन करता है। हर वेब स्पष्टीकरण थोड़ा यांत्रिक और अप्रचलित है। मैं अवधारणा को "प्राप्त" करना चाहता हूं, न कि केवल यंत्रवत् संख्याओं का उपयोग करना।r2r2r^2 जैसे: घंटे का अध्ययन बनाम परीक्षण स्कोर …

5
साइन लहरों की भविष्यवाणी करने में मैं अपने तंत्रिका नेटवर्क को बेहतर कैसे बनाऊं?
यहां, एक नज़र डालें: आप ठीक से देख सकते हैं कि प्रशिक्षण डेटा कहाँ समाप्त होता है। प्रशिक्षण डेटा से तक जाता है ।−1−1-1111 मैंने केरस और तन-सक्रियण के साथ 1-100-100-2 घने नेटवर्क का उपयोग किया। मैं पी / क्यू के रूप में दो मूल्यों, पी और क्यू से परिणाम …

1
सहसंबद्ध द्विपद यादृच्छिक चर उत्पन्न करना
मैं सोच रहा था कि क्या रैखिक परिवर्तन दृष्टिकोण के बाद सहसंबद्ध यादृच्छिक द्विपद चर उत्पन्न करना संभव हो सकता है? नीचे, मैंने आर में कुछ सरल करने की कोशिश की और यह कुछ सहसंबंध पैदा करता है। लेकिन मैं सोच रहा था कि क्या ऐसा करने का कोई राजसी …

3
मानक विचलन त्रुटि (RMSE) बनाम मानक विचलन कैसे करें?
मान लीजिए कि मेरे पास एक मॉडल है जो मुझे अनुमानित मूल्य देता है। मैं उन मूल्यों के आरएमएसई की गणना करता हूं। और फिर वास्तविक मूल्यों का मानक विचलन। क्या उन दो मूल्यों (संस्करण) की तुलना करने का कोई मतलब है? मुझे क्या लगता है, अगर आरएमएसई और मानक …

3
क्या हमें k- गुना क्रॉस-सत्यापन का उपयोग करते समय एक परीक्षण सेट की आवश्यकता है?
मैं k- गुना सत्यापन के बारे में पढ़ रहा हूं, और मैं यह सुनिश्चित करना चाहता हूं कि मैं समझता हूं कि यह कैसे काम करता है। मुझे पता है कि होल्डआउट पद्धति के लिए, डेटा को तीन सेटों में विभाजित किया जाता है, और परीक्षण सेट का उपयोग केवल …

4
एक छवि का प्रवेश
एक छवि की एन्ट्रापी की गणना करने के लिए सबसे अधिक जानकारी / भौतिकी-सैद्धांतिक सही तरीका क्या है? मैं अभी कम्प्यूटेशनल दक्षता के बारे में परवाह नहीं करता - मैं इसे सैद्धांतिक रूप से यथासंभव सही चाहता हूं। चलो एक ग्रे-स्केल छवि के साथ शुरू करते हैं। एक सहज दृष्टिकोण …

2
मेडिकल दर्शकों के लिए विश्वसनीय अंतराल को संक्षेप में कैसे बताया जाए
स्टेन और फ्रंटएंड पैकेज के साथ rstanarmया brmsमैं बायेसियन तरीके से डेटा का आसानी से विश्लेषण कर सकता हूं जैसा कि मैंने पहले मिश्रित मॉडल के साथ किया था lme। जबकि मेरे पास मेरी डेस्क पर क्रूसके-गेलमैन-वेगेनमेकर्स-इत्यादि द्वारा अधिकांश पुस्तक और लेख हैं, ये मुझे मेडिकल दर्शकों के लिए परिणामों …

2
"नकारात्मक द्विपद" यादृच्छिक चर क्यों कहा जाता है?
मुझे समझ नहीं आता कि "नकारात्मक द्विपद" यादृच्छिक चर का नाम क्यों है। इसके बारे में नकारात्मक क्या है? इसके बारे में द्विपद क्या है? इसके बारे में नकारात्मक-द्विपद क्या है?

5
यह निर्धारित करने के लिए सांख्यिकीय दृष्टिकोण कि क्या डेटा यादृच्छिक पर गायब है
मेरे पास फ़ीचर वैक्टर का एक बड़ा सेट है जिसका उपयोग मैं एक द्विआधारी वर्गीकरण समस्या पर हमला करने के लिए करूँगा (पायथन में सीखें का उपयोग करके)। इससे पहले कि मैं प्रतिरूपण के बारे में सोचना शुरू कर दूं, मुझे डेटा के शेष हिस्सों से यह निर्धारित करने की …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.