सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

4
यदि गेज चार्ट खराब हैं, तो कारों में गेज क्यों हैं?
ऐसा लगता है कि डेटा विज़ुअलाइज़ेशन विशेषज्ञ आमतौर पर गेज चार्ट को अस्वीकार करते हैं (यहां देखें: आप एक चार्ट को क्या कहते हैं जो आधा पाई चार्ट की तरह दिखता है जिसमें सुई का प्रतिशत प्रदर्शित होता है? )। प्राथमिक कारण यह है कि गेज चार्ट में कम डेटा-टू-इंक …

3
घातीय यादृच्छिक चर का योग, मापदंडों द्वारा भ्रमित गामा का अनुसरण करता है
मैंने गामा वितरण के बाद घातीय यादृच्छिक चर का योग सीखा है। लेकिन हर जगह मैंने पढ़ा कि पैरामीरिजेशन अलग है। उदाहरण के लिए, विकी रिश्ते का वर्णन करता है, लेकिन यह मत कहो कि उनके मापदंडों का वास्तव में क्या मतलब है? आकार, पैमाने, दर, 1 / दर? घातांक …

1
भीड़ के डेटा के लिए नमूना मॉडल?
मैं एक खुले स्वास्थ्य सर्वेक्षण अनुप्रयोग पर काम कर रहा हूं, जिसे विकासशील देश में उपयोग करने की योजना है। मूल विचार यह है कि सर्वेक्षण साक्षात्कारों में भीड़ होती है - वे असंगठित स्वयंसेवकों द्वारा किए जाते हैं जो अपने मोबाइल उपकरणों का उपयोग करके किए गए साक्षात्कारों के …
18 sampling 

1
क्रुस्ल-वालिस के बाद के बाद के परीक्षण: डन के परीक्षण या बोनफेरोनी ने मान-व्हिटनी परीक्षणों को सही किया?
मेरे पास कुछ गैर-गौसियन वितरित चर हैं और मुझे यह जांचने की आवश्यकता है कि क्या इस चर के मूल्यों में 5 अलग-अलग समूहों में महत्वपूर्ण अंतर हैं। मैंने क्रुस्काल-वालिस का एक-तरफ़ा विश्लेषण किया है जो विचरण का महत्वपूर्ण है (जो महत्वपूर्ण आया) और उसके बाद मुझे यह जाँचना पड़ा …

2
रैखिक विभेदक विश्लेषण आयामों को कैसे कम करता है?
पेज 91 पर "द एलीमेंट ऑफ स्टैटिस्टिकल लर्निंग" के शब्द हैं: पी-आयामी इनपुट स्पेस स्पैन में K सेंट्रोइड्स सबसे K-1 डायमेंशनल सबस्पेस पर होता है, और यदि P K से बहुत बड़ा है, तो यह डायमेंशन में काफी गिरावट होगी। मेरे दो सवाल हैं: P- आयामी इनपुट स्थान में K …

2
प्राकृतिक भाषा प्रसंस्करण मशीन लर्निंग डोमेन के अंतर्गत क्यों नहीं आता है? [बन्द है]
जैसा कि वर्तमान में खड़ा है, यह प्रश्न हमारे प्रश्नोत्तर प्रारूप के लिए एक अच्छा फिट नहीं है। हम तथ्यों, संदर्भों या विशेषज्ञता के आधार पर उत्तर दिए जाने की अपेक्षा करते हैं, लेकिन इस सवाल पर बहस, बहस, मतदान या विस्तारित चर्चा की संभावना होगी। यदि आपको लगता है …

4
रोगियों की बढ़ती संख्या के लिए द्विपद मॉडल में ऑफसेट का उपयोग करना
मुझसे जुड़े दो सवाल। मेरे पास एक डेटा फ्रेम है जिसमें एक कॉलम में मरीजों की संख्या होती है (रेंज 10 - 17 मरीज) और 0s और 1s दिखाते हैं कि क्या कोई घटना हुई थी। मैं रोगियों की संख्या पर घटना की संभावना को पुनः प्राप्त करने के लिए …

2
अव्यक्त डिरिचलेट आवंटन के साथ एक होल्डआउट की पूर्णता की गणना कैसे करें?
मैं इस बात को लेकर असमंजस में हूँ कि लैट्रेंट डिरिक्लेट आवंटन (LDA) करते समय होल्डआउट के नमूने की गड़बड़ी की गणना कैसे की जाए। इस पर विषय हवा पर कागज, मुझे लगता है कि मैं कुछ स्पष्ट याद आ रही है ... एलडीए के लिए प्रदर्शन का एक अच्छा …

2
मैं एक महत्वपूर्ण समग्र एनोवा कैसे प्राप्त कर सकता हूं लेकिन टकी की प्रक्रिया के साथ कोई महत्वपूर्ण जोड़ीदार अंतर नहीं है?
मैंने आर एन एनोवा के साथ प्रदर्शन किया और मुझे महत्वपूर्ण अंतर मिला। हालाँकि जब जाँच की गई कि कौन सी जोड़ी ट्युकी की प्रक्रिया का उपयोग करके काफी अलग थी तो मुझे उनमें से कोई नहीं मिला। ऐसा कैसे हो सकता है? यहाँ कोड है: fit5_snow<- lm(Response ~ Stimulus, …


5
वास्तव में किन मजबूत सहसंबंध विधियों का उपयोग किया जाता है?
मैं एक सिमुलेशन अध्ययन करने की योजना बनाता हूं जहां मैं विभिन्न वितरणों के साथ कई मजबूत सहसंबंध तकनीकों के प्रदर्शन की तुलना करता हूं (तिरछा, बाहरी लोगों के साथ, आदि)। मजबूत के साथ , मेरा मतलब है कि एक) तिरछा वितरण, बी) आउटलेरर्स, और सी) भारी पूंछ के खिलाफ …

2
GLMNET से परिवर्तनीय महत्व
मैं लस्सो का उपयोग सुविधाओं के चयन के लिए एक विधि के रूप में देख रहा हूं और द्विआधारी लक्ष्य के साथ एक भविष्य कहनेवाला मॉडल फिटिंग के लिए कर रहा हूं। नीचे कुछ कोड है जो मैं नियमित लॉजिस्टिक प्रतिगमन के साथ विधि को आज़माने के लिए खेल रहा …

5
बड़े पैमाने पर पाठ वर्गीकरण
मैं अपने पाठ डेटा पर वर्गीकरण करना चाह रहा हूं। मेरे पास 300 classes, प्रति वर्ग (इसलिए 60000 documents in total) 200 प्रशिक्षण दस्तावेज हैं और इसका परिणाम बहुत ही उच्च आयामी डेटा (हम 1 मिलियन आयामों से अधिक हो सकता है ) में हो सकता है । मैं पाइपलाइन …

4
जब हम आम तौर पर अनइंफॉर्मेटिव या सब्जेक्टिव पादरियों का उपयोग करते हैं, तो व्याख्या में बेज़ियन फ्रेमवर्क कैसे बेहतर होता है?
यह अक्सर, तर्क दिया जाता है बायेसियन ढांचे व्याख्या में एक बड़ा लाभ यह है कि (frequentist से अधिक) है क्योंकि यह डेटा दिया एक पैरामीटर की संभावना की गणना करता है - p(θ|x)p(θ|x)p(\theta|x) के बजाय p(x|θ)p(x|θ)p(x|\theta) frequentist ढांचे में के रूप में । अब तक सब ठीक है। लेकिन, …

1
मिश्रित प्रभाव मॉडल अनुमानों के लिए मानक त्रुटियों की गणना कैसे की जानी चाहिए?
विशेष रूप से, रैखिक मिश्रित प्रभाव मॉडल में निश्चित प्रभावों की मानक त्रुटियों की गणना कैसे की जानी चाहिए (एक निरंतर अर्थ में)? मुझे विश्वास है कि ठेठ अनुमान (लीड किया गया है Var(β^)=(X′VX)−1Var(β^)=(X′VX)−1{\rm Var}(\hat\beta)=(X'VX)^{-1} ) इस तरह के लेयर्ड और वेयर में प्रस्तुत उन के रूप में, [1982] एसई …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.