सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

2
पाठ वर्गीकरण के लिए रिज रिग्रेशन क्लासिफायर काफी अच्छी तरह से क्यों काम करता है?
पाठ वर्गीकरण के लिए एक प्रयोग के दौरान, मैंने पाया कि रिज क्लासिफायर जनरेट करने वाले परिणाम लगातार उन क्लासिफायरों के बीच परीक्षणों को शीर्ष पर लाते हैं जो कि आमतौर पर एसवीएम, एनबी, केएनएन आदि जैसे टेक्स्ट माइनिंग कार्यों के लिए उल्लिखित हैं और लागू होते हैं, हालांकि, मैंने …

4
संकीर्ण आत्मविश्वास अंतराल - उच्च सटीकता?
मुझे विश्वास अंतराल के बारे में दो प्रश्न हैं: स्पष्ट रूप से एक संकीर्ण आत्मविश्वास अंतराल का अर्थ है कि उस अंतराल के भीतर एक अवलोकन प्राप्त करने का एक छोटा मौका है, इसलिए, हमारी सटीकता अधिक है। साथ ही ९ ५% आत्मविश्वास अंतराल ९९% विश्वास अंतराल की तुलना में …

2
गति के साथ यादृच्छिक चलना
निम्नलिखित स्थितियों के साथ 0 से शुरू होने वाले पूर्णांक रैंडम वॉक पर विचार करें: पहला कदम समान संभावना के साथ प्लस या माइनस 1 है। प्रत्येक भविष्य का कदम है: 60% पिछले चरण के समान दिशा में होने की संभावना है, 40% विपरीत दिशा में होने की संभावना है …

2
चि-वर्ग परीक्षण विचरण के रूप में अपेक्षित गणना का उपयोग क्यों करता है?
में परीक्षण, सामान्य वितरण में से प्रत्येक के मानक विचलन (यानी उम्मीद मायने रखता है प्रसरण के रूप में) के रूप में की उम्मीद की गिनती का वर्गमूल का उपयोग कर के लिए आधार क्या है? केवल एक चीज जो मैं इस पर चर्चा कर सकता है वह है http://www.physics.csbsju.edu/stats/chi-square.html …

2
वितरण जो नकारात्मक द्विपद वितरित चर के बीच अंतर का वर्णन करता है?
एक स्केलेम वितरण दो चर के बीच अंतर का वर्णन करता है जिसमें पॉइसन वितरण होता है । क्या एक समान वितरण है जो नकारात्मक द्विपद वितरण का अनुसरण करने वाले चर के बीच के अंतर का वर्णन करता है? मेरे डेटा का उत्पादन एक पॉइसन प्रक्रिया द्वारा किया जाता …

2
गुणांक के बीच महत्वपूर्ण अंतर के लिए परीक्षण करने का सही तरीका क्या है?
मुझे उम्मीद है कि कोई मेरे लिए भ्रम की स्थिति को सीधा करने में मदद कर सकता है। कहो मैं परीक्षण करना चाहता हूं कि क्या प्रतिगमन गुणांक के 2 सेट एक दूसरे से काफी अलग हैं, निम्नलिखित सेट के साथ: yi=α+βxi+ϵiyi=α+βxi+ϵiy_i = \alpha + \beta x_i + \epsilon_i , …

3
लक्ष्य चर को मॉडल कैसे करें?
मेरे पास 5 चर हैं और मैं अपने लक्ष्य चर की भविष्यवाणी करने की कोशिश कर रहा हूं जो कि 0 से 70 की सीमा के भीतर होना चाहिए। मैं अपने लक्ष्य को बेहतर ढंग से मॉडल करने के लिए इस जानकारी के टुकड़े का उपयोग कैसे करूं?

2
आपसी सूचनाओं पर सीमाबद्ध होकर आपसी जानकारी देना
मान लीजिए कि मेरे पास दो सेट XXX और और इन सेटों पर एक संयुक्त संभाव्यता वितरण है । चलो और से अधिक सीमांत वितरण निरूपित और क्रमशः।YYYp(x,y)p(x,y)p(x,y)p(x)p(x)p(x)p(y)p(y)p(y)XXXYYY और बीच की पारस्परिक जानकारी को परिभाषित किया गया है: XXXYYYI(X;Y)=∑x,yp(x,y)⋅log(p(x,y)p(x)p(y))I(X;Y)=∑x,yp(x,y)⋅log⁡(p(x,y)p(x)p(y))I(X; Y) = \sum_{x,y}p(x,y)\cdot\log\left(\frac{p(x,y)}{p(x)p(y)}\right) यानी यह बिंदुवार आपसी जानकारी pmi का औसत …

4
आवश्यक नमूना आकार की गणना, विचरण अनुमान की परिशुद्धता?
पृष्ठभूमि मेरे पास एक अज्ञात वितरण के साथ एक चर है। मेरे पास 500 नमूने हैं, लेकिन मैं उस सटीकता को प्रदर्शित करना चाहूंगा जिसके साथ मैं विचरण की गणना कर सकता हूं, उदाहरण के लिए तर्क है कि 500 ​​का एक नमूना आकार पर्याप्त है। मुझे न्यूनतम नमूना आकार …

8
क्लस्टरिंग गुणवत्ता उपाय
मेरे पास इनपुट पैरामीटर (क्लस्टर की संख्या ) के साथ एक क्लस्टरिंग एल्गोरिथ्म (k- साधन नहीं ) है। क्लस्टरिंग करने के बाद मैं इस क्लस्टरिंग की गुणवत्ता का कुछ मात्रात्मक माप प्राप्त करना चाहता हूं। क्लस्टरिंग एल्गोरिथ्म में एक महत्वपूर्ण संपत्ति है। के लिए अगर मैं फ़ीड डेटा बिंदुओं उन …
18 clustering 

2
जेम्स-स्टीन अनुमानक: एफ्रॉन और मॉरिस ने अपने बेसबॉल उदाहरण के लिए संकोचन कारक में
मेरे पास ब्राडली एफ्रोन और कार्ल मॉरिस द्वारा "स्टाइन के पैराडॉक्स इन स्टैटिस्टिक्स" 1977 के वैज्ञानिक अमेरिकन पेपर में जेम्स-स्टीन श्रिंकेज कारक की गणना करने पर एक प्रश्न है । मैंने बेसबॉल खिलाड़ियों के लिए डेटा इकट्ठा किया और यह नीचे दिया गया है: Name, avg45, avgSeason Clemente, 0.400, 0.346 …

5
इस प्रकार के परिपत्र-लिंक विज़ुअलाइज़ेशन को क्या कहा जाता है?
क्या इस प्रकार के चार्ट में एक नाम है? इससे भी महत्वपूर्ण बात यह है कि क्या कोई विज़ुअलाइज़ेशन लाइब्रेरी है जिसे मैं इसका उत्पादन करने के लिए उपयोग कर सकता हूं? http://www.nytimes.com/interactive/2007/12/15/us/politics/DEBATE.html

2
बॉम-वेल्च एल्गोरिथ्म और विटर्बी प्रशिक्षण के बीच अंतर क्या हैं?
मैं वर्तमान में एक छवि विभाजन समस्या के लिए Viterbi प्रशिक्षण का उपयोग कर रहा हूं । मैं जानना चाहता था कि विटर्बी प्रशिक्षण के बजाय बॉम-वेल्च एल्गोरिथ्म का उपयोग करने के क्या फायदे / नुकसान हैं।

4
अगर मुझे एक व्याख्यात्मक मॉडल चाहिए, तो क्या रैखिक प्रतिगमन के अलावा अन्य तरीके हैं?
मुझे कुछ सांख्यिकीविदों का सामना करना पड़ा जो कभी भी भविष्यवाणी के लिए रैखिक प्रतिगमन के अलावा अन्य मॉडलों का उपयोग नहीं करते हैं क्योंकि उनका मानना ​​है कि "एमएल मॉडल" जैसे कि यादृच्छिक वन या ढाल बढ़ाने के लिए व्याख्या करना कठिन है या "व्याख्या करने योग्य नहीं"। रैखिक …

2
क्या कोई मुझे अंग्रेजी में NUTS समझा सकता है?
एल्गोरिथ्म की मेरी समझ निम्नलिखित है: नो यू-टर्न सैंपलर (NUTS) एक हैमिल्टनियन मोंटे कार्लो मेथड है। इसका मतलब यह है कि यह एक मार्कोव चेन विधि नहीं है और इस प्रकार, यह एल्गोरिथ्म यादृच्छिक चलना भाग से बचा जाता है, जिसे अक्सर अभिसरण के रूप में अक्षम और धीमा माना …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.