सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

3
समय की सुबह के बाद से सभी प्रयोगों के लिए कई परिकल्पना सुधार क्यों लागू नहीं किए गए हैं?
हम जानते हैं कि झूठी खोज दर को नियंत्रित करने के लिए, हमें एक एकल डेटा सेट के आधार पर प्रयोगों के लिए कई परिकल्पना परीक्षण के लिए बेंजामिन होचबर्ग-जैसे सुधारों को लागू करना चाहिए, अन्यथा सकारात्मक परिणाम देने वाले सभी प्रयोग झूठे हो सकते हैं। लेकिन हम समय की …

3
लॉजिस्टिक रिग्रेशन का मूल्यांकन और होस्मेर-लेमेशो गुडनेस ऑफ फिट की व्याख्या
जैसा कि हम सभी जानते हैं कि लॉजिस्टिक रिग्रेशन मॉडल का मूल्यांकन करने के 2 तरीके हैं और वे बहुत अलग चीजों का परीक्षण कर रहे हैं प्रिडिक्टिव पावर: एक सांख्यिकीय प्राप्त करें जो मापता है कि आप स्वतंत्र चर के आधार पर निर्भर चर की कितनी अच्छी भविष्यवाणी कर …

2
Iid डेटा का विरोधाभास (कम से कम मेरे लिए)
जहाँ तक आँकड़ों पर मेरे समग्र (और दुर्लभ) ज्ञान की अनुमति है, मुझे समझ में आया कि यदि आईआईडी रैंडम वैरिएबल हैं, तो इसका तात्पर्य यह है कि वे शब्द स्वतंत्र और समान रूप से वितरित हैं।एक्स1, एक्स2, । । । , एक्सnएक्स1,एक्स2,।।।,एक्सnX_1, X_2,..., X_n मेरी चिंता यहाँ iid नमूनों …

3
मशीन लर्निंग में पावर या लॉग ट्रांसफ़ॉर्मेशन को ज्यादा क्यों नहीं सिखाया गया?
मशीन लर्निंग (एमएल) रैखिक और लॉजिस्टिक रिग्रेशन तकनीकों का भारी उपयोग करता है। यह भी सुविधा इंजीनियरिंग तकनीक (पर निर्भर करता है feature transform, kernel, आदि)। क्यों है कुछ भी नहीं के बारे में variable transformation(उदाहरण के लिए power transformation) एमएल में उल्लेख किया है? (उदाहरण के लिए, मैं कभी …

2
एक नकारात्मक द्विपद वितरण का उपयोग करने के लिए एक पॉइसन वितरण का उपयोग करके एक प्रक्रिया की मॉडलिंग से स्विच करें?
\newcommand{\P}{\mathbb{P}} हमारे पास एक यादृच्छिक प्रक्रिया है जो समय-समय पर अवधि के एक निर्धारित समय में कई बार हो सकती है । हमारे पास इस प्रक्रिया के पहले से मौजूद मॉडल से एक डेटा फीड है, जो की अवधि में होने वाली कई घटनाओं की संभावना प्रदान करता है । …

2
टेक्स्ट वर्गीकरण के लिए बैग-ऑफ-वर्ड्स: क्यों न केवल TFIDF के बजाय शब्द आवृत्तियों का उपयोग किया जाए?
पाठ वर्गीकरण के लिए एक आम दृष्टिकोण एक 'बैग-ऑफ-वर्ड्स' से एक क्लासिफायरियर को प्रशिक्षित करना है। उपयोगकर्ता पाठ को वर्गीकृत करने के लिए लेता है और प्रत्येक वस्तु में शब्दों की आवृत्तियों को गिनाता है, जिसके बाद किसी प्रकार की ट्रिमिंग होती है जिसके परिणामस्वरूप आकार का मैट्रिक्स बना रहता …

4
हम कृत्रिम तंत्रिका नेटवर्क से मानव मस्तिष्क के बारे में क्या सीख सकते हैं?
मुझे पता है कि मेरा प्रश्न / शीर्षक बहुत विशिष्ट नहीं है, इसलिए मैं इसे स्पष्ट करने का प्रयास करूंगा: कृत्रिम तंत्रिका नेटवर्क में अपेक्षाकृत सख्त डिजाइन होते हैं। बेशक, आम तौर पर, वे जीव विज्ञान से प्रभावित होते हैं और वास्तविक तंत्रिका नेटवर्क के गणितीय मॉडल का निर्माण करने …

1
क्या संभावना है कि आयामों में
डेटा पॉइंट्स को देखते हुए , प्रत्येक में फीचर्स के साथ , को रूप में , अन्य को रूप में लेबल किया जाता है । प्रत्येक सुविधा यादृच्छिक रूप से (समान वितरण) से एक मान लेती है । क्या संभावना है कि एक हाइपरप्लेन मौजूद है जो दो वर्गों को …

4
टाइम सीरीज़ एनोमली डिटेक्शन के लिए एल्गोरिदम
मैं वर्तमान में R: https://github.com/twitter/AnomalyDetection में Twitter के AnomalyDetection का उपयोग कर रहा हूं । यह एल्गोरिथ्म सीज़न के साथ डेटा के लिए समय श्रृंखला विसंगति का पता लगाता है। प्रश्न: क्या इसके समान कोई अन्य एल्गोरिदम हैं (मौसमी के लिए नियंत्रण कोई फर्क नहीं पड़ता)? मैं अपने डेटा पर …

1
क्या एक बहुराष्ट्रीय (1 / n,…, 1 / n) को एक विरूद्ध डिरिचलेट (1, .., 1) के रूप में चित्रित किया जा सकता है?
तो यह सवाल थोड़ा गड़बड़ है, लेकिन मैं उस के लिए रंगीन रेखांकन शामिल करूंगा! पहले पृष्ठभूमि फिर प्रश्न (ओं)। पृष्ठभूमि मान लें कि आपके पास श्रेणियों पर समान प्रोबायलेट्स के साथ एक आयामी बहुआयामी वितरण है । चलो सामान्यीकृत मायने रखता है (हो है कि वितरण से), यह है …

1
कई सहसंबंध गुणांक की ज्यामितीय व्याख्या और निर्धारण गुणांक
मैं कई सहसंबंध के ज्यामितीय अर्थ में रुचि रखता हूं और प्रतिगमन में निर्धारण का गुणांक , या वेक्टर संकेतन में,RRRR2R2R^2yi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} यहाँ डिज़ाइन मैट्रिक्स में पंक्तियाँ और कॉलम हैं, जिनमें से पहला …

2
क्या बायेसियन कोलमोगोरोव के स्वयंसिद्ध को स्वीकार करते हैं?
आमतौर पर संभाव्यता सिद्धांत को कोलगोमोरोव के स्वयंसिद्धों के साथ पढ़ाया जाता है। क्या बायेसियन भी कोलमोगोरोव के स्वयंसिद्धों को स्वीकार करते हैं?

2
बायेसियन लासो बनाम साधारण लासो
विभिन्न कार्यान्वयन सॉफ्टवेयर लसो के लिए उपलब्ध हैं । मुझे पता है कि विभिन्न फोरमों में बार-बार होने वाले दृष्टिकोण के बारे में बहुत चर्चा की गई है। मेरा सवाल लस्सो के लिए बहुत विशिष्ट है - नियमित लास्सो बनाम बेज़ियन लास्सो के मतभेद या फायदे क्या हैं ? पैकेज …

2
Autoencoders सार्थक विशेषताएं नहीं सीख सकते हैं
मेरे पास इन दोनों के रूप में 50,000 चित्र हैं: वे डेटा के ग्राफ़ को दर्शाते हैं। मैं इन छवियों से सुविधाओं को निकालना चाहता था, इसलिए मैंने थीनो (deeplearning.net) द्वारा प्रदान किए गए ऑटोकेन कोड का उपयोग किया। समस्या यह है कि, इन ऑटोसेनोडर्स को कोई भी विशेषता नहीं …

5
पीसीए के उदाहरण जहां कम विचरण वाले पीसी "उपयोगी" होते हैं
आम तौर पर प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) में पहले कुछ पीसी का इस्तेमाल किया जाता है और कम वेरिएशन वाले पीसी को गिराया जाता है, क्योंकि वे डेटा में बहुत ज्यादा बदलाव नहीं करते हैं। हालांकि, क्या ऐसे उदाहरण हैं जहां कम भिन्नता वाले पीसी उपयोगी होते हैं (यानी डेटा …
24 pca 

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.