सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

2
लगातार आंकड़ों में निहित पुजारी क्या हैं?
मैंने इस धारणा को सुना है कि जेन्स का दावा है कि फ्रीक्वेंटर्स "निहित पूर्व" के साथ काम करते हैं। ये निहितार्थ क्या हैं? क्या इसका मतलब यह है कि लगातार मॉडलर बेयिसियन मॉडल के सभी विशेष मामले पाए जाने की प्रतीक्षा कर रहे हैं?

3
हम नैट सिल्वर की भविष्यवाणियों की सटीकता का न्याय कैसे कर सकते हैं?
सबसे पहले, वह परिणामों की संभावना देता है। इसलिए, उदाहरण के लिए, उसका अमेरिकी चुनाव के लिए भविष्यवाणी वर्तमान में 82% क्लिंटन बनाम 18% ट्रम्प है। अब, भले ही ट्रम्प जीत जाए, मुझे कैसे पता चलेगा कि यह उस जीत का सिर्फ 18% हिस्सा नहीं था? दूसरी समस्या यह है …

2
मल्टीलेबेल वर्गीकरण मैट्रिक्स ऑन स्किकिट
मैं एक मल्टी-लेबल क्लासिफायर बनाने की कोशिश कर रहा हूं ताकि स्कैकेट का उपयोग करके मौजूदा दस्तावेज़ों को विषय आवंटित किया जा सके मैं अपने दस्तावेजों के माध्यम से उन्हें पारित करने के प्रसंस्करण कर रहा हूँ TfidfVectorizerके माध्यम से लेबल MultiLabelBinarizerऔर एक बनाया OneVsRestClassifierएक साथ SGDClassifierअनुमानक के रूप में। …

5
जब केंद्रीय सीमा प्रमेय और बड़ी संख्या के कानून असहमत हैं
यह अनिवार्य रूप से एक प्रश्न का एक प्रतिकृति है , जो मुझे math.se पर मिला था, जिसके उत्तर मुझे नहीं मिले , जिसकी मुझे आशा थी। Let स्वतंत्र, समान रूप से वितरित यादृच्छिक चर का एक क्रम हो, जिसमें और ।{Xi}i∈N{Xi}i∈N\{ X_i \}_{i \in \mathbb{N}}E[Xi]=1E[Xi]=1\mathbb{E}[X_i] = 1V[Xi]=1V[Xi]=1\mathbb{V}[X_i] = 1 …

3
एक निर्णय एक रैखिक मॉडल स्टंप है?
निर्णय स्टंप केवल एक विभाजन के साथ एक निर्णय पेड़ है। इसे एक टुकड़े-टुकड़े समारोह के रूप में भी लिखा जा सकता है। उदाहरण के लिए, मान लें कि xxx एक वेक्टर है, और , प्रतिगमन सेटिंग में xx1x1x_1 का पहला घटक है , कुछ निर्णय स्टंप हो सकता हैxxx …

3
कैसे है
चलो कार्तीय x,yx,yx,y एक यादृच्छिक बिंदु के निर्देशांकों का चयन किया जाना सेंट (x,y)∼U(−10,10)×U(−10,10)(x,y)∼U(−10,10)×U(−10,10)(x,y) \sim U(-10,10) \times U(-10,10) । इस प्रकार, त्रिज्या, ρ=x2+y2−−−−−−√ρ=x2+y2\rho = \sqrt{x^2 + y^2} , समान रूप सेρρ\rhoकेपीडीएफद्वारा निहित के रूप में वितरित नहीं किया गया है। फिर भी मैं ar = arctan y की उम्मीद करूंगाθ=arctanyxθ=arctan⁡yx\theta …

5
एक नाम में क्या है: हाइपरपरमेटर्स
इसलिए एक सामान्य वितरण में, हमारे पास दो पैरामीटर हैं: माध्य और विचरण । पुस्तक पैटर्न रिकॉग्निशन एंड मशीन लर्निंग में , त्रुटि फ़ंक्शन के नियमितीकरण की शर्तों में अचानक एक हाइपरपेरमेटर प्रकट होता है ।μμ\muσ2σ2\sigma^2λλ\lambda हाइपरपरमेटर्स क्या हैं? उनका नाम ऐसा क्यों रखा गया है? और वे कैसे सहज …

1
विचरण का अंडमान
क्या कोई शब्द है जिसका अर्थ है 'विचरण का विलोम'? यही है, यदि में उच्च विचरण है, तो एक्स में कम है ... ? लेकिन विशेष रूप से जिसका अर्थ है ( 'समझौता' या 'समानता' की तरह) एक के पास विलोम में कोई दिलचस्पी नहीं 1 / σ 2 ?XXXXXX……\dots1/σ21/σ21/\sigma^2

3
पहले क्या सिखाया जाना चाहिए: संभाव्यता या सांख्यिकी?
मैं एक गणित विभाग में एक संकाय सदस्य के रूप में शामिल हुआ। एक प्रतिष्ठित संस्थान का। मैं स्नातक स्तर पर कोर्स प्रोबेबिलिटी एंड स्टैटिस्टिक्स पढ़ा रहा हूं। इस पाठ्यक्रम के लिए संस्थान के पास पहले से ही एक पाठ्यक्रम है, जिससे मैं बहुत अधिक संतुष्ट नहीं हूं। उस पाठ्यक्रम …
19 teaching 

2
क्या नियमितीकरण मददगार हो सकता है अगर हम केवल मॉडलिंग में रुचि रखते हैं, पूर्वानुमान में नहीं?
क्या नियमितीकरण मददगार हो सकता है यदि हम मॉडल के मापदंडों का केवल अनुमान लगाने (और व्याख्या) में रुचि रखते हैं, पूर्वानुमान या भविष्यवाणी में नहीं? मैं देखता हूं कि यदि आपका लक्ष्य नए डेटा पर अच्छे पूर्वानुमान लगाना है, तो नियमितीकरण / क्रॉस-वैरिफिकेशन कितना उपयोगी है। लेकिन क्या होगा …

3
सीबीओडब्ल्यू की तुलना में असंगत शब्दों के लिए स्किप-ग्राम बेहतर क्यों है?
मुझे आश्चर्य है कि शब्द 2vec में CBOW की तुलना में असंगत शब्दों के लिए स्किप-ग्राम बेहतर क्यों है। मैंने https://code.google.com/p/word2vec/ पर दावा पढ़ा है ।

2
क्यों एक अधिकतम तकनीक होने की संभावना को अधिकतम संभावना माना जाता है
मेरे लिए फ़्रीक्वेंटिस्ट आँकड़े निर्णय लेने के लिए पर्यायवाची हैं जो सभी संभावित नमूनों के लिए अच्छे हैं। यानी, एक frequentist फैसले के नियम हमेशा frequentist जोखिम है, जो एक नुकसान समारोह पर निर्भर करता है कम से कम करने की कोशिश करनी चाहिए एल और प्रकृति की सही स्थिति …

5
बुनियादी मशीन लर्निंग एल्गोरिदम सीखने के लिए कुछ अच्छे डेटासेट क्या हैं और क्यों?
मैं मशीन सीखने के लिए नया हूं और कुछ डेटासेट की तलाश कर रहा हूं जिसके माध्यम से मैं अलग-अलग मशीन लर्निंग एल्गोरिदम (डिसीजन ट्रीज, बूस्टिंग, एसवीएम और न्यूरल नेटवर्क्स) के बीच अंतर की तुलना और विरोधाभास कर सकता हूं। मुझे ऐसे डेटासेट कहां मिल सकते हैं? डेटासेट पर विचार …

1
कैसे एक वर्गीकरण तकनीक एलडीए, पीसीए जैसी आयामी कमी तकनीक के रूप में भी कार्य करता है
इस लेख में , लेखक रेखीय विभेदक विश्लेषण (LDA) को प्रमुख घटक विश्लेषण (PCA) से जोड़ता है। अपने सीमित ज्ञान के साथ, मैं यह पालन करने में सक्षम नहीं हूं कि एलडीए पीसीए के समान कैसे हो सकता है। मैंने हमेशा सोचा है कि एलडीए लॉजिस्टिक रिग्रेशन के समान वर्गीकरण …

8
विचरण को एक दूसरे के बाद हर मूल्य के बीच अंतर के रूप में क्यों नहीं परिभाषित किया गया है?
यह कई लोगों के लिए एक सरल प्रश्न हो सकता है लेकिन यहाँ यह है: भिन्नताओं को औसत मानों के अंतर के बजाय एक दूसरे के बाद हर मूल्य के बीच के अंतर के रूप में क्यों नहीं परिभाषित किया गया है? यह मेरे लिए अधिक तार्किक विकल्प होगा, मुझे …
19 variance 

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.