सांख्यिकी और बिग डेटा

Q & A में सांख्यिकी, मशीन लर्निंग, डेटा विश्लेषण, डेटा माइनिंग और डेटा विज़ुअलाइज़ेशन में रुचि रखने वाले लोगों के लिए

1
लॉजिस्टिक रिग्रेशन में समायोजित बाधाओं के अनुपात को समझने में मेरी मदद करें
मुझे एक पेपर में लॉजिस्टिक रिग्रेशन के उपयोग को समझने का प्रयास करने में मुश्किल समय हो रहा है। यहां उपलब्ध कागज मोतियाबिंद सर्जरी के दौरान जटिलताओं की संभावना का अनुमान लगाने के लिए लॉजिस्टिक रिग्रेशन का उपयोग करता है। जो मुझे भ्रमित कर रहा है वह यह है कि …

2
चरम सीखने की मशीन: यह सब क्या है?
मैं एक वर्ष से अधिक समय से चरम लर्निंग मशीन (ईएलएम) प्रतिमान को लागू करने और उपयोग करने के बारे में सोच रहा था, और अब मैं जितना अधिक करूंगा, मुझे उतना ही संदेह होगा कि यह वास्तव में एक अच्छी बात है। मेरी राय, हालांकि, वैज्ञानिक समुदाय के विपरीत …
20 regression 

2
समय श्रृंखला के लिए परिकल्पना परीक्षण और महत्व
दो पॉपुलेशन को देखते हुए महत्व का एक सामान्य परीक्षण यदि संभव हो तो टी-टेस्ट, युग्मित टी-टेस्ट है। यह मानता है कि वितरण सामान्य है। क्या ऐसी ही सरलीकृत धारणाएं हैं जो एक समय श्रृंखला के लिए एक महत्वपूर्ण परीक्षण का निर्माण करती हैं? विशेष रूप से हमारे पास चूहों …

1
Xgboost में ओवरफिट के बारे में चर्चा
मेरा सेट-अप निम्नलिखित है: मैं "एप्लाइड प्रिडिक्टिव मॉडलिंग" में दिशानिर्देशों का पालन कर रहा हूं। इस प्रकार मैंने सहसंबद्ध सुविधाओं को फ़िल्टर किया है और निम्नलिखित के साथ समाप्त होता है: ट्रेनिंग सेट में 4900 डेटा पॉइंट और टेस्ट सेट में 1600 डेटा पॉइंट हैं। मेरे पास 26 विशेषताएं हैं …

2
K- साधनों के अभिसरण का प्रमाण
असाइनमेंट के लिए मुझे एक सबूत देने के लिए कहा गया है कि k- का मतलब चरणों की एक सीमित संख्या में अभिसरण होता है। यह वही है जो मैंने लिखा है: निम्नलिखित में, सभी क्लस्टर केंद्रों का एक संग्रह है। एक "ऊर्जा" फ़ंक्शन को परिभाषित करें ऊर्जा फ़ंक्शन nonnegative …

6
हर 10 और 15 मिनट पर चलने वाली दो बसों में से पहले के लिए प्रतीक्षा समय की उम्मीद है
मुझे एक साक्षात्कार प्रश्न आया: एक लाल ट्रेन है जो हर 10 मिनट पर आ रही है। हर 15 मिनट पर एक ब्लू ट्रेन आती है। दोनों एक यादृच्छिक समय से शुरू होते हैं ताकि आपके पास कोई शेड्यूल न हो। यदि आप एक यादृच्छिक समय पर स्टेशन पर आते …

2
घातीय परिवार के लाभ: हमें इसका अध्ययन क्यों करना चाहिए और इसका उपयोग कैसे करना चाहिए?
इसलिए यहां मैं अध्ययन कर रहा हूं। मैं चाहूंगा कि कोई व्यक्ति घातीय परिवार के लाभों की गणना कर सके। घातीय परिवार से मेरा मतलब है कि जो वितरण रूप में दिए गए हैं च( X | θ ) = ज ( एक्स ) exp{ η( Θ ) टी( x …

1
बॉक्स भूखंडों का इतिहास क्या है, और "बॉक्स और मूंछ" डिजाइन कैसे विकसित हुआ?
कई स्रोतों ने क्लासिक "बॉक्स प्लॉट" डिज़ाइन को जॉन टुके और उनके 1970 के "योजनाबद्ध प्लॉट" के लिए तारीख दी है। लगता है कि डिज़ाइन तब से अपेक्षाकृत स्थिर रहा है, जब एडवर्ड टफ्टे के बॉक्स प्लॉट के कट-डाउन संस्करण को पकड़ने में असफल रहा, जबकि वायलिन भूखंड - हालांकि …

3
इस प्लॉट का नाम क्या है जिसमें दो जुड़े हुए डॉट्स वाली पंक्तियाँ हैं?
मैं ईआईए रिपोर्ट पढ़ रहा हूं और इस साजिश ने मेरा ध्यान खींचा है। मैं अब उसी प्रकार का प्लॉट बनाने में सक्षम होना चाहता हूं। यह दो साल (1990-2015) के बीच ऊर्जा उत्पादकता विकास को दर्शाता है और इस दो अवधियों के बीच परिवर्तन मूल्य जोड़ता है। इस प्रकार …

3
कैसे बताएं कि क्या प्रेमिका भविष्य बता सकती है (यानी स्टॉक की भविष्यवाणी)?
मेरी प्रेमिका ने हाल ही में एक प्रमुख बैंक में बिक्री और व्यापार करने वाली नौकरी प्राप्त की है। अपनी नई नौकरी से उत्साहित, उसे विश्वास है कि वह भविष्यवाणी कर सकती है कि महीने के अंत में स्टॉक ऊपर या नीचे होंगे या नहीं (उसे विश्वास है कि वह …

5
प्रतिगमन में ओवरफिटिंग से बचें: नियमितीकरण के विकल्प
प्रतिगमन में नियमितीकरण (लीनियर, लॉजिस्टिक ...) ओवर-फिटिंग को कम करने का सबसे लोकप्रिय तरीका है। जब लक्ष्य भविष्यवाणी सटीकता (व्याख्या नहीं) है, तो क्या नियमितीकरण के लिए कोई अच्छा विकल्प हैं, विशेष रूप से बड़े डेटा-सेट (मील / अरबों टिप्पणियों और लाखों विशेषताओं) के लिए उपयुक्त हैं?

4
सिक्का फ्लिप्स के नमूने के आकार में वृद्धि सामान्य वक्र सन्निकटन में सुधार क्यों नहीं करती है?
मैं स्टैटिस्टिक्स (फ्रीमैन, पिसानी, पर्स) पुस्तक पढ़ रहा हूं और मैं एक उदाहरण को पुन: प्रस्तुत करने की कोशिश कर रहा हूं जहां एक सिक्का 50 बार बोला जाता है, सिर की संख्या गिना जाता है और यह 1,000 बार दोहराया जाता है। सबसे पहले, मैंने 1000 पर टॉस (नमूना …

4
सहसंबंध और कारण के बीच संबंध
विकिपीडिया पृष्ठ शीर्षक से सहसंबंध का अर्थ कार्य-कारण नहीं है , किसी भी दो सहसंबद्ध घटनाओं के लिए, ए और बी, विभिन्न संभावित रिश्तों में शामिल हैं: ए कारण बी (प्रत्यक्ष कारण); बी का कारण ए (उल्टा कारण); ए और बी एक सामान्य कारण के परिणाम हैं, लेकिन एक दूसरे …

1
गैर-पैरामीट्रिक परीक्षण यदि एक ही वितरण से दो नमूने खींचे जाते हैं
मैं इस परिकल्पना का परीक्षण करना चाहूंगा कि नमूनों या आबादी के वितरण के बारे में कोई भी धारणा बनाए बिना, दो नमूने एक ही जनसंख्या से तैयार किए गए हैं। मुझे यह कैसे करना चाहिए? विकिपीडिया से मेरी धारणा है कि मान व्हिटनी यू परीक्षण उपयुक्त होना चाहिए, लेकिन …

1
Word2vec में नकारात्मक नमूना कैसे काम करता है?
मैं शब्द 2vec के संदर्भ में नकारात्मक नमूनाकरण की अवधारणा को समझने का कठिन प्रयास कर रहा हूं। मैं [नकारात्मक] नमूने के विचार को पचाने में असमर्थ हूं। उदाहरण के लिए मिकोलोव के कागजात में नकारात्मक नमूनाकरण अपेक्षा के रूप में तैयार किया गया है logσ(⟨w,c⟩)+k⋅EcN∼PD[logσ(−⟨w,cN⟩)].log⁡σ(⟨w,c⟩)+k⋅EcN∼PD[log⁡σ(−⟨w,cN⟩)].\log \sigma(\langle w,c\rangle ) + …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.