डेटा साइंस

2

हमें डेटा असंतुलन को संभालने की आवश्यकता क्यों है?

मुझे यह जानना चाहिए कि हमें डेटा असंतुलन से निपटने की आवश्यकता क्यों है। मुझे पता है कि इस समस्या से निपटने के लिए और विभिन्न तरीकों से कैसे निपटना है जो नमूना या डाउन सैंपलिंग द्वारा या स्मोट का उपयोग करके है। उदाहरण के लिए, यदि मुझे 100 में …

12 classification dataset sampling class-imbalance

4

तंत्रिका नेटवर्क के साथ विसंगतियों का पता लगाना

मेरे पास एक बड़ा बहुआयामी डेटासेट है जो प्रत्येक दिन उत्पन्न होता है। पिछले दिनों की तुलना में किसी भी प्रकार की 'विसंगति' का पता लगाने के लिए एक अच्छा तरीका क्या होगा? क्या यह एक उपयुक्त समस्या है जिसे तंत्रिका नेटवर्क के साथ संबोधित किया जा सकता है? किसी …

12 tensorflow keras anomaly-detection

4

विभिन्न स्वरूपों के दस्तावेजों की तुलना करते समय TF-IDF और कोसाइन समानता के विकल्प

मैं एक छोटे से निजी प्रोजेक्ट पर काम कर रहा हूं, जो एक उपयोगकर्ता की नौकरी कौशल लेता है और उन कौशल के आधार पर उनके लिए सबसे आदर्श कैरियर का सुझाव देता है। मैं इसे प्राप्त करने के लिए नौकरी लिस्टिंग के एक डेटाबेस का उपयोग करता हूं। फिलहाल, …

12 nlp text-mining similarity cosine-distance

3

वर्गीकरण के लिए आरबीएम का उपयोग कैसे करें?

फिलहाल मैं प्रतिबंधित बोल्ट्जमैन मशीनों के साथ खेल रहा हूं और चूंकि मैं इस पर हूं इसलिए मैं इसके लिए हस्तलिखित अंकों को वर्गीकृत करने का प्रयास करूंगा। मैंने जो मॉडल बनाया है, वह अब काफी फेमस जेनेरेटिव मॉडल है, लेकिन मुझे नहीं पता कि इसके साथ आगे कैसे जाना …

12 classification rbm

2

क्या ओवरफ़िटिंग तब भी हो सकती है जब सत्यापन नुकसान अभी भी गिर रहा है?

मेरे पास केरस में एक कन्वेन्शनल + एलएसटीएम मॉडल है, यह (रेफ 1) के समान है, जिसका उपयोग मैं एक कागेल प्रतियोगिता के लिए कर रहा हूं। वास्तुकला नीचे दिखाया गया है। मैंने इसे 11000 नमूनों के अपने लेबल सेट पर प्रशिक्षित किया है (दो कक्षाएं, प्रारंभिक प्रचलन ~ 9: …

12 keras cross-validation overfitting

1

एक साधारण सेल्फ ड्राइविंग आरसी कार के लिए अधिगम अधिगम बनाम सुदृढीकरण अधिगम

मैं मजे के लिए रिमोट सेल्फ सेल्फ ड्राइविंग कार बना रहा हूं। मैं ऑनबोर्ड कंप्यूटर के रूप में रास्पबेरी पाई का उपयोग कर रहा हूं; और मैं कार के परिवेश पर प्रतिक्रिया के लिए विभिन्न प्लग-इन, जैसे रास्पबेरी पाई कैमरा और दूरी सेंसर का उपयोग कर रहा हूं। मैं OpenCV …

12 reinforcement-learning supervised-learning

2

PCA करते समय कितने आयाम कम करने हैं?

PCA के लिए K कैसे चुनें? K नीचे प्रोजेक्ट करने के लिए आयामों की संख्या है। केवल आवश्यकता बहुत अधिक जानकारी नहीं खोना है। मैं समझता हूं कि यह डेटा पर निर्भर करता है, लेकिन मैं एक सामान्य सामान्य अवलोकन के लिए अधिक देख रहा हूं कि K चुनते समय …

12 pca

1

2 सुविधाओं और घटनाओं की एक समय श्रृंखला के आधार पर ग्राहकों को वर्गीकृत करें

मुझे एक एल्गोरिथ्म में मेरा अगला कदम क्या होना चाहिए, इस पर मुझे मदद चाहिए। एनडीए के कारण, मैं ज्यादा खुलासा नहीं कर सकता, लेकिन मैं सामान्य और समझने की कोशिश करूंगा। असल में, एल्गोरिदम में कई चरणों के बाद, मेरे पास यह है: मेरे पास प्रत्येक ग्राहक के लिए, …

12 classification clustering time-series

1

न्यूनतम बनाम सिमिंग

मान लीजिए मेरे पास पाँच सेट हैं जिन्हें मैं क्लस्टर करना चाहता हूँ। मैं समझता हूँ कि सिम्हाशिंग तकनीक यहाँ वर्णित है: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ तीन समूहों उत्पन्न हो सकते हैं ( {A}, {B,C,D}और {E}), उदाहरण के लिए, अगर इसके परिणाम थे: A -> h01 B -> h02 C -> h02 D …

12 clustering similarity

5

तंत्रिका नेटवर्क के लिए सर्वश्रेष्ठ जूलिया पुस्तकालय

मैं बुनियादी तंत्रिका नेटवर्क निर्माण और विश्लेषण के लिए इस पुस्तकालय का उपयोग कर रहा हूं। हालांकि, इसमें बहु-स्तरित तंत्रिका नेटवर्क आदि के निर्माण के लिए समर्थन नहीं है। इसलिए, मैं उन्नत तंत्रिका नेटवर्क और जूलिया में डीप लर्निंग के लिए किसी भी अच्छे पुस्तकालय के बारे में जानना चाहूंगा।

12 machine-learning neural-network julia

7

डेटा वैज्ञानिक का एक 'पुराना नाम' क्या है?

Are डेटा साइंस ’और ist डेटा साइंटिस्ट’ जैसे शब्द इन दिनों तेजी से उपयोग किए जा रहे हैं। कई कंपनियां 'डेटा साइंटिस्ट' को हायर कर रही हैं। लेकिन मुझे नहीं लगता कि यह पूरी तरह से नया काम है। डेटा अतीत से अस्तित्व में है और किसी को डेटा से …

12 bigdata

2

एयरलाइन फारेस - प्रतिस्पर्धी मूल्य-निर्धारण व्यवहार और मूल्य सहसंबंधों का पता लगाने के लिए किस विश्लेषण का उपयोग किया जाना चाहिए?

मैं एयरलाइनों के मूल्य-निर्धारण व्यवहार की जांच करना चाहता हूं - विशेष रूप से एयरलाइंस प्रतियोगियों के मूल्य निर्धारण पर कैसे प्रतिक्रिया देता है। जैसा कि मैं कहूंगा कि अधिक जटिल विश्लेषण के बारे में मेरा ज्ञान काफी सीमित है, मैंने डेटा के समग्र दृष्टिकोण को इकट्ठा करने के लिए …

12 data-mining dataset regression correlation visualization

1

हैशिंग ट्रिक - वास्तव में क्या होता है

जब एमएल एल्गोरिदम, उदाहरण के लिए Vowpal Wabbit या जीतने वाले कुछ कारक मशीनों ने दर प्रतियोगिताओं ( कागल ) के माध्यम से क्लिक किया , तो उल्लेख किया कि विशेषताएं ' हैशेड ' हैं, वास्तव में मॉडल के लिए इसका क्या मतलब है? कहते हैं कि एक चर है …

12 machine-learning predictive-modeling kaggle

3

एन-ग्राम द्वारा अनुक्रमित डेटा को संग्रहीत करने के लिए कुशल डेटाबेस मॉडल

मैं एक ऐसे अनुप्रयोग पर काम कर रहा हूँ जिसके लिए एक बड़े पाठ कोष में मौजूद n-gr के एक बहुत बड़े डेटाबेस को बनाने की आवश्यकता है। मुझे तीन कुशल संचालन प्रकारों की आवश्यकता है: लुकअप और प्रविष्टि को n-gram द्वारा अनुक्रमित किया गया है, और उन सभी n-ग्रामों …

12 nlp databases

2

इमोजी के लिए सेंटीमेंट डेटा

प्रयोग के लिए हम सरल मात्रात्मक सीनेटमेंट विश्लेषण के लिए जमीनी सच्चाई / प्रशिक्षण डेटा के रूप में कई ट्वीट्स में एम्बेडेड इमोजी का उपयोग करना चाहते हैं । एनएलपी को अच्छी तरह से काम करने के लिए आमतौर पर ट्वीट्स भी असंरचित होते हैं। वैसे भी, यूनिकोड 6.0 में …

12 machine-learning classification parsing