डेटा साइंस

डेटा विज्ञान पेशेवरों, मशीन लर्निंग विशेषज्ञों और क्षेत्र के बारे में अधिक जानने में दिलचस्पी रखने वालों के लिए प्रश्नोत्तर

4
शब्द 2vec का उपयोग अनदेखी शब्दों की पहचान करने और उन्हें पहले से प्रशिक्षित डेटा से संबंधित करने के लिए कैसे किया जा सकता है
मैं word2vec gensim मॉडल पर काम कर रहा था और इसे वास्तव में दिलचस्प पाया। मैं यह पता लगाने में इंटरस्टेड हूं कि मॉडल के साथ जाँच करने पर एक अज्ञात / अनदेखी शब्द कैसे प्रशिक्षित मॉडल से समान शब्द प्राप्त करने में सक्षम होगा। क्या यह संभव है? क्या …

4
यादृच्छिक वन में ओवरफिटिंग से कैसे बचें?
मैं बेतरतीब जंगल में ओवरफिटिंग से बचना चाहता हूं। इस संबंध में, मैं mtry, nodesize, और maxnodes आदि का उपयोग करने का इरादा रखता हूं, क्या आप कृपया मुझे इन मापदंडों के लिए मान चुनने में मदद कर सकते हैं? मैं आर का उपयोग कर रहा हूं। इसके अलावा, यदि …

3
स्पार्क पर आईपीथॉन / ज्यूपिटर के साथ मुद्दा (गैर-मान्यता प्राप्त उर्फ)
मैं बाहर जाने से पहले स्पार्क के साथ प्रयोग करने के लिए VMs का एक सेट बनाने पर काम कर रहा हूं और कुछ हार्डवेयर के साथ क्लस्टर बनाने पर पैसे खर्च कर रहा हूं। क्विक नोट: मैं एप्लाइड मशीन लर्निंग में बैकग्राउंड वाला एक अकादमिक हूं और डेटा साइंस …

3
असंतुलित कक्षाएं - झूठी नकारात्मक कैसे कम करें?
मेरे पास एक डेटासेट है जिसमें एक बाइनरी क्लास विशेषता है। कक्षा 1 (कैंसर पॉजिटिव) के साथ 623 उदाहरण हैं और कक्षा -1 (कैंसर नकारात्मक) के साथ 101,671 उदाहरण हैं। मैंने विभिन्न एल्गोरिदम (Naive Bayes, Random Forest, AODE, C4.5) की कोशिश की है और उन सभी में अस्वीकार्य झूठे नकारात्मक …

7
लिंक्डइन वेब स्क्रैपिंग
मैंने हाल ही में लिंक्डइन एपीआई से जुड़ने के लिए एक नया आर पैकेज खोजा । दुर्भाग्य से लिंक्डइन एपीआई के साथ शुरू होने के लिए बहुत सीमित लगता है; उदाहरण के लिए, आप केवल कंपनियों पर मूल डेटा प्राप्त कर सकते हैं, और यह व्यक्तियों पर डेटा से अलग …

3
फील्ड अवेयर फैक्टराइजेशन मशीनें
क्या कोई यह बता सकता है कि मानक-फैक्टराइजेशन मशीन (एफएफएम) मानक फैक्टराइजेशन मशीनों (एफएम) की तुलना कैसे करती है? मानक: http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf "फ़ील्ड अवेयर": http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf

5
मासिक, दैनिक और साप्ताहिक डेटा कैसे मर्ज करें?
Google रुझान साप्ताहिक डेटा लौटाता है इसलिए मुझे अपने दैनिक / मासिक डेटा के साथ उन्हें मर्ज करने का एक तरीका खोजना होगा। मैंने अभी तक जो भी किया है वह प्रत्येक सीरी को दैनिक डेटा में तोड़ना है, उदाहरण के लिए: से: 2013-03-03 - 2013-03-09 37 सेवा: 2013-03-03 37 …

3
केवल सकारात्मक और बिना लेबल वाले डेटा के साथ एक द्विआधारी वर्गीकरण का निर्माण करें
मेरे पास 2 डेटासेट हैं, एक सकारात्मक उदाहरणों के साथ, जो मैं पता लगाना चाहता हूं, और एक बिना लेबल वाले इंस्टेंस के साथ। मैं किन तरीकों का उपयोग कर सकता हूं? एक उदाहरण के रूप में, मान लें कि हम कुछ संरचित ईमेल विशेषताओं के आधार पर स्पैम ईमेल …

2
सर्वर की निगरानी के लिए तंत्रिका जाल
मैं सर्वर मॉनिटर अलार्म लेने और एक समस्या का मूल कारण निर्धारित करने के लिए pybrain देख रहा हूं। मैं पर्यवेक्षित शिक्षण और प्रशिक्षण डेटा सेटों का उपयोग करके प्रशिक्षण से खुश हूं। डेटा कुछ इस तरह संरचित है: सर्वर प्रकार A # 1 अलार्म टाइप 1 अलार्म टाइप 2 …

2
विरल डेटा के साथ समीकरणों की प्रणाली को हल करना
मैं समीकरणों के एक सेट को हल करने का प्रयास कर रहा हूं जिसमें 40 स्वतंत्र चर (X1, ..., x40) और एक आश्रित चर (y) है। समीकरणों की कुल संख्या (पंक्तियों की संख्या) ~ 300 है, और मैं 40 गुणांक के सेट के लिए हल करना चाहता हूं जो y …

1
R में MLE के लिए फिशर स्कोरिंग v / s कोऑर्डिनेट डिसेंट
R बेस फ़ंक्शन glm()MLE के लिए फ़िशर स्कोरिंग का उपयोग करता है, जबकि glmnetसमान समीकरण को हल करने के लिए समन्वय डिसेंट विधि का उपयोग करता प्रतीत होता है। फिशर स्कोरिंग की तुलना में कोऑर्डिनेट डिसेंट अधिक समय-कुशल है, क्योंकि फिशर स्कोरिंग कुछ अन्य मैट्रिक्स ऑपरेशनों के अलावा, दूसरे ऑर्डर …

1
सतत ऑनलाइन क्लस्टर पहचान के लिए समाधान?
मुझे एक काल्पनिक ऑनलाइन क्लस्टरिंग एप्लिकेशन का एक उदाहरण दिखाते हैं: समय बिंदु पर 1,2,3,4 नीले क्लस्टर ए और अंक बी के लिए आवंटित किए जाते हैं, 5,6,7 लाल क्लस्टर बी को आवंटित किए जाते हैं। समय n + 1 पर एक नया बिंदु पेश किया जाता है जो नीले …

4
फ़ीचर एक्सट्रैक्शन तकनीक - डेटा के अनुक्रम को सारांशित करना
मैं अक्सर एक मॉडल (वर्गीकरण या प्रतिगमन) का निर्माण कर रहा हूं, जहां मेरे पास कुछ भविष्यवक्ता चर हैं जो अनुक्रम हैं और मैं उन्हें मॉडल में भविष्यवक्ताओं के रूप में शामिल करने के लिए सर्वोत्तम तरीके से संक्षेप में प्रस्तुत करने के लिए तकनीक की सिफारिशों को खोजने की …

4
क्या GLM एक सांख्यिकीय या मशीन लर्निंग मॉडल है?
मैंने सोचा था कि सामान्यीकृत रैखिक मॉडल (GLM) को एक सांख्यिकीय मॉडल माना जाएगा, लेकिन एक मित्र ने मुझे बताया कि कुछ पेपर इसे मशीन लर्निंग तकनीक के रूप में वर्गीकृत करते हैं। कौन सा सच है (या अधिक सटीक)? किसी भी स्पष्टीकरण की सराहना की जाएगी।

4
वर्गीकरण नियम बनाने के लिए एल्गोरिथम
इसलिए हमारे पास एक मशीन लर्निंग एप्लिकेशन की क्षमता है जो क्लासिफायर द्वारा हल किए गए पारंपरिक समस्या डोमेन में काफी करीने से फिट बैठता है, यानी, हमारे पास एक आइटम और एक "बकेट" का वर्णन करने वाले विशेषताओं का एक सेट है जो वे मॉडल बनाने के बजाय, अंत …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.