डेटा साइंस

4

शब्द 2vec का उपयोग अनदेखी शब्दों की पहचान करने और उन्हें पहले से प्रशिक्षित डेटा से संबंधित करने के लिए कैसे किया जा सकता है

मैं word2vec gensim मॉडल पर काम कर रहा था और इसे वास्तव में दिलचस्प पाया। मैं यह पता लगाने में इंटरस्टेड हूं कि मॉडल के साथ जाँच करने पर एक अज्ञात / अनदेखी शब्द कैसे प्रशिक्षित मॉडल से समान शब्द प्राप्त करने में सक्षम होगा। क्या यह संभव है? क्या …

11 nlp deep-learning word-embeddings unsupervised-learning

4

यादृच्छिक वन में ओवरफिटिंग से कैसे बचें?

मैं बेतरतीब जंगल में ओवरफिटिंग से बचना चाहता हूं। इस संबंध में, मैं mtry, nodesize, और maxnodes आदि का उपयोग करने का इरादा रखता हूं, क्या आप कृपया मुझे इन मापदंडों के लिए मान चुनने में मदद कर सकते हैं? मैं आर का उपयोग कर रहा हूं। इसके अलावा, यदि …

11 machine-learning data-mining r predictive-modeling random-forest

3

स्पार्क पर आईपीथॉन / ज्यूपिटर के साथ मुद्दा (गैर-मान्यता प्राप्त उर्फ)

मैं बाहर जाने से पहले स्पार्क के साथ प्रयोग करने के लिए VMs का एक सेट बनाने पर काम कर रहा हूं और कुछ हार्डवेयर के साथ क्लस्टर बनाने पर पैसे खर्च कर रहा हूं। क्विक नोट: मैं एप्लाइड मशीन लर्निंग में बैकग्राउंड वाला एक अकादमिक हूं और डेटा साइंस …

11 python apache-spark pyspark ipython

3

असंतुलित कक्षाएं - झूठी नकारात्मक कैसे कम करें?

मेरे पास एक डेटासेट है जिसमें एक बाइनरी क्लास विशेषता है। कक्षा 1 (कैंसर पॉजिटिव) के साथ 623 उदाहरण हैं और कक्षा -1 (कैंसर नकारात्मक) के साथ 101,671 उदाहरण हैं। मैंने विभिन्न एल्गोरिदम (Naive Bayes, Random Forest, AODE, C4.5) की कोशिश की है और उन सभी में अस्वीकार्य झूठे नकारात्मक …

11 classification random-forest decision-trees unbalanced-classes

7

लिंक्डइन वेब स्क्रैपिंग

मैंने हाल ही में लिंक्डइन एपीआई से जुड़ने के लिए एक नया आर पैकेज खोजा । दुर्भाग्य से लिंक्डइन एपीआई के साथ शुरू होने के लिए बहुत सीमित लगता है; उदाहरण के लिए, आप केवल कंपनियों पर मूल डेटा प्राप्त कर सकते हैं, और यह व्यक्तियों पर डेटा से अलग …

11 data-mining social-network-analysis crawling scraping

3

फील्ड अवेयर फैक्टराइजेशन मशीनें

क्या कोई यह बता सकता है कि मानक-फैक्टराइजेशन मशीन (एफएफएम) मानक फैक्टराइजेशन मशीनों (एफएम) की तुलना कैसे करती है? मानक: http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf "फ़ील्ड अवेयर": http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf

11 machine-learning recommender-system

5

मासिक, दैनिक और साप्ताहिक डेटा कैसे मर्ज करें?

Google रुझान साप्ताहिक डेटा लौटाता है इसलिए मुझे अपने दैनिक / मासिक डेटा के साथ उन्हें मर्ज करने का एक तरीका खोजना होगा। मैंने अभी तक जो भी किया है वह प्रत्येक सीरी को दैनिक डेटा में तोड़ना है, उदाहरण के लिए: से: 2013-03-03 - 2013-03-09 37 सेवा: 2013-03-03 37 …

11 time-series

3

केवल सकारात्मक और बिना लेबल वाले डेटा के साथ एक द्विआधारी वर्गीकरण का निर्माण करें

मेरे पास 2 डेटासेट हैं, एक सकारात्मक उदाहरणों के साथ, जो मैं पता लगाना चाहता हूं, और एक बिना लेबल वाले इंस्टेंस के साथ। मैं किन तरीकों का उपयोग कर सकता हूं? एक उदाहरण के रूप में, मान लें कि हम कुछ संरचित ईमेल विशेषताओं के आधार पर स्पैम ईमेल …

11 classification semi-supervised-learning

2

सर्वर की निगरानी के लिए तंत्रिका जाल

मैं सर्वर मॉनिटर अलार्म लेने और एक समस्या का मूल कारण निर्धारित करने के लिए pybrain देख रहा हूं। मैं पर्यवेक्षित शिक्षण और प्रशिक्षण डेटा सेटों का उपयोग करके प्रशिक्षण से खुश हूं। डेटा कुछ इस तरह संरचित है: सर्वर प्रकार A # 1 अलार्म टाइप 1 अलार्म टाइप 2 …

11 machine-learning neural-network

2

विरल डेटा के साथ समीकरणों की प्रणाली को हल करना

मैं समीकरणों के एक सेट को हल करने का प्रयास कर रहा हूं जिसमें 40 स्वतंत्र चर (X1, ..., x40) और एक आश्रित चर (y) है। समीकरणों की कुल संख्या (पंक्तियों की संख्या) ~ 300 है, और मैं 40 गुणांक के सेट के लिए हल करना चाहता हूं जो y …

11 machine-learning regression algorithms genetic

1

R में MLE के लिए फिशर स्कोरिंग v / s कोऑर्डिनेट डिसेंट

R बेस फ़ंक्शन glm()MLE के लिए फ़िशर स्कोरिंग का उपयोग करता है, जबकि glmnetसमान समीकरण को हल करने के लिए समन्वय डिसेंट विधि का उपयोग करता प्रतीत होता है। फिशर स्कोरिंग की तुलना में कोऑर्डिनेट डिसेंट अधिक समय-कुशल है, क्योंकि फिशर स्कोरिंग कुछ अन्य मैट्रिक्स ऑपरेशनों के अलावा, दूसरे ऑर्डर …

11 machine-learning r algorithms optimization

1

सतत ऑनलाइन क्लस्टर पहचान के लिए समाधान?

मुझे एक काल्पनिक ऑनलाइन क्लस्टरिंग एप्लिकेशन का एक उदाहरण दिखाते हैं: समय बिंदु पर 1,2,3,4 नीले क्लस्टर ए और अंक बी के लिए आवंटित किए जाते हैं, 5,6,7 लाल क्लस्टर बी को आवंटित किए जाते हैं। समय n + 1 पर एक नया बिंदु पेश किया जाता है जो नीले …

11 machine-learning clustering

4

फ़ीचर एक्सट्रैक्शन तकनीक - डेटा के अनुक्रम को सारांशित करना

मैं अक्सर एक मॉडल (वर्गीकरण या प्रतिगमन) का निर्माण कर रहा हूं, जहां मेरे पास कुछ भविष्यवक्ता चर हैं जो अनुक्रम हैं और मैं उन्हें मॉडल में भविष्यवक्ताओं के रूप में शामिल करने के लिए सर्वोत्तम तरीके से संक्षेप में प्रस्तुत करने के लिए तकनीक की सिफारिशों को खोजने की …

11 machine-learning feature-selection time-series

4

क्या GLM एक सांख्यिकीय या मशीन लर्निंग मॉडल है?

मैंने सोचा था कि सामान्यीकृत रैखिक मॉडल (GLM) को एक सांख्यिकीय मॉडल माना जाएगा, लेकिन एक मित्र ने मुझे बताया कि कुछ पेपर इसे मशीन लर्निंग तकनीक के रूप में वर्गीकृत करते हैं। कौन सा सच है (या अधिक सटीक)? किसी भी स्पष्टीकरण की सराहना की जाएगी।

11 machine-learning statistics glm

4

वर्गीकरण नियम बनाने के लिए एल्गोरिथम

इसलिए हमारे पास एक मशीन लर्निंग एप्लिकेशन की क्षमता है जो क्लासिफायर द्वारा हल किए गए पारंपरिक समस्या डोमेन में काफी करीने से फिट बैठता है, यानी, हमारे पास एक आइटम और एक "बकेट" का वर्णन करने वाले विशेषताओं का एक सेट है जो वे मॉडल बनाने के बजाय, अंत …

11 machine-learning classification