डेटा साइंस

डेटा विज्ञान पेशेवरों, मशीन लर्निंग विशेषज्ञों और क्षेत्र के बारे में अधिक जानने में दिलचस्पी रखने वालों के लिए प्रश्नोत्तर

5
RST के लिए LSTM या अन्य RNN पैकेज
मैंने LSTM मॉडल से शेक्सपियर जैसे ग्रंथों के कुछ प्रभावशाली परिणाम देखे। मैं सोच रहा था कि क्या RST के लिए LSTM पैकेज मौजूद है। मैंने इसके लिए गुगली की, लेकिन केवल पायथन और जूलिया के लिए पैकेज मिले। (शायद कुछ प्रदर्शन मुद्दे हैं जो बताते हैं कि ये कार्यक्रम …
10 r  neural-network  rnn 

2
पांडा डेटाफ़्रेम में पंक्तियों पर पुनरावृति करके नए कॉलम बनाना
मेरे पास इस तरह एक पांडा डेटा फ्रेम (X11) है: वास्तविक में मेरे पास dx99 तक 99 कॉलम हैं dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 …

3
कौन सा तेज है: बड़े JSON डेटासेट पर PostgreSQL बनाम MongoDB?
मेरे पास ~ 300 बाइट्स में 9m JSON ऑब्जेक्ट्स के साथ एक बड़ा डेटासेट है। वे एक लिंक एग्रीगेटर से पोस्ट हैं: मूल रूप से लिंक (एक URL, शीर्षक और लेखक आईडी) और टिप्पणियां (पाठ और लेखक आईडी) + मेटाडेटा। वे एक तालिका में बहुत अच्छी तरह से संबंधपरक रिकॉर्ड …

1
स्पार्क, एक एकल RDD को दो में विभाजित करना
मेरे पास एक बड़ा डेटासेट है जिसे मुझे विशिष्ट मापदंडों के अनुसार समूहों में विभाजित करने की आवश्यकता है। मैं चाहता हूं कि नौकरी यथासंभव कुशलता से संसाधित हो। मैं ऐसा करने के दो तरीकों की कल्पना कर सकता हूं विकल्प 1 - मूल आरडीडी और फिल्टर से मानचित्र बनाएं …

1
पर्यवेक्षित शिक्षण एल्गोरिथ्म में कई लेबल
मेरे पास संबंधित विषयों के साथ पाठ का एक कोष है। उदाहरण के लिए "A rapper Tupac was shot in LA"और इसे लेबल किया गया था ["celebrity", "murder"]। तो मूल रूप से प्रत्येक वेक्टर वेक्टर में कई लेबल हो सकते हैं (समान राशि नहीं। पहली फीचर वेक्टर में 3 लेबल …

3
इसी तरह के दस्तावेज खोजने के लिए वेक्टर स्पेस मॉडल cosine tf-idf
दस लाख से अधिक दस्तावेजों का कोष रखें दिए गए दस्तावेज़ के लिए वैसा ही उपयोग करना चाहते हैं जैसा कि वेक्टर अंतरिक्ष मॉडल में cosine का उपयोग करते हुए किया जाता है d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) इस tf-idf के रूप में लंबे दस्तावेज़ों के प्रति …

4
Imdb webpage को कैसे स्क्रैप करें?
मैं डेटा विश्लेषण सीखने के प्रयास के एक भाग के रूप में अपने आप से पायथन का उपयोग करके वेब स्क्रैपिंग सीखने की कोशिश कर रहा हूं। मैं imdb वेबपेज को देखने की कोशिश कर रहा हूं जिसका url निम्नलिखित है: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=fiture&year=1950,2012 मैं ब्यूटीफुल मॉड्यूल का उपयोग कर रहा हूं। …

3
लॉग फ़ाइल विश्लेषण: मूल्य भाग से सूचना भाग निकालना
मैं अपने एक उत्पाद की कई लॉग फ़ाइलों पर डेटा सेट बनाने की कोशिश कर रहा हूं। विभिन्न लॉग फ़ाइलों का अपना लेआउट और अपनी सामग्री है; मैंने उन्हें सफलतापूर्वक एक साथ समूहीकृत किया, केवल एक कदम शेष ... वास्तव में, लॉग "संदेश" सबसे अच्छी जानकारी है। मेरे पास उन …

2
स्केलेबल आउटरीयर / एनोमली डिटेक्शन
मैं Hadoop, Hive, Elastic Search (दूसरों के बीच) का उपयोग करके एक बड़े डेटा इन्फ्रास्ट्रक्चर को सेटअप करने की कोशिश कर रहा हूं, और मैं कुछ डेटासेट पर कुछ एल्गोरिदम चलाना चाहूंगा। मैं चाहूंगा कि एल्गोरिदम स्वयं स्केलेबल हों, इसलिए यह वीका, आर, या यहां तक ​​कि रोडाओप जैसे उपकरणों …

1
आर में रेखांकन के लिए पुस्तकालय (लेबल प्रसार एल्गोरिदम / लगातार उपसमूह खनन)
समस्या का सामान्य विवरण मेरे पास एक ग्राफ है जहां कुछ कोने 3 या 4 संभावित मानों के साथ टाइप किए जाते हैं। अन्य कोने के लिए, प्रकार अज्ञात है। मेरा लक्ष्य उन रेखाओं के प्रकार का अनुमान लगाने के लिए ग्राफ का उपयोग करना है जो कि बिना लेबल …

2
ऑनलाइन मशीन लर्निंग के लिए लाइब्रेरी
मैं स्टॉक डेटा की भविष्यवाणी करने के लिए ऑनलाइन सीखने के लिए पैकेज (या तो अजगर, आर, या एक स्टैंडअलोन पैकेज में) की तलाश कर रहा हूं। मैंने Vowpal Wabbit ( https://github.com/JohnLangford/vowpal_wabbit/wiki ) के बारे में पाया और पढ़ा है , जो काफी आशाजनक प्रतीत होता है, लेकिन मैं सोच …

2
शोर स्ट्रिंग की सूची से विहित स्ट्रिंग निकालें
मेरे पास स्ट्रिंग्स की हजारों सूची हैं, और प्रत्येक सूची में लगभग 10 तार हैं। किसी दिए गए सूची में अधिकांश तार बहुत समान हैं, हालांकि कुछ तार दूसरों के लिए पूरी तरह से असंबंधित हैं (और शायद ही कभी अप्रासंगिक शब्द हैं। उन्हें विहित स्ट्रिंग के शोर रूपांतर माना …

2
शतरंज में अस्थायी अंतर को लागू करना
मैं एक शतरंज कार्यक्रम विकसित कर रहा हूं जो अल्फा-बीटा प्रूनिंग एल्गोरिदम और एक मूल्यांकन फ़ंक्शन का उपयोग करता है जो निम्न विशेषताओं का उपयोग करके पदों का मूल्यांकन करता है, जैसे कि सामग्री, किंग्सफेटी, गतिशीलता, मोहरा-संरचना और फंसे हुए टुकड़े आदि ..... मेरा मूल्यांकन कार्य है से व्युत्पन्न च( …

4
बड़े डेटा सेट की समझ बनाने के लिए मुझे कौन से शुरुआती चरणों का उपयोग करना चाहिए, और मुझे किन उपकरणों का उपयोग करना चाहिए?
कैविएट: मैं मशीन सीखने की बात करते हुए एक पूर्ण शुरुआत करता हूं, लेकिन सीखने के लिए उत्सुक हूं। मेरे पास एक बड़ा डेटासेट है और मैं इसमें पैटर्न खोजने की कोशिश कर रहा हूं। डेटा में संपूर्ण संबंध नहीं हो सकते हैं, या तो ज्ञात चर के साथ, या …

3
नमूना आकार और आयाम के साथ विभिन्न सांख्यिकीय तकनीक (प्रतिगमन, पीसीए, आदि) कैसे पैमाने पर हैं?
क्या सांख्यिकीय तकनीकों की एक सामान्य तालिका है जो बताती है कि वे नमूना आकार और आयाम के साथ कैसे पैमाने पर हैं? उदाहरण के लिए, मेरे एक मित्र ने मुझे दूसरे दिन बताया कि आकार एन के केवल एक आयामी डेटा को त्वरित रूप से छांटने का गणना समय …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.