डेटा साइंस

1

टाइमस्टैम्प डेटाटाइप के लिए int का एक पांडा कॉलम बदलें

मेरे पास एक डेटाफ्रेम है जिसमें अन्य चीजों के अलावा, 1970-1-1 के बाद से मिली मिलीसेकंड की संख्या का एक कॉलम शामिल है। मुझे इनस्टेट्स के इन कॉलम को टाइमस्टैम्प डेटा में बदलने की आवश्यकता है, इसलिए मैं आखिरकार इसे टाइमस्टैम्प कॉलम श्रृंखला में एक श्रृंखला में जोड़कर डेटाटाइम के …

13 python time-series data-cleaning pandas

5

स्किकिट-रैंडम फॉरेस्ट के साथ फ़ीचर महत्व बहुत उच्च मानक विचलन दर्शाता है

मैं scikit- रैंडम फॉरेस्ट क्लासिफायरियर का उपयोग कर रहा हूं और मैं इस उदाहरण में फीचर महत्व को प्लॉट करना चाहता हूं । हालांकि मेरा परिणाम पूरी तरह से अलग है, इस मायने में कि फीचर महत्व मानक विचलन लगभग हमेशा फीचर महत्व से बड़ा है (संलग्न छवि देखें)। क्या …

13 python random-forest

1

फजी टोकन के अनुक्रम में एक व्याकरण को पहचानें

मेरे पास टेक्स्ट डॉक्यूमेंट हैं जिनमें मुख्य रूप से आइटम की सूची है। प्रत्येक आइटम विभिन्न प्रकारों से कई टोकन का एक समूह है: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation, आदि। टोकन एक शब्दों का समूह है। आइटम कई लाइनों पर झूठ बोल सकते हैं। दस्तावेज़ के आइटम में समान …

13 data-mining clustering text-mining time-series correlation

2

गैर-सममितीय लागत फ़ंक्शन के साथ रैखिक प्रतिगमन?

मैं कुछ मूल्य भविष्यवाणी करना चाहता हूं और मैं कुछ भविष्यवाणी प्राप्त करने का प्रयास कर रहा हूं जो कि यथासंभव कम होने के बीच अनुकूलन करता है, लेकिन अभी भी से बड़ा है । दूसरे शब्दों में: Y(x)Y(x)Y(x)Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim …

13 machine-learning logistic-regression

2

डेटाफ्रेम कॉलम के माध्य की गणना कैसे करें और शीर्ष 10% खोजें

मैं स्काला और स्पार्क के लिए बहुत नया हूं, और बेसबॉल आंकड़ों का उपयोग करके कुछ स्व-निर्मित अभ्यासों पर काम कर रहा हूं। मैं एक केस क्लास का उपयोग कर रहा हूँ, एक RDD बनाएँ और डेटा को एक स्कीमा असाइन करें, और फिर इसे एक DataFrame में बदल रहा …

13 apache-spark scala

2

एक क्लासिफायर के लिए आरओसी वक्र की गणना करने के लिए कुशल एल्गोरिथ्म जिसमें असंतुष्ट सहपाठियों का एक समूह शामिल है

मान लीजिए कि मेरे पास क्लासिफायर सी 1 है ... C_n इस मायने में असहमति जताता है कि कोई भी एक ही इनपुट पर सही नहीं लौटेगा (जैसे कि डिसीजन ट्री में नोड्स)। मैं एक नए क्लासिफायर का निर्माण करना चाहता हूं जो कि इनमें से कुछ सबसेट का मिलन …

13 algorithms

7

मैं एक प्रोग्रामर हूं, मैं डेटा साइंस के क्षेत्र में कैसे पहुंचूं?

सबसे पहले यह शब्द बहुत अस्पष्ट लगता है। वैसे भी..मैं एक सॉफ्टवेयर प्रोग्रामर हूं। मैं जिन भाषाओं को कोड कर सकता हूं उनमें से एक पायथन है। डेटा की बात करें तो मैं एसक्यूएल का उपयोग कर सकता हूं और डेटा स्क्रैपिंग कर सकता हूं। क्या मैं कई लेखों को …

13 beginner career

1

फीचर जनरेशन और फीचर एक्सट्रैक्शन में क्या अंतर है?

क्या कोई मुझे बता सकता है कि फीचर जेनरेशन का उद्देश्य क्या है? और छवि को वर्गीकृत करने से पहले फीचर स्पेस संवर्धन की आवश्यकता क्यों है? क्या यह एक आवश्यक कदम है? क्या फीचर स्पेस को समृद्ध करने की कोई विधि है?

13 machine-learning classification

1

Neo4j बनाम ओरिएंटडीबी बनाम टाइटन

मैं सामाजिक संबंध खनन से संबंधित डेटा-विज्ञान परियोजना पर काम कर रहा हूं और कुछ ग्राफ़ डेटाबेस में डेटा संग्रहीत करने की आवश्यकता है। शुरू में मैंने Neo4j को डेटाबेस के रूप में चुना। लेकिन यह Neo4j अच्छी तरह से स्केल नहीं करता है। मुझे पता चला वैकल्पिक टाइटन और …

13 data-mining graphs databases social-network-analysis

2

गहरी तंत्रिका नेटवर्क प्रशिक्षण की कल्पना करना

मैं प्रशिक्षण के दौरान वेट प्लॉट करने के लिए बहुपरत नेटवर्क के लिए Hinton आरेखों के बराबर खोजने की कोशिश कर रहा हूं। प्रशिक्षित नेटवर्क कुछ हद तक डीप एसआरएन के समान है, अर्थात इसमें कई वेट मैट्रिसेस की अधिक संख्या है जो कई हिंटन आरेखों के एक साथ भूखंड …

13 machine-learning neural-network visualization deep-learning

1

अधिक एकल निर्णय पेड़ जोड़कर ऑन लाइन यादृच्छिक वन

रैंडम फॉरेस्ट (RF) डिसीजन ट्रीज (DT) के एक पहनावा द्वारा बनाया जाता है। बैगिंग का उपयोग करके, प्रत्येक डीटी को एक अलग डेटा सब्मिट में प्रशिक्षित किया जाता है। इसलिए, नए डेटा पर अधिक निर्णय तनाव को जोड़कर एक ऑन-लाइन यादृच्छिक वन को लागू करने का कोई तरीका है? उदाहरण …

13 random-forest online-learning

2

एनएलपी में वर्गीकरण प्रक्रिया में पार्स के पेड़ों से आम तौर पर किन विशेषताओं का उपयोग किया जाता है?

मैं विभिन्न प्रकार के पार्स ट्री संरचनाओं की खोज कर रहा हूं। दो व्यापक रूप से ज्ञात पार्स ट्री संरचनाएं हैं एक) संविधान आधारित पार्स ट्री और बी) निर्भरता आधारित पार्स ट्री संरचनाएं। मैं स्टैनफोर्ड एनएलपी पैकेज का उपयोग करके दोनों प्रकार के पार्स ट्री संरचनाओं को उत्पन्न करने में …

13 machine-learning nlp feature-selection feature-extraction

4

मशीन लर्निंग एल्गोरिदम का अध्ययन: समझ की गहराई बनाम एल्गोरिदम की संख्या

हाल ही में मुझे डेटा साइंस (इसके 6 महीने लगभग हो गए हैं) के क्षेत्र में पेश किया गया था, और Ii ने एंड्रयू एनजी द्वारा मशीन लर्निंग कोर्स और जेएचयू द्वारा डेटा साइंस स्पेशलाइजेशन पर काम करना शुरू कर दिया था। व्यावहारिक अनुप्रयोग के मोर्चे पर, मैं एक भविष्य …

13 machine-learning

6

डेटासैट सर्वोत्तम प्रथाओं को समझ रहा है

मैं डाटा माइनिंग में सीएस मास्टर छात्र हूं। मेरे पर्यवेक्षक ने एक बार मुझसे कहा था कि इससे पहले कि मैं कोई क्लासिफायर चलाऊं या किसी डेटासेट के साथ कुछ भी करूं, मुझे डेटा को पूरी तरह से समझना चाहिए और सुनिश्चित करना चाहिए कि डेटा साफ और सही है। …

13 statistics dataset

1

जब एक रिलेशनल डेटाबेस में बिना रिलेशनल के बेहतर प्रदर्शन होता है

जब MySQL की तरह एक रिलेशनल डेटाबेस, MongoDB की तरह कोई रिलेशनल से बेहतर प्रदर्शन करता है? मैंने दूसरे दिन Quora पर एक प्रश्न देखा, कि क्यों Quora अभी भी MySQL को अपने बैकएंड के रूप में उपयोग करता है, और यह कि उनका प्रदर्शन अभी भी अच्छा है।

13 bigdata performance databases nosql