डेटा साइंस

4

टेक्स्ट प्रोसेसिंग में क्लस्टरिंग का उपयोग करना

नमस्ते यह डेटा साइंस स्टैक में मेरा पहला सवाल है। मैं पाठ वर्गीकरण के लिए एक एल्गोरिथ्म बनाना चाहता हूं। मान लीजिए कि मेरे पास पाठ और लेखों का एक बड़ा समूह है। लगभग ५००० सादे ग्रंथों के बारे में बताते हैं। मैं पहले चार और ऊपर के सभी वर्णों …

11 text-mining clustering

3

केएस, एयूआरओसी, और गिन्नी के बीच संबंध

आम मॉडल सत्यापन आँकड़े जैसे कोल्मोगोरोव-स्मिरनोव परीक्षण (केएस), एयूआरओसी , और गिनी गुणांक सभी कार्यात्मक रूप से संबंधित हैं। हालांकि, मेरा सवाल यह साबित करने से है कि ये सभी कैसे संबंधित हैं। मुझे उत्सुकता है अगर कोई मुझे इन रिश्तों को साबित करने में मदद कर सकता है। मुझे …

11 data-mining statistics predictive-modeling accuracy

2

प्रयोग और परिणामों की पुस्तक कीपिंग

मैं शोधकर्ता हूं और मुझे व्यवहार्य समाधानों का परीक्षण करना पसंद है, इसलिए मैं बहुत सारे प्रयोग करता हूं। उदाहरण के लिए, यदि मैं दस्तावेजों के बीच समानता स्कोर की गणना कर रहा हूं, तो मैं कई उपायों को आजमाना चाहता हूं। वास्तव में, प्रत्येक माप के लिए मुझे कुछ …

11 tools experiments

3

एनईआर के लिए अनसुचित सुविधा सीखना

मैंने अपने हैंडक्राफ्ट सुविधाओं के साथ सीआरएफ एल्गोरिथ्म के उपयोग के साथ एनईआर प्रणाली को लागू किया है जिसने काफी अच्छे परिणाम दिए हैं। बात यह है कि मैंने कई अलग-अलग विशेषताओं का उपयोग किया जिनमें पीओएस टैग और लेमेस शामिल हैं। अब मैं अलग भाषा के लिए एक ही …

11 nlp text-mining feature-extraction

1

t-SNE Python कार्यान्वयन: कुल्बैक-लीब्लर विचलन

t-SNE, जैसा कि [1] में है, कुल्लबैक-लीब्लर (KL) विचलन को उत्तरोत्तर कम करके काम करता है, जब तक कि एक निश्चित स्थिति पूरी नहीं हो जाती। T-SNE के निर्माता विज़ुअलाइज़ेशन के लिए प्रदर्शन मानदंड के रूप में KL विचलन का उपयोग करने का सुझाव देते हैं: आप K -back-Leibler divergences …

11 machine-learning python

4

एचपीसी क्लस्टर के साथ काम करना

मेरे विश्वविद्यालय में, हमारे पास एचपीसी कंप्यूटिंग क्लस्टर है। मैं क्लासिफायर और इतने पर प्रशिक्षित करने के लिए क्लस्टर का उपयोग करता हूं। इसलिए, आम तौर पर, क्लस्टर में नौकरी भेजने के लिए, (जैसे अजगर स्किट-लर्न स्क्रिप्ट), मुझे एक बैश स्क्रिप्ट लिखने की ज़रूरत है जिसमें (अन्य के अलावा) एक …

11 bigdata data-mining

3

पैटर्न विश्लेषण के लिए डेटा विज़ुअलाइज़ेशन (भाषा-स्वतंत्र, लेकिन आर पसंदीदा)

मैं उनमें एक पैटर्न को समझने के लिए डिस्क छवि से बाइट्स प्लॉट करना चाहता हूं। यह मुख्य रूप से एक अकादमिक कार्य है, क्योंकि मुझे लगभग यकीन है कि यह पैटर्न डिस्क परीक्षण कार्यक्रम द्वारा बनाया गया था, लेकिन मैं इसे वैसे भी रिवर्स-इंजीनियर करना चाहूंगा। मुझे पहले से …

11 r visualization

4

मैं शेयरों के लिए ऐतिहासिक बाजार पूंजीकरण और दैनिक कारोबार डेटा कहां डाउनलोड कर सकता हूं?

बहुत सारे स्रोत हैं जो ऐतिहासिक स्टॉक डेटा प्रदान करते हैं, लेकिन वे केवल वॉल्यूम और समायोजित करीबी के साथ OHLC फ़ील्ड प्रदान करते हैं। इसके अलावा मुझे मिले सूत्रों के एक जोड़े बाजार कैप डेटा सेट प्रदान करते हैं, लेकिन वे यूएस स्टॉक तक ही सीमित हैं। याहू फाइनेंस …

11 dataset

3

प्राकृतिक भाषा प्रश्नों को कैसे संसाधित करें?

मैं प्राकृतिक भाषा क्वेरी के बारे में उत्सुक हूं। स्टैनफोर्ड के पास प्राकृतिक भाषा के प्रसंस्करण के लिए सॉफ्टवेयर का एक मजबूत सेट है । मैंने Apache OpenNLP लाइब्रेरी और टेक्स्ट इंजीनियरिंग के लिए सामान्य आर्किटेक्चर भी देखा है । प्राकृतिक भाषा प्रसंस्करण के लिए उपयोग की एक अविश्वसनीय राशि …

11 nlp

3

सांख्यिकी एमएससी थीसिस के लिए डेटा विज्ञान उन्मुख डेटासेट / शोध प्रश्न

मैं 'डेटा साइंस' की खोज करना चाहता हूँ। यह शब्द मुझे थोड़ा अस्पष्ट लगता है, लेकिन मुझे इसकी आवश्यकता है: मशीन लर्निंग (पारंपरिक आँकड़ों के बजाय); एक बड़ा पर्याप्त डेटासेट जिसे आपको क्लस्टर पर विश्लेषण चलाना है। कुछ अच्छे डेटासेट और समस्याएं, कुछ प्रोग्रामिंग पृष्ठभूमि के साथ एक सांख्यिकीविद् के …

11 statistics education knowledge-base definitions

4

क्या लॉजिस्टिक रिग्रेशन वास्तव में रिग्रेशन एल्गोरिथम है?

प्रतिगमन की सामान्य परिभाषा (जहां तक मुझे पता है) इनपुट चर के दिए गए सेट से निरंतर आउटपुट चर की भविष्यवाणी कर रहा है । लॉजिस्टिक रिग्रेशन एक बाइनरी वर्गीकरण एल्गोरिथ्म है, इसलिए यह एक श्रेणीबद्ध आउटपुट का उत्पादन करता है। क्या यह वास्तव में एक प्रतिगमन एल्गोरिथ्म है? यदि …

11 algorithms logistic-regression

5

जब सहसंबद्ध चर निकालने के लिए

क्या कोई यह सुझाव दे सकता है कि फीचर इंजीनियरिंग से पहले या फीचर इंजीनियरिंग के बाद सहसंबद्ध चर को हटाने के लिए सही चरण क्या है?

11 machine-learning feature-selection data-science-model

3

LSTM, BiLSTM क्या है और इनका उपयोग कब करना है?

मैं डीप लर्निंग के लिए बहुत नया हूँ और मुझे यह जानने में विशेष रूप से दिलचस्पी है कि LSTM और BiLSTM क्या हैं और इनका उपयोग कब करना है (प्रमुख अनुप्रयोग क्षेत्र)। LSTM और BILSTM RNN से अधिक लोकप्रिय क्यों हैं? क्या हम इन गहरी शिक्षण वास्तुकलाओं का उपयोग …

11 machine-learning deep-learning rnn lstm

2

बहुत लंबे समय तक प्रशिक्षण के दौरान एडम ऑप्टिमाइज़र के साथ अजीब व्यवहार

मैं 64 बेतरतीब ढंग से उत्पन्न डेटा बिंदुओं पर एक एकल अवधारणात्मक (1000 इनपुट इकाइयों, 1 आउटपुट, कोई छिपी हुई परतों) को प्रशिक्षित करने की कोशिश कर रहा हूं। मैं एडम ऑप्टिमाइज़र का उपयोग करके पाइटोरेक का उपयोग कर रहा हूं: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, …

11 perceptron pytorch

1

सीएनएन में घनी परतों की संख्या और आकार

अधिकांश नेटवर्क मैंने देखा है कि अंतिम सॉफ्टमैक्स परत से पहले एक या दो घने परतें हैं। क्या घनी परतों की संख्या और आकार चुनने का कोई राजसी तरीका है? मापदंडों की समान संख्या के लिए क्या दो घने परतें एक से अधिक प्रतिनिधि हैं? ड्रॉपआउट को प्रत्येक घने परत …

11 convnet