प्रयोग और परिणामों की पुस्तक कीपिंग


11

मैं शोधकर्ता हूं और मुझे व्यवहार्य समाधानों का परीक्षण करना पसंद है, इसलिए मैं बहुत सारे प्रयोग करता हूं। उदाहरण के लिए, यदि मैं दस्तावेजों के बीच समानता स्कोर की गणना कर रहा हूं, तो मैं कई उपायों को आजमाना चाहता हूं। वास्तव में, प्रत्येक माप के लिए मुझे कुछ मापदंडों के प्रभाव का परीक्षण करने के लिए कई रन बनाने की आवश्यकता हो सकती है।

अब तक, मैं रन इनपुट्स और उनके परिणामों को ट्रैक कर रहा हूँ और परिणाम के बारे में अधिक जानकारी के साथ फाइलों में परिणाम लिखकर। समस्या यह है कि एक विशिष्ट परिणाम प्राप्त करना कभी-कभी एक चुनौती बन जाता है, भले ही मैं इनपुट फ़ाइल को वें फ़ाइल नाम में जोड़ने का प्रयास करता हूं। मैंने परिणामों के लिंक के साथ एक स्प्रेडशीट का उपयोग करने की कोशिश की लेकिन यह बहुत बड़ा अंतर नहीं कर रहा है।

आप अपने प्रयोगों को ध्यान में रखते हुए पुस्तक के लिए कौन से उपकरण / प्रक्रिया का उपयोग करते हैं?


1
मैं टैग सर्वोत्तम प्रथाओं को जोड़ना चाहता था, लेकिन मैं नहीं कर सकता क्योंकि मेरे पास 150 प्रतिष्ठा अंक नहीं हैं। ईमानदार होने के लिए, मुझे समझ में नहीं आता है कि इस तरह के सभी नियमों के साथ साइट पर एक नया हास्य प्रभावी रूप से कैसे योगदान दे सकता है। मुझे बहुत से प्रश्न दिखाई देते हैं जिनके लिए मुझे उत्तर पता है, लेकिन मैं जवाब नहीं दे सकता या फिर भी जवाब नहीं दे सकता अगर यह पहले से ही है।
मशीन-ज्ञान

मुझे लगता है कि यह एक सामान्य प्रोग्रामिंग प्रश्न है, इसलिए StackOverflow बेहतर हो सकता है। आप जो कुछ करने की कोशिश कर रहे हैं उसका एक टुकड़ा शामिल कर सकते हैं, और यह धीमा क्यों है, और सुझाए गए अनुकूलन के लिए पूछें।
शॉन ओवेन

वास्तव में मुझे लगता है कि opendata.stackexchange.com एक बेहतर फिट होगा।
एमरे

1
मैंने हाल ही में उत्पादों के लिए बाजार के चारों ओर एक त्वरित नज़र रखी, जो उस के साथ मदद करेगा, और मैं अपने निष्कर्षों को साझा करना चाहता हूं। दो एसएएएस उत्पाद हैं जो एक डेटा साइंस टीम को पायथन और आर में किए गए विश्लेषणों को साझा करने में मदद कर सकते हैं। उनके पास आईडीई की तरह एक आईपीथॉन नोटबुक है, और वे दोनों इसके चारों ओर नौकरियों को चलाने और साझा करने के लिए कई विशेषताओं का निर्माण करते हैं। मैं उन दोनों को लगभग समान समझता हूं: [डॉमिनो डेटा लैब] [1] और [Sense.io] [२] [१]: dominodatalab.com [२]: sense.io
मशीन-ज्ञान

Hadoop के लिए मशीन लर्निंग का माहौल भी है, जो जॉब रन का ट्रैक रखता है; [h2o.ai] [3]। यह डेटा टीम के काम को सुव्यवस्थित करने के लिए एक उपकरण होने के लिए नहीं है, लेकिन कुछ सावधान नामकरण सम्मेलनों के साथ यह बहुत मदद कर सकता है। यह एक [3]: h2o.ai के
मशीन-ज्ञान

जवाबों:


5

आप http://deeplearning.net/software/jobman/intro.html पर देखना चाह सकते हैं

यह गहरी सीखने (मुझे लगता है) के लिए डिज़ाइन किया गया था, लेकिन यह अनुप्रयोग अज्ञेयवादी है। यह प्रभावी रूप से SeanEasters दृष्टिकोण का एपीआई संस्करण है


5

मैं हाल ही में एक समान समस्या में भाग गया: एक बड़े डेटासेट से विभिन्न प्रकार की सुविधाओं को निकालने का प्रबंधन कैसे करें, यह जानने के बिना कि उनमें से सभी क्या होंगे। (यहां तक ​​कि बार-बार गणना मूल्यों का कम्प्यूटेशनल रूप से महंगा होगा।) आगे, मैं विभिन्न फीचर सेटों के आधार पर भविष्यवाणियों का प्रबंधन कैसे करूंगा? मतलब, अगर मैंने एक नई सुविधा जोड़ी, तो मुझे कैसे पता चलेगा कि कौन से मॉडल नई विशेषताओं पर प्रशिक्षित होंगे? यह जल्दी से एक बड़ी गड़बड़ में स्नोबॉल कर सकता है।

मेरा वर्तमान समाधान यह सब एक स्थानीय NoSQL डेटाबेस (MongoDB) में ट्रैक करना है। उदाहरण के लिए, मेरे पास एक संग्रह हो सकता है features, जिसमें से प्रत्येक प्रविष्टि में एक नाम है, यह वर्णन किया गया है कि सुविधा की गणना कैसे की गई थी, अजगर फ़ाइल जो निष्कर्षण चलाती थी, आदि।

इसी तरह, एक संग्रह modelsमें डेटा पर चलने वाले मॉडल शामिल हैं। प्रत्येक प्रविष्टि में एक नाम, उन विशेषताओं की एक सूची हो सकती है जिनका उपयोग मॉडल को प्रशिक्षित करने के लिए किया गया था, इसके अंतिम पैरामीटर, आयोजित किए गए परीक्षण सेट पर मूल्यों की भविष्यवाणी की, मॉडल कैसे प्रदर्शन किया आदि।

मेरी सहूलियत की दृष्टि से, इसके कई लाभ हैं:

  • भविष्यवाणियों को सहेजने से, मैं उन्हें बाद में भविष्यवाणियों में उपयोग कर सकता हूं।
  • क्योंकि मैं इस बात का ध्यान रखता हूं कि किन विशेषताओं का उपयोग किया गया था, मुझे पता है कि मुझे कौन सी सुविधाएँ वापस लेने की आवश्यकता है क्योंकि मैं और अधिक सुविधाएँ निकालता हूँ।
  • मॉडल विवरण सहेजने से, मैं सुनिश्चित करता हूं कि मुझे हमेशा पता है कि मैंने क्या कोशिश की है। मुझे कभी आश्चर्य नहीं हुआ, "क्या मैंने ग्रिड-सर्च सीवी द्वारा निर्धारित नियमितीकरण मापदंडों के साथ LASSO की कोशिश की है?" मैं हमेशा इसे देख सकता हूं, और देख सकता हूं कि यह कितना सफल रहा।

आपके प्रश्न से, ऐसा लगता है कि आप अपनी समस्या के वर्कफ़्लो में इस दृष्टिकोण को अनुकूलित कर सकते हैं। मानगो या पसंद का एक और डेटाबेस स्थापित करें, और फिर प्रत्येक प्रायोगिक रन, उसके इनपुट, उसके परिणाम, और कुछ भी आप परियोजना के दौरान ट्रैक करने की इच्छा रख सकते हैं। स्प्रेडशीट की तुलना में यह क्वेरी के लिए बहुत आसान होना चाहिए, कम से कम।


मैं उत्थान करना चाहूंगा लेकिन मुझे अनुमति नहीं है।
मशीन-ज्ञान
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.