मैं डेटा की प्रासंगिक विशेषताओं का चयन कैसे करूं?


11

हाल ही में मैं कुछ विशेष संसाधनों के लिए अपने खर्च का कुछ लागत विश्लेषण करने के लिए एक समस्या पर काम कर रहा था। मैं आमतौर पर विश्लेषण से कुछ मैनुअल निर्णय लेता हूं और तदनुसार योजना बनाता हूं।

मेरे पास एक्सेल प्रारूप में और सैकड़ों स्तंभों के साथ एक बड़ा डेटा सेट है, विभिन्न समय सीमा और प्रकार (अन्य विभिन्न विस्तृत उपयोग) में संसाधन के उपयोग को परिभाषित करता है। मुझे अपने पिछले 4 वर्षों के डेटा और वास्तविक संसाधन उपयोग और लागत के अनुसार जानकारी है।

मैं एक एनएन को प्रशिक्षित करने की उम्मीद कर रहा था ताकि मैं अपनी लागत का अनुमान लगा सकूं और योजना का विश्लेषण करने से पहले ही योजना बना सकूं।

लेकिन सबसे बड़ी समस्या जो मुझे आ रही है, वह है इस तरह के विश्लेषण के लिए सुविधाओं की पहचान करना। मुझे उम्मीद थी कि डेटा सेट से सुविधाओं की पहचान करने का कोई तरीका है।

पीएस - मुझे पीसीए और कुछ अन्य फीचर सेट रिडक्शन तकनीकों के बारे में पता है, जो मैं देख रहा हूं, उन्हें पहली जगह में पहचानने का तरीका है।

जवाबों:


1

चूँकि आपके पास एक तालिका में अपना सारा डेटा है, इसलिए प्रत्येक स्तंभ पर स्वतंत्र रूप से विचार करना एक अपेक्षाकृत सरल बात है, और फिर यह देखना कि क्या आउटपुट चर (लागत) का सहसंबंध है।

यदि आउटपुट चर के साथ कॉलम में कोई (या बहुत कम सहसंबंध) नहीं है, तो इसे महत्वपूर्ण नहीं मानें। फिर कटौती करने वालों को आगे माना जाता है।

यह स्पष्ट रूप से बहुत अलग नहीं है कि एक निर्णय ट्री एल्गोरिदम कैसे काम करेगा (जैसे आईडी 3)।


0

सुविधा चयन के लिए कोई हार्ड-एंड-फास्ट-नियम नहीं है, आपको मैन्युअल रूप से डेटासेट की जांच करनी होगी और फीचर इंजीनियरिंग के लिए विभिन्न तकनीकों का प्रयास करना होगा। और कोई नियम नहीं है कि आपको इसके लिए तंत्रिका नेटवर्क को लागू करना चाहिए, तंत्रिका नेटवर्क को प्रशिक्षित करने में समय लगता है, इसके बजाय आप निर्णय ट्री आधारित विधियों (यादृच्छिक जंगलों) के साथ प्रयोग कर सकते हैं क्योंकि आपका डेटा वैसे भी सारणीबद्ध संरचना में है।


इनपुट के लिए धन्यवाद, 1. मैं मानता हूं कि एनएन परिकल्पना का परीक्षण करने का सबसे अच्छा तरीका नहीं है, लेकिन मुझे लगता है कि एनएन का उपयोग करके हम बेहतर परिणामों (ज्यादातर मामलों में) प्राप्त करने के लिए, सुविधाओं के बीच अधिक विशाल संबंधों को प्राप्त कर सकते हैं। 2. मैं जिस समस्या का सामना कर रहा था वह सुविधाओं का चयन करना था, जो वास्तव में मेरी समस्या के लिए पैटर्न को परिभाषित करेगा, फीचर वेट को कैसे परिभाषित करें।
करण चोपड़ा

0

यह एक महान सवाल है और शायद एमएल पर सबसे कठिन कार्यों में से एक है।

आपके पास कुछ विकल्प हैं:

  1. आप यह समझने के लिए वज़निंग एल्गोरिदम (जैसे ची-स्क्वेर) का उपयोग कर सकते हैं कि आपके आउटपुट में कौन सी सुविधाएँ सबसे अधिक योगदान दे रही हैं
  2. आप यह वर्गीकृत करने के लिए अन्य एमएल एल्गोरिदम का उपयोग कर सकते हैं कि कोई सुविधा आपकी भविष्यवाणियों में योगदान दे रही है या नहीं
  3. आप अन्य एमएल एल्गोरिदम (एनएन के अलावा) का उपयोग कर सकते हैं जो स्वाभाविक रूप से आपको सुविधा भार (जैसे रैंडम फ़ॉरेस्ट) प्रदान करते हैं

उम्मीद है की वो मदद करदे


0

लागत के साथ न केवल संसाधन जुड़ाव के संबंध पर विचार करना बुद्धिमान है, बल्कि संसाधन सगाई की लागत पर वापसी भी है। विशिष्ट चुनौती यह है कि वे रिटर्न लगभग हमेशा संचयी या विलंबित होते हैं। संचय का एक मामला तब होता है जब संसाधन एक प्रक्रिया का निरंतर ट्यूनिंग या सुधार होता है जिसकी अनुपस्थिति राजस्व की पीढ़ी को धीमा कर देती है। देरी का एक मामला यह है कि जब अनुसंधान संसाधन समय की अवधि के लिए राजस्व प्रभाव के बिना खर्च करते हैं, लेकिन राजस्व उत्पन्न होता है जो अनुसंधान शुरू करता है तो उत्पादक परिणाम वितरित किए गए परिणामों की कुल लागत से काफी बड़ा कारक हो सकता है।

कारण व्यय डेटा अपने आप में दुर्भावनापूर्ण नेटवर्क सीखने का कारण बन सकता है, क्योंकि एक नेटवर्क जिसे कम करने के लिए प्रशिक्षित किया जाता है, उदाहरण के लिए, विपणन व्यय उन्हें शून्य कर देगा। यह आमतौर पर व्यापार की तह तक घटती बिक्री की प्रवृत्ति का कारण होगा। प्रशिक्षण की जानकारी में रिटर्न को शामिल किए बिना, कोई उपयोगी शिक्षण नहीं हो सकता है।

एक मूल एमएलपी (मल्टी-लेयर परसेप्ट्रॉन) डेटा की अस्थायी विशेषताओं, संचय और देरी के पहलुओं को नहीं सीखेगा। आपको एक स्टेटफुल नेटवर्क की आवश्यकता होगी। इस तरह के सीखने के लिए सबसे लगातार सफल नेटवर्क प्रकार इस लेखन के रूप में LSTM (दीर्घकालिक अल्पकालिक मेमोरी) नेटवर्क प्रकार या इसके व्युत्पन्न वेरिएंट में से एक है। प्रस्तावित संसाधन संलग्नक (पूरी तरह से विस्तृत बजटीय योजना) के किसी भी अनुक्रम के लिए व्यावसायिक परिणामों की भविष्यवाणी करने के लिए नेटवर्क को प्रशिक्षित करने के लिए व्यय डेटा के साथ राजस्व और संतुलन डेटा का उपयोग किया जाना चाहिए।

नुकसान फ़ंक्शन को मध्यम और दीर्घकालिक वित्तीय उद्देश्यों के साथ ठीक तरह से शब्द संतुलन करना चाहिए। नकारात्मक उपलब्ध नकदी को नुकसान के कार्य में एक स्पष्ट वृद्धि का उत्पादन करना चाहिए ताकि इस तरह के जोखिम से प्रतिष्ठा और क्रेडिट की लागत से बचा जा सके।

आपके डेटा के कौन से कॉलम में निवेश पर रिटर्न के साथ मजबूत सहसंबंध हैं, अग्रिम में निर्धारित करना मुश्किल है। आप उन स्तंभों को तुरंत बाहर कर सकते हैं जो निम्न मानदंडों में से किसी एक के अनुरूप हैं।

  • हमेशा खाली
  • अन्य स्थिरांक, वे जो हर पंक्ति के लिए समान मूल्य रखते हैं
  • जिन्हें हमेशा अन्य स्तंभों से लिया जा सकता है

डेटा को अन्य तरीकों से कम किया जा सकता है

  • सरल तरीकों से रुझानों को चिह्नित करके डेटा का पूरी तरह से वर्णन करना
  • प्रत्येक स्ट्रिंग को एक संख्या बताकर 100% सटीकता के साथ लंबे तारों को निर्दिष्ट करने के लिए सूचकांकों का उपयोग करना
  • दबाव
  • अन्यथा डेटा में अतिरेक को कम करना

RBM (प्रतिबंधित बोल्ट्ज़मन मशीनें) डेटा से सुविधाएँ निकाल सकती हैं और PCAs कम सूचना सामग्री कॉलम को रोशन कर सकते हैं, लेकिन राजस्व के साथ उनके सहसंबंध के संदर्भ में स्तंभों के महत्व को इन उपकरणों का उनके मूल रूप में उपयोग करके पहचान नहीं की जाएगी।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.