गैस की खपत का पता लगाने वाले का पता लगाने - तंत्रिका नेटवर्क परियोजना। बुरा परिणाम


10

मैंने एक न्यूरल नेटवर्क मॉडल का निर्माण करते हुए कुछ डच इमारतों की ऊर्जा गैस की खपत में आउटलेर्स का पता लगाने की कोशिश की। मेरे पास बहुत बुरे परिणाम हैं, लेकिन मुझे इसका कारण नहीं मिल रहा है।

मैं एक विशेषज्ञ नहीं हूं इसलिए मैं आपसे पूछना चाहता हूं कि मैं क्या सुधार कर सकता हूं और मैं क्या गलत कर रहा हूं। यह पूरा विवरण है: https://github.com/denadai2/Gas-consumption-outliers

तंत्रिका नेटवर्क एक फीडफॉवर्ड नेटवर्क है जिसमें बैक प्रोपोगेशन है। जैसा कि यहाँ बताया गया है कि मैंने 41'000 पंक्तियों, 9 विशेषताओं के "छोटे" डेटासेट में डेटासेट को अलग किया और मैंने और अधिक सुविधाएँ जोड़ने की कोशिश की।

मैंने नेटवर्कों को प्रशिक्षित किया, लेकिन परिणामों में 14.14 आरएमएसई है, इसलिए यह गैस की खपत की इतनी अच्छी तरह से भविष्यवाणी नहीं कर सकता है, लगातार मैं एक अच्छा आउटलाइडर डिटेक्शन तंत्र नहीं चला सकता। मैं देखता हूं कि कुछ कागजों में कि भले ही वे बिजली में दैनिक या प्रति घंटा खपत की भविष्यवाणी करते हैं, उनके पास एमएसई = 0.01 जैसी त्रुटियां हैं।

मैं क्या सुधार कर सकता हूं? मैं क्या गलत कर रहा हूं? क्या आप मेरे विवरण का अवलोकन कर सकते हैं?


2
क्या मतलब, बुरे नतीजे? अपनी प्रक्रिया, अपने परिणाम और वे जो आप की अपेक्षा से भिन्न होते हैं, का वर्णन केवल गिट रिपॉजिटरी से जोड़ने के बजाय करें। अन्यथा यह चर्चा किसी के काम नहीं आएगी।
एयर

यह भी सच है: डी। मैंने पृष्ठ में विवरण जोड़ा "परिणामों में 14.14 आरएमएसई है, इसलिए यह गैस की खपत का इतनी अच्छी तरह से अनुमान नहीं लगा सकता है, हो सकता है कि मैं एक अच्छा बाहरी पता लगाने वाला तंत्र नहीं चला सकता। मैं कुछ कागजों में देखता हूं कि भले ही वे भविष्यवाणी करें। इलेक्ट्रिक पावर में दैनिक या प्रति घंटा खपत, उनके पास एमएसई = 0.01 जैसी त्रुटियां हैं। "
मार्कोडेना

1
@marcodena यह एक क्यूए साइट है, और दूसरों को यह जानने की जरूरत है कि आप क्या हल करने की कोशिश कर रहे हैं, ताकि वे जवाबों को समझ सकें, और उम्मीद है कि उन्हें अपनी समस्याओं में उपयोग करने में सक्षम होंगे। यही कारण है कि AirThomas का मतलब था, और यह भी कि यह अच्छा होगा यदि आप वर्णन कर सकते हैं कि आप क्या कर रहे हैं और वास्तव में आप क्या सोचते हैं गलत है। यदि आपके git-hub पेज का लिंक बदल जाता है, तो यहां लिंक अमान्य हो जाएगा, और अन्य लोग यह नहीं समझ पाएंगे कि समस्या क्या है। कृपया, अपने प्रश्न को स्व-निहित बनाने के लिए एक मिनट लें। धन्यवाद।
रुबेंस

1
जब आप पाते हैं कि आपकी समस्या को समझाने में बहुत लंबा समय लगता है, तो यह तब है जब अपने प्रश्न को दूसरों को समझाने के लिए, स्पष्ट रूप से और आपके शोध / प्रयासों के विवरण और चर्चा के साथ समय बिताना सबसे महत्वपूर्ण है। अक्सर उस प्रक्रिया के दौरान आपको कुछ या सभी उत्तर अपने आप मिल जाएंगे। इतना ही नहीं, एक महान भावना, यदि आप जो पाते हैं वह दूसरों के लिए उपयोगी है, तो आप अभी भी उस प्रश्न को पोस्ट कर सकते हैं जिस पर आप इतना समय बिताते हैं, और आपके द्वारा दिया गया उत्तर।
हवा

1
बस एक स्पष्टीकरण, जब आप उल्लेख करते हैं कि "कुछ कागजात में उनके पास एमएसई = 0.01" जैसी त्रुटियां हैं, तो क्या आप उसी डेटासेट का उल्लेख करते हैं जिसका आप उपयोग कर रहे हैं? या यह एक अलग डेटासेट है?
INSYS

जवाबों:


8

बस एक विचार - आपका डेटा अत्यधिक मौसमी है: दैनिक और साप्ताहिक चक्र काफी बोधगम्य हैं। तो सबसे पहले, अपने चर (गैस और बिजली की खपत, तापमान, और सौर विकिरण) को विघटित करने का प्रयास करें। यहां आर के लिए समय श्रृंखला अपघटन पर एक अच्छा ट्यूटोरियल है।

प्रवृत्ति और मौसमी घटकों को प्राप्त करने के बाद, सबसे दिलचस्प हिस्सा शुरू होता है। यह सिर्फ एक धारणा है, लेकिन मुझे लगता है, समय श्रृंखला विश्लेषण (जैसे, ARIMA मॉडल ) के माध्यम से गैस और बिजली की खपत चर काफी अनुमानित होगी । मेरे दृष्टिकोण से, उपलब्ध डेटा (तापमान विसंगतियों, सौर विकिरण, हवा की गति) का उपयोग करते हुए, यहां से निकलने वाला सबसे अधिक भाग सड़न के बाद अवशिष्टों की भविष्यवाणी करने की कोशिश करना है। मुझे लगता है, ये अवशेष आउटलेर होंगे, आप देख रहे हैं। आशा है, आपको यह उपयोगी लगेगा।


3

अपने प्रशिक्षण नोटबुक में आप 20 युगों के साथ प्रशिक्षण के लिए परिणाम प्रस्तुत करते हैं। क्या आपने उस पैरामीटर को अलग करने की कोशिश की है, यह देखने के लिए कि क्या यह आपके प्रदर्शन को प्रभावित करता है? यह बैक-प्रचार के लिए एक महत्वपूर्ण पैरामीटर है।

अपने मॉडल के मापदंडों का आकलन करने के लिए, जैसा कि उपयोगकर्ता टॉमस्कैजेमेकस ने बताया है, लर्निंग कर्व्स की साजिश रचना एक बहुत अच्छा तरीका है। इसके अलावा, आप एक मॉडल पैरामीटर (जैसे प्रशिक्षण युग या छिपी परत आकार) बनाम प्रशिक्षण और वैधता त्रुटि का उपयोग करके एक भूखंड भी बना सकते हैं। यह आपको पूर्वाग्रह / विचरण व्यापार को समझने में मदद करेगा, और आपको अपने मापदंडों के लिए एक अच्छा मूल्य चुनने में मदद करेगा। कुछ जानकारी यहाँ मिल सकती है । स्वाभाविक रूप से, एक (तीसरे) टेस्ट सेट के लिए अपने डेटा का एक छोटा प्रतिशत रखना एक अच्छा विचार है।

एक साइड नोट के रूप में, ऐसा लगता है कि आपके मॉडल में न्यूरॉन्स की संख्या में वृद्धि आपके आरएमएसई के लिए कोई महत्वपूर्ण सुधार नहीं दिखाती है। इससे पता चलता है कि आप एक सरल मॉडल के साथ भी प्रयास कर सकते हैं, अर्थात कम न्यूरॉन्स के साथ और देखें कि आपका मॉडल कैसे व्यवहार करता है।

वास्तव में, मैं सुझाव दूंगा (यदि आपने पहले से ऐसा नहीं किया है) तो पहले कुछ या कोई मापदंडों के साथ एक साधारण मॉडल की कोशिश करना, जैसे कि रैखिक प्रतिगमन, और साहित्य के साथ अपने परिणामों की तुलना करें, जैसे कि एक पवित्रता जांच।


मैंने मॉडल A LOT को बेहतर बनाने के बाद कुछ ग्राफ़ जोड़े। गितुब में नए कदम हैं। क्या मैं आपसे पूछ सकता हूं कि मैं एक समय श्रृंखला समस्या में रैखिक प्रतिगमन कैसे लागू कर सकता हूं? :(
मार्कोडेना

2

यहां मुख्य समस्या यह है कि विसंगति का पता लगाने वाले एल्गोरिदम को लागू करने का प्रयास करने से पहले, आपको तंत्रिका नेटवर्क का उपयोग करके गैस की खपत का पर्याप्त पूर्वानुमान नहीं मिल रहा है।

यदि यहां मुख्य लक्ष्य उस चरण तक पहुंचना है जब विसंगति का पता लगाने वाले एल्गोरिदम का उपयोग किया जा सकता है और आप कहते हैं कि आपके पास इस समस्या के लिए रैखिक प्रतिगमन के सफल अनुप्रयोग के उदाहरण हैं, तो यह दृष्टिकोण अधिक उत्पादक हो सकता है। सफल मशीन लर्निंग एप्लिकेशन के सिद्धांतों में से एक यह है कि परिणामों के आधार पर अंतिम चयन से पहले कई अलग-अलग एल्गोरिदम आज़माए जा सकते हैं।

यह आप अपने तंत्रिका नेटवर्क प्रदर्शन को ट्यून करने के लिए चुनते हैं, त्रुटि दर पर विभिन्न हाइपरपरमेटर्स में परिवर्तन के प्रभाव को सीखने की अवस्था का उपयोग कर सकते हैं। हाइपरपैरमीटर जिन्हें संशोधित किया जा सकता है वे हैं:

  • सुविधाओं की संख्या
  • बहुपद का क्रम
  • नियमितीकरण पैरामीटर
  • नेटवर्क में परतों की संख्या

क्रॉस सत्यापन सेट पर प्रदर्शन द्वारा सर्वश्रेष्ठ सेटिंग्स का चयन किया जा सकता है।


मैंने कुछ ग्राफ़ जोड़े और आप अब मापदंडों के बारे में भी जाँच कर सकते हैं :)
marcodena

2

आपकी नोटबुक में, मैंने आपका तंत्रिका नेटवर्क मॉडल नहीं देखा, क्या आप यह इंगित कर सकते हैं कि कौन सी लाइब्रेरी का उपयोग कर रहे हैं, आपके पास कितनी परतें हैं और आप किस प्रकार के तंत्रिका नेटवर्क का उपयोग कर रहे हैं?

आपकी नोटबुक में, ऐसा लगता है कि आप तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए शोर और बाहरी डेटासेट का उपयोग कर रहे हैं, मुझे लगता है कि आपको न्यूरल नेटवर्क को डेटासेट पर प्रशिक्षित करना चाहिए, जिसमें आपके पास कोई आउटलेयर नहीं है, ताकि आप भविष्यवाणी के अवलोकन से दूरी देख सकें तंत्रिका नेटवर्क अवलोकन को या तो बाहरी रूप से लेबल करने के लिए या नहीं।

मैंने लिखा जोड़ी की बातें समय श्रृंखला संकेतों में बाहरी का पता लगाने पर, अपने डेटा अत्यधिक मौसमी है sobach उल्लेख किया है और आप FFT (ऊपर पहले लिंक) इस्तेमाल कर सकते हैं संकेत में समग्र रुझान प्राप्त करने के लिए के रूप में। गैस की खपत में आवृत्ति घटक प्राप्त करने के बाद, आप उच्च आवृत्ति घटकों को आउटलेर्स प्राप्त करने के लिए देख सकते हैं।

यदि आप मौसमी डेटा के लिए तंत्रिका नेटवर्क का उपयोग करने पर जोर देना चाहते हैं, तो आप आवर्तक तंत्रिका नेटवर्क की जांच करना चाहते हैं क्योंकि वे पिछले टिप्पणियों को वेनिला तंत्रिका नेटवर्क से बेहतर शामिल कर सकते हैं, और माना जाता है कि आपके पास जो डेटा है उसके लिए बेहतर परिणाम प्रदान कर सकते हैं। ।


मैंने आपकी FFT विधि की कोशिश की, लेकिन मुझे वास्तव में अपने डेटा के साथ आवृत्ति सीमा और आयाम सेट करने का तरीका नहीं मिला। मैं
देखता रहूँगा

मैंने स्रोतों को भी जोड़ा
marcodena
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.