मशीन लर्निंग का उपयोग कर सर्वर लॉग विश्लेषण


10

हमारे कार्य के सर्वर लॉग का विश्लेषण करने के लिए मुझे यह कार्य सौंपा गया था जिसमें अपवाद लॉग, डेटाबेस लॉग इवेंट लॉग आदि शामिल हैं। मैं मशीन सीखने के लिए नया हूं, हम लोचदार खोज और स्पार्क्स एमएललिब (या प्रिडिक्शनियो) के साथ स्पार्क का उपयोग करते हैं। वांछित का एक उदाहरण। परिणाम का अनुमान लगाने में सक्षम होने में सक्षम होगा कि लॉग लॉग के आधार पर भविष्यवाणी करने में सक्षम होने के लिए कि कौन सा उपयोगकर्ता अगले अपवाद का कारण बनता है और जिस पर (और आवेदन के अनुकूलन में सुधार करने के लिए अन्य सामान का गुच्छा और सुविधा)।

मैं सफलतापूर्वक ElasticSearch से डेटा को स्पार्क में निगलना और DataFrames बनाने और आवश्यक डेटा को मैप करने में सक्षम रहा हूं। मैं यह जानना चाहूंगा कि मैं अपने कार्यान्वयन के मशीन लर्निंग पहलू से कैसे संपर्क कर सकता हूं। मैं उन लेखों और पत्रों के माध्यम से आया हूं, जो डेटा प्रीप्रोसेसिंग के बारे में बात करते हैं, डेटा मॉडल को प्रशिक्षित करते हैं और लेबल बनाते हैं और फिर भविष्यवाणियां बनाते हैं।

मेरे पास जो सवाल हैं

  • मैं एग्जिट लॉग डेटा को संख्यात्मक वैक्टर में बदलने के लिए कैसे संपर्क कर सकता हूं, जिसे प्रशिक्षित करने के लिए डेटासेट का उपयोग किया जा सकता है।

  • मैं अपने डेटासेट को प्रशिक्षित करने के लिए क्या एल्गोरिदम का उपयोग करता हूं (सीमित ज्ञान के साथ मैंने पिछले कुछ दिनों को इकट्ठा किया है, मैं सोच रहा था कि रैखिक प्रतिगमन को लागू करने के लिए मुक्केबाज़ी करें, कृपया सुझाव दें कि कौन सा कार्यान्वयन सबसे अच्छा होगा)

इस समस्या से कैसे संपर्क करें, इस बारे में सुझाव की तलाश कर रहे हैं।

धन्यवाद।


यदि आपके पास एक निश्चित उपयोगकर्ता के लिए एक अपवाद की उच्च संभावना है, तो आप क्या करेंगे, यह विश्वास करने की क्षमता है? लक्ष्य एप्लिकेशन का अनुकूलन है। क्या आप यह साबित करने की कोशिश कर रहे हैं कि आवेदन में ज्ञात बगों को ठीक करने के बजाय किन बग इंजीनियरों को अपना समय बिताना चाहिए? फ़ीचर इंजीनियरिंग इस कार्य के लिए बहुत महत्वपूर्ण हो सकती है। इसके अलावा, आप लॉजिस्टिक रिग्रेशन पर विचार करना चाह सकते हैं जो 0..1 मूल्य का उत्पादन करेगा जिसकी व्याख्या एक संभावना के रूप में की जा सकती है।

5
मुझे लगता है कि आप उद्देश्यों में निरीक्षण कर रहे हैं। जादू करने के लिए ब्लैक बॉक्स के रूप में ML का इलाज न करें। आपको कोई भी परिणाम प्राप्त करने के लिए सही प्रश्न (और उस के लिए पर्याप्त डेटा) पूछना होगा।
QUIT -

क्या आपकी समस्या यह अनुमान लगाने के लिए हल हो गई है कि किस उपयोगकर्ता को अगले अपवाद का कारण बनने की अधिक संभावना है और किस विशेषता पर (और अन्य सामान को ट्रैक रखने और एप्लिकेशन के अनुकूलन में सुधार करने के लिए) ? यदि हाँ, तो क्या आप अपने समाधान के दृष्टिकोण को साझा कर सकते हैं या किसी और को साझा कर सकते हैं?
आशीष त्यागी

जवाबों:


12

मुझे नहीं लगता कि आपको एल्गोरिथ्म में उपयोग के लिए व्यक्तिगत लॉग प्रविष्टियों को वैक्टर में बदलने की आवश्यकता है। मुझे लगता है कि आप में रुचि रखते हैं लॉग प्रविष्टियों का एक क्रम है, जो समय में आदेश दिया घटनाओं की एक श्रृंखला का प्रतिनिधित्व करते हैं, जो एक साथ 'मामलों' की एक श्रृंखला बनाते हैं। यहां एकत्रित लॉग प्रविष्टियों की एक श्रृंखला के बीच संबंध महत्वपूर्ण है।

यदि ऐसा है तो आप प्रोसेस माइनिंग तकनीकों का उपयोग करने पर विचार कर सकते हैं । यह आपको अपनी प्रक्रिया के मॉडल (आपके आवेदन का उपयोग) का निर्माण करने और त्रुटियों और rework चरणों के साथ प्रक्रिया चरणों के पैटर्न का निर्धारण करने की अनुमति देता है।

कौरसेरा पर एक अच्छा परिचय पाठ्यक्रम है, यहाँ । विश्लेषण और दृश्य में आपकी सहायता करने के लिए 'डिस्को' जैसे कुछ विकसित, व्यावसायिक पैकेज भी हैं

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.