विसंगति का पता लगाने (नेटवर्क सुरक्षा डेटा) के लिए सुविधाओं का निर्माण / निर्माण कैसे करें


9

मेरा लक्ष्य घुसपैठ का पता लगाने के उद्देश्य से क्लस्टरिंग / विसंगति का पता लगाने के लिए नेटवर्क लॉग्स (जैसे, अपाचे, syslog, सक्रिय निर्देशिका सुरक्षा ऑडिट और इतने पर) का विश्लेषण करना है।

लॉग से मेरे पास बहुत सारे पाठ फ़ील्ड हैं जैसे कि आईपी पता, उपयोगकर्ता नाम, होस्टनाम, गंतव्य पोर्ट, स्रोत पोर्ट, और इसी तरह (कुल 15-20 क्षेत्रों में)। मुझे नहीं पता कि लॉग्स में कुछ हमले हैं, और सबसे संदिग्ध घटनाओं (आउटलेयर) को उजागर करना चाहते हैं।

आमतौर पर, विसंगति का पता लगाने से विसंगतियों के रूप में कम संभावना / आवृत्ति के साथ अंक मिलते हैं। हालाँकि, लॉग रिकॉर्ड्स के आधे में फ़ील्ड्स का अनन्य संयोजन होता है। इसलिए, डेटासेट में रिकॉर्ड के आधे हिस्से में सबसे कम संभव आवृत्ति होगी।

यदि मैं क्लस्टरिंग के आधार पर विसंगति का पता लगाता हूं (उदाहरण के लिए, क्लस्टर ढूंढें और फिर उन बिंदुओं का चयन करें जो सभी क्लस्टर केंद्रों से दूर हैं), मुझे विभिन्न बिंदुओं के बीच की दूरी खोजने की आवश्यकता है। चूँकि मेरे पास 15-20 क्षेत्र हैं, यह एक बहु-स्थानिक स्थान होगा, जहाँ dimesions उपयोगकर्ता नाम, पोर्ट, IP पता इत्यादि हैं। हालांकि, महालनोबिस दूरी केवल सामान्य रूप से वितरित सुविधाओं के लिए लागू की जा सकती है। इसका मतलब है कि डेटा बिंदुओं और निर्माण क्लस्टर के बीच दूरी खोजने का कोई तरीका नहीं है ...

उदाहरण के लिए, आइए कल्पना करें कि 20 रिकॉर्ड के डेटासेट में मेरे पास ऐलिस, बॉब, कैरोल, डेव, ईव और फ्रैंक हैं। वे डेटाबेस में निम्न संख्याएँ हो सकते हैं: 2,5,2,5,1,5। अगर मैं बस संख्या के लिए उपयोगकर्ता नाम मैप करता हूं, उदाहरण के लिए

Alice --> 1
Bob --> 2
Carol --> 3
Dave --> 4
Eve --> 5
Frank --> 6

फिर, उपयोगकर्ता नाम के लिए मेरी संभावना वितरण निम्नानुसार होगा:

p (1) = 0.1, p (2) = 0.25, p (3) = 0.1, p (4) = 0.25, p (5) = 0.05, p (6) = 0.25

बेशक, यह एक सामान्य वितरण नहीं है, और यह भी बहुत मायने नहीं रखता है, क्योंकि मैं किसी भी अलग तरीके से उपयोगकर्ता नाम को मैप कर सकता हूं ...

इस प्रकार, यूजरनेम, एक्शन, पोर्ट नंबर, आईपी एड्रेस इत्यादि जैसे क्षेत्रों की सरल मैपिंग कुछ भी नहीं लाती है।

इसलिए, मैं पूछना चाहता हूं कि आम तौर पर अनपेक्षित विसंगति / बाह्य विकृति का पता लगाने के लिए टेक्स्ट फ़ील्ड को कैसे संसाधित किया जाता है / सुविधाओं का निर्माण किया जाता है?

संपादित करें: डेटा संरचना।

मेरे पास डेटाबेस तालिका में लगभग 100 कॉलम हैं, जिसमें सक्रिय निर्देशिका ईवेंट की जानकारी है। इस 100 कॉलम में से मैं सबसे महत्वपूर्ण (अपने दृष्टिकोण से) का चयन करता हूं: सब्जेक्टयूजर, टारगेटयूजर, सोर्सपेड्रेस, सोर्सहोस्टनाम, सोर्सपॉर्ट, कंप्यूटर, डेस्टिनेशनपैड्रेस, डेस्टिनेशनहॉटनेम, डेस्टिनेशनपोर्ट, एक्शन, स्टेटस, फाइलपैथ, ईवेंटआईडी, वीकडे, डेटाइम।

ईवेंट्स सक्रिय निर्देशिका इवेंट्स हैं, जहां EventID परिभाषित करता है कि क्या लॉग किया गया था (उदाहरण के लिए, Kerberos टिकट का निर्माण, उपयोगकर्ता लॉगऑन, उपयोगकर्ता लॉगऑफ़, आदि)।

डेटा नमूना निम्न प्रकार दिखता है:

+ ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - +
| ID | SubjectUser | TargetUser | SourceIPaddress | SourceHostName | SourcePost | कंप्यूटर | डेस्टिनेशनपैडड्रेस | DestinationHostName | डेस्टिनेशनपोर्ट | एक्शन | स्थिति | फ़ाइलपथ | EventID | WeekDay | DayTime
+ ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - +
| 171390673 | |? |? |? |? | domaincontroller1.domain.com | 1.1.1.1 | domaincontroller1.domain.com | | / प्रमाणीकरण / सत्यापित करें | / सफलता |? | 4624 | 1 | 61293 |
+ ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - +
| 173348232 | |? |? |? |? | domaincontroller2.domain.com | 2.2.2.2 | domaincontroller2.domain.com | | / प्रमाणीकरण / सत्यापित करें | / सफलता |? | 4624 | 1 | 61293 |
+ ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - +
| 180176916 | |? |? |? |? | domaincontroller2.domain.com | 2.2.2.2 | domaincontroller2.domain.com | | / प्रमाणीकरण / सत्यापित करें | / सफलता |? | 4624 | 1 | 61293 |
+ ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - +
| 144144725 | | John.Doe | 3.3.3.3 | domaincontroller3.domain.com | 2407 | domaincontroller3.domain.com | 3.3.3.4 | domaincontroller3.domain.com | | / प्रमाणीकरण / सत्यापित करें | / सफलता |? | 4624 | 3 | 12345 |
+ ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - +

कुल मिलाकर, मेरे पास लगभग 150 मिलियन इवेंट हैं। अलग-अलग घटनाओं में अलग-अलग फ़ील्ड्स भरे होते हैं, और सभी इवेंट उपयोगकर्ता लॉगऑन / लॉगऑफ़ से संबंधित नहीं होते हैं।


"हालांकि, महालनोबिस दूरी केवल सामान्य रूप से वितरित सुविधाओं के लिए लागू की जा सकती है।" दरअसल, अण्डाकार आकार। क्या आप अपने डेटा सेट की पहली कुछ पंक्तियाँ (या कुछ नकली संख्याएँ, लेकिन वास्तविक चीज़ों की तरह ही सुविधाएँ) पोस्ट कर सकते हैं?
user603

मेरा मानना ​​है कि अण्डाकार आकार का मतलब दो सामान्य रूप से वितरित विशेषताओं का उत्पाद है, विभिन्न माध्य और मानक विचलन के साथ, लेकिन फिर भी सामान्य रूप से वितरित किया जाता है।
एंड्री सेपगिन

नहीं, अण्डाकार रूप से आकार का मतलब 2 डी में फुटबॉल की छाया की तरह है, 3 डी में फुटबॉल और सामान्य रूप से डायमेंशनल स्पेस में डी-डायमेंशन फुटबॉल है।
user603

जिज्ञासा से बाहर। क्या आप कुछ डेटा / जो डेटासेट आपके साथ काम कर रहे हैं, उन्हें साझा कर सकते हैं? क्या यह एक सार्वजनिक / अकादमिक शोध है?
सबलबा

दुर्भाग्य से, यह एक सार्वजनिक डेटासेट नहीं है और मैं इसे साझा नहीं कर पा रहा हूं। हालांकि, हनीनेट ( old.honeynet.org/scans/scan34 ) से एक प्रसिद्ध KDDCup 1999 डेटासेट, या Scan34 डेटासेट होना चाहिए । दोनों डेटासेट में विश्लेषण के लिए लॉग (नेटवर्क ट्रैफ़िक नहीं) (Apache, Snort, syslog, आदि) हैं। मेरे पास मौजूद डेटासेट में, अधिकांश लॉग सक्रिय निर्देशिका लॉग हैं। मुझे यकीन नहीं है कि विश्लेषण के लिए कोई सार्वजनिक विज्ञापन / विंडोज ईवेंट उपलब्ध हैं (पहले मैं असली के अनुपस्थित होने के कारण स्व-जेनरेट किए गए डेटासेट का उपयोग करता था)। इसके अलावा, मेरे पास मौजूद डेटासेट बहुत बड़ा है (150 Mio रिकॉर्ड)।
एंड्री सपेगिन

जवाबों:


2

मैं निश्चित रूप से विसंगति का पता लगाने का विशेषज्ञ नहीं हूं । हालाँकि, यह एक दिलचस्प क्षेत्र है और यहाँ मेरे दो सेंट हैं। सबसे पहले, अपने ध्यान में रखते हुए कि "महालनोबिस दूरी केवल सामान्य रूप से वितरित सुविधाओं पर लागू की जा सकती है"। मैं कुछ शोधों में भाग गया, जो तर्क देते हैं कि गैर-सामान्य डेटा के मामलों में उस मीट्रिक का उपयोग करना अभी भी संभव है । इस पेपर और इस तकनीकी रिपोर्ट पर अपने लिए एक नज़र डालें ।

मुझे यह भी आशा है कि आप आईटी नेटवर्क सुरक्षा के संदर्भ में अनुपलब्ध विसंगति का पता लगाने (एडी) पर निम्नलिखित संसाधनों का उपयोग कर सकते हैं, विभिन्न दृष्टिकोणों और विधियों का उपयोग करते हुए: यह कागज , अनसुना एडी के लिए एक ज्यामितीय रूपरेखा प्रस्तुत करता है ; यह पेपर , जो घनत्व-आधारित और ग्रिड-आधारित क्लस्टरिंग दृष्टिकोण का उपयोग करता है ; यह प्रस्तुति स्लाइड्स में है , जिसमें AD के लिए स्व-व्यवस्थित मानचित्रों का उपयोग करने का उल्लेख है ।

अंत में, मेरा सुझाव है कि आप मेरे निम्नलिखित उत्तरों पर एक नज़र डालें, जो मुझे लगता है कि विषय के लिए प्रासंगिक हैं और इस प्रकार, सहायक हो सकते हैं: क्लस्टरिंग दृष्टिकोण पर उत्तर, गैर-दूरी आधारित क्लस्टरिंग पर उत्तर और सॉफ़्टवेयर विकल्पों के लिए उत्तर


1
लिंक के लिए धन्यवाद, वे बहुत उपयोगी हैं। (1) आपके द्वारा उल्लिखित पहला पेपर बहुत दिलचस्प है। ऐसा लगता है कि बाद में महालनोबिस दूरी को लागू करने के लिए वितरण को सामान्य में बदलना संभव है। मैं इसमें उतरने की कोशिश करूंगा। (२) क्या आप जानते हैं कि कुछ अन्य दृष्टिकोण हैं, उदाहरण के लिए चचेरे भाई की दूरी जैसे कुछ समानता के उपाय, जो दूरी पर काम नहीं करते हैं? (3) आपके द्वारा उल्लिखित प्रस्तुति स्लाइड, नेटवर्क ट्रैफ़िक पैकेट पर केंद्रित है, न कि लॉग पर।
एंड्री सेपगिन

1
अन्य दृष्टिकोणों के संबंध में, मैंने 2 के बारे में सोचा: (1) एक वर्ग एसवीएम सुविधाओं के बीच संबंध का पता लगा सकता है, अगर उच्च-बहुपद मॉडल का उपयोग किया जाता है; (2) लॉग लाइनों को वाक्य के रूप में धमकी दें, और उन्हें समूह / क्लस्टर में चचेरी समानता का उपयोग करें। पहला जिसे मैंने पहले से ही लागू करने की कोशिश की थी, लेकिन यह 1 सीपीयू पर एक सप्ताह से अधिक पहले से चलता है (मैं पहली बार किसी मॉडल को डेटा के पहले भाग पर प्रशिक्षित करता हूं, और दूसरे पर लागू होता है। फिर इसके विपरीत)। दूसरा दृष्टिकोण एक उच्च-आयामी स्थान का उदाहरण देता है (उदाहरण के लिए, उपयोगकर्ता नाम का हर अलग मूल्य एक विशेषता होगा)।
एंड्री सपेगिन

1
@AndreySapegin: यदि आपके वर्तमान प्रयासों के परिणाम पर्याप्त अच्छे नहीं होंगे, तो आप कुछ अन्य तरीकों की कोशिश कर सकते हैं, जिन पत्रों का मैंने उल्लेख किया है। यही विचार था। एक और बात - ग्राफलैब ओपन सोर्स एमएल सॉफ्टवेयर आज़माएं (इसमें से कुछ को अब डेटा के रूप में ब्रांड किया गया है): dato.com/products/create/open_source.html । ग्राफलैब सॉफ्टवेयर केवल प्रोसेसर कोर, बल्कि प्रोसेसर और यहां तक ​​कि मशीनों में उच्च-प्रदर्शन और बहुत ही स्केलेबल है।
अलेक्जेंडर ब्लेक

1
@AndreySapegin: मेरे विश्वविद्यालय के सहयोगी का एक पेपर मेरे रिसर्चगेट स्ट्रीम में बस पॉप अप हुआ। मुझे लगता है कि यह आपके लिए बहुत मददगार हो सकता है (कूल एनकॉग एमएल लाइब्रेरी के माध्यम से घुसपैठ का पता लगाने के लिए एएनएन दृष्टिकोण का उपयोग करता है, जिनमें से वह निर्माता और मुख्य योगदानकर्ता है - एनकोग मल्टीकोर और जीपीयू के माध्यम से भी स्केलेबल है)। यहाँ कागज है: researchgate.net/profile/Jeff_Heaton/publication/… । यहाँ Encog पर जानकारी है: heatonresearch.com/encog
अलेक्जेंडर ब्लेक

1
जिस किसी ने भी मेरे उत्तर को पुरस्कृत किया है: मैं आपकी उदारता के साथ-साथ गुणवत्ता के उत्तरों के प्रति अपने प्रयासों को पहचानने की सराहना करता हूं।
अलेक्जेंडर ब्लेक

3

सबसे पहले, मुझे लगता है कि कुछ चीजें हैं जिन्हें आपको खुद को इस्तीफा देना पड़ सकता है।

एक कठिन बाधा जो मुझे इस समस्या पर दिखाई देती है, वह यह है कि आपको संभवतः एक उच्च झूठी सकारात्मक दर के लिए तैयार रहना चाहिए। जहाँ तक मुझे पता है, नेटवर्क विसंगति का हिस्सा होने वाले रिकॉर्ड की आधार दर काफी कम है (उद्धरण की आवश्यकता है)। आइए इसे तर्क के लिए 1000: 1 अंतर कहते हैं। फिर भी यदि आप एक पैटर्न का निरीक्षण करते हैं जो कि रिकॉर्ड घुसपैठ का 100 गुना अधिक होता है, तो यदि यह वैध है, तो बेयस नियम कहता है कि पीछे के हिस्से 10: 1 हैं, जो कि यातायात अभी भी वैध है।

दूसरी समस्या यह है कि कुछ घुसपैठ सिद्धांत में भी पता लगाने के लिए कठिन हैं । उदाहरण के लिए, यदि किसी ने सामाजिक रूप से मुझे अपना कंप्यूटर देने के लिए इंजीनियर बनाया, और फिर उन्होंने इस सेवा में प्रवेश किया और एक शीर्ष-गुप्त फ़ाइल डाउनलोड की, जिस पर मैं काम कर रहा था, तो इसे खोजना काफी कठिन होगा। मूल रूप से, एक पर्याप्त रूप से निर्धारित हमलावर सिस्टम के सामान्य व्यवहार के करीब अपने मनमाने ढंग से व्यवहार कर सकता है।

इसके अलावा, आपके विरोधी बुद्धिमान हैं, न कि सांख्यिकीय प्रक्रियाएँ, इसलिए यदि आप किसी पैटर्न का पता लगाना शुरू कर रहे हैं और उसे बंद कर रहे हैं, तो वे बस उस पैटर्न का पालन नहीं करके जवाब दे सकते हैं। इसीलिए, उदाहरण के लिए, आपको सभी पत्रों के बीच रिक्त स्थान के साथ बहुत सारे स्पैम संदेश दिखाई देंगे (आपको " V I A G R A" या जो भी मिल रहा है)। स्पैम फिल्टर ने पता लगाया कि स्ट्रिंग "वियाग्रा" अनचाहा था, इसलिए हमलावरों ने कुछ और करना शुरू कर दिया।

इस वजह से, मुझे लगता है कि यह सोचने में काफी कठिन है कि आप किस प्रकार के अविश्वासों के बारे में सोचते हैं कि यह पता लगाने में सक्षम होने के प्रयास के लायक है। यहाँ निश्चित रूप से कम लटकने वाले फल हैं, इसलिए सही को अच्छे का दुश्मन न बनने दें और एक एल्गोरिथ्म के साथ आने की कोशिश करें जो सभी घुसपैठ का पता लगा सकता है।


एक तरफ, चलो कम लटका हुआ फल के बारे में बात करते हैं। यहां, मुझे लगता है कि यह आपके लिए व्यक्तिगत रिकॉर्ड से विश्लेषण की अपनी इकाई को रिकॉर्ड के समूह में स्थानांतरित करने के लिए उत्पादक हो सकता है ।

उदाहरण के लिए, आपने कहा था कि सभी रिकॉर्डों में से आधे में खेतों का अनूठा संयोजन है। उदाहरण के लिए, संभवतः, अधिकांश स्रोत आईपी एक से अधिक रिकॉर्ड में दिखाई देते हैं - यह अनुरोध में अन्य फ़ील्ड हैं जो संयोजन को बदल रहे हैं और संयोजन को अद्वितीय बना रहे हैं। यदि आप IP द्वारा अनुरोधों को समूहित करते हैं, तो आप इस तरह के प्रश्न पूछ सकते हैं:

  • क्या कुछ आईपी असामान्य रूप से कई उपयोगकर्ताओं (या असामान्य रूप से कुछ) के रूप में प्रमाणित करते हैं?
  • क्या कुछ IP में असामान्य रूप से बड़ी संख्या में प्रमाणीकरण विफलताएं हैं?
  • क्या कुछ आईपी में एक्सेस टाइमिंग का एक असामान्य पैटर्न है (उदाहरण के लिए, उनके समय क्षेत्र में 3 बजे के आसपास बहुत सारी गतिविधि, या दिन भर में हर 1 सेकंड का अनुरोध)?

आप अन्य समूहों के लिए समान कार्य कर सकते हैं, जैसे उपयोगकर्ता नाम:

  • क्या यह उपयोगकर्ता किसी अन्य कंप्यूटर से प्रमाणित कर रहा है जब उन्होंने पहले सभी अनुरोधों के लिए एक ही कंप्यूटर का उपयोग किया था?
  • क्या यह उपयोगकर्ता अचानक फाइल सिस्टम के एक हिस्से को छू रहा है जिसे उन्होंने पहले कभी नहीं छुआ है?

मुझे ऐसे किसी भी ऑफ-द-शेल्फ क्लासीफायर का पता नहीं है, जो विशेष रूप से इसके लिए अनुकूल हैं, क्योंकि आपके उपयोगकर्ताओं का संभावित व्यवहार इतना विविध है, और आप शायद समय के साथ व्यवहार में बदलाव के लिए रुचि रखते हैं । इसका मतलब है कि आप शायद किसी भी प्रकार के मॉडल का निर्माण करना चाहते हैं जो प्रत्येक उपयोगकर्ता / आईपी / जो भी भविष्य में करने की संभावना है, और इस मॉडल से किसी भी विचलन को चिह्नित करें। लेकिन यह काफी गहन प्रक्रिया है यदि आपके उपयोगकर्ताओं के अलग-अलग व्यवहार पैटर्न हैं!

इस कठिनाई के कारण, मुझे लगता है कि अब मैं ऊपर उल्लिखित खोज-विधा विश्लेषण की तरह करने के लिए अधिक उत्पादक हो सकता हूं। इस बारे में आपको सूचित करना संभव है कि किस प्रकार के पैटर्न सबसे दिलचस्प हैं, और फिर आप उन पैटर्न का पता लगाने के लिए फैंसी सांख्यिकीय एल्गोरिदम का उपयोग करना शुरू कर सकते हैं।


2
आपके उत्तर के लिए धन्यवाद, यह एक अच्छा बिंदु है। जैसा कि मैंने समझा था कि आप विसंगति का पता लगाने की तुलना में अधिक सरल विश्लेषण पर ध्यान देने की पेशकश करते हैं। तकनीकी (उद्योग) के दृष्टिकोण से, आप सही हैं। हालांकि, मैं एक शोध कर रहा हूं और मशीन लर्निंग विश्लेषण पर ध्यान केंद्रित करना चाहता हूं। आपके द्वारा पेश किए गए क्वेरी-आधारित विश्लेषण जैसे कि हमने पहले ही प्रदर्शन किया है (शायद आपके द्वारा प्रस्तुत प्रश्नों के बिल्कुल समान नहीं है, लेकिन समान है) ... ऐसा करने का एक और तर्क यह है कि वर्तमान में कई उद्यम 'सामान्य' के अलावा विसंगति का पता लगाने की कोशिश करते हैं ( अधिक सरल, लेकिन अभी भी) प्रश्नों और नियमों को
संकलित करता है

2

मुझे लगता है कि पहली बार में आपको एक डेटासेट की आवश्यकता होती है जो बिना किसी हमले के एक अवधि के लिए डेटा रिकॉर्ड करता है। इस डेटासेट में उन बदलावों को पकड़ना चाहिए जो सामान्य रूप से व्यवहार करने वाले सिस्टम में निहित हैं। मैं इस बात पर जोर देना चाहूंगा कि यह एक एनोटेट डाटासेट होने के बारे में नहीं है।

इसके बाद, मैं सभी मैट्रिक्स (या सबसेट) को एक में मिलाने की कोशिश करूंगा। इस नए मीट्रिक को "आश्चर्य" की मात्रा को प्रतिबिंबित करना चाहिए। उदाहरण के लिए, कम मूल्य का मतलब सिस्टम सामान्य रूप से चलता है, उच्च मूल्य शिखर / पठार का मतलब है कि कुछ तेजी से बदलाव है। यहाँ मैं CUSUM या Shewhart चार्ट स्टाइल चार्ट के बारे में सोच रहा हूँ।

क्या आप उपलब्ध डेटा के कुछ उदाहरण प्रदान कर सकते हैं? क्या यह मुख्य रूप से तार, संख्या, 1/0 संकेतक है?


1

एक संभावना यह है कि बिना किसी हमले के साथ कुछ पृष्ठभूमि डेटा दिए गए सुविधाओं के बीच एक बायेसियन नेटवर्क को सीखना है। एक बायेसियन नेटवर्क सीखना उपयोगी है क्योंकि यह सुविधाओं के बीच सशर्त स्वतंत्रता लाता है। इसलिए, आप सुविधाओं के प्रत्येक और हर संभव संयोजन के साथ काम नहीं कर रहे हैं। उदाहरण के लिए, यदि फीचर A, B और C को प्रभावित करता है और B और C मिलकर D को प्रभावित करते हैं, तो आप केवल एक मॉडल को सीखते हैं कि A, B को कैसे प्रभावित करता है, C को कैसे प्रभावित करता है और B और C संयुक्त रूप से D. को कैसे प्रभावित करते हैं। संपूर्ण संभाव्यता वितरण की तुलना में पैरामीटर और प्राथमिक कारण है कि पूरे संयुक्त संभाव्यता वितरण को केवल संग्रहीत करने के बजाय बायेसियन नेटवर्क का उपयोग किया जाता है। बायेसियन नेटवर्क दिए गए विसंगति का परीक्षण करने के लिए, सीखे गए बायेसियन नेटवर्क मॉडल का उपयोग करके आने वाले डेटापॉइंट की संभावना की गणना करें। यदि संभावना बहुत कम है,


समस्या यह है कि हमलों के बिना डेटा नमूना प्राप्त करना बेहद जटिल है। अक्सर कोई नहीं जानता कि डेटासेट में कुछ हमले हैं या नहीं।
एंड्री सपेगिन

0

मुझे लगा कि बेन कुह्न की प्रतिक्रिया व्यावहारिक और व्यावहारिक थी।

अब मेरी अपनी पृष्ठभूमि में पाठ वर्गीकरण, विशेषज्ञ प्रणाली, क्लस्टरिंग और सुरक्षा शामिल हैं। इस पृष्ठभूमि को देखते हुए, मैं यह सोचना चाहूंगा कि मेरे पास वार्तालाप में जोड़ने के लिए कुछ हो सकता है। लेकिन बेन कुह्न के पिछले बयानों पर प्रकाश डाला गया है कि सीधे दृष्टिकोण कई गलत सकारात्मकता पैदा कर सकते हैं। आईटी स्टाफ, जब कई झूठी सकारात्मकता का सामना करना पड़ता है, तो आमतौर पर "ट्यून आउट" होता है, क्योंकि उनके पास हर समय झूठे सकारात्मक का पीछा करने का समय नहीं होता है।

इसलिए क्या करना है?

निश्चित रूप से उन में हमलों के साथ लॉग मददगार हो सकता है लेकिन तब हमारे पास एक कैच -22 है जब तक कि कंपनियां किसी तरह हमले के डेटा को साझा नहीं करती हैं। जबकि कुछ सिलिकॉन वैली स्टार्ट-अप्स इस तरह के खतरे को साझा कर रहे हैं, हम और क्या कर सकते हैं?

एक संभव तरीका नेटवर्क का अनुकरण बनाना है और फिर सिमुलेशन के खिलाफ हमलों को उत्पन्न करने का तरीका खोजना है। यही है, मान लीजिए कि हम एक सिमुलेशन बनाते हैं जहां काली टोपी (भी नकली) को सफेद टोपी से पहले नहीं जाना जाता है। इन हमलों को देखते हुए, हम तब एल्गोरिदम बनाने का प्रयास कर सकते हैं, जिन्हें इन हमलों की खोज करनी चाहिए। यदि काली टोपी सफेद टोपी से स्वतंत्र रूप से संचालित होती हैं, तो हमारे पास एक वास्तविक लड़ाई है जो बाहर खेलेंगे। यदि हमलावर सिस्टम में टूट जाते हैं, या अनिर्धारित होते हैं, तो सफेद टोपी कुछ हद तक विफल रही है।

यहां तक ​​कि एक प्रोत्साहन संरचना भी हो सकती है, जब ब्लैक हैट टीम के सुरक्षा विश्लेषकों को उनकी सफलताओं (रिश्वत या अनदेखे हमलों) के लिए पुरस्कृत किया जाता है। इसी तरह, सफेद टोपी वाले समूह को ब्रीच और / या हमलों का पता लगाने के लिए पुरस्कृत किया जाता है।

इस व्यवस्था के बारे में कुछ भी सही नहीं है। स्पष्ट रूप से वास्तविक काली टोपी "दोस्ताना" ब्लैक हैट टीम की प्रतिभाओं से अधिक हो सकती है। फिर भी, एक व्यक्ति के रूप में जिसके पास डेटा विश्लेषण की एक उचित मात्रा है, यह मुझे लगता है कि काली टोपी की बेहतर समझ के बिना सफेद टोपी की सफलता को निर्धारित करना बहुत कठिन है। निचला रेखा यह है। यदि हम यह नहीं जान सकते कि असली काली टोपी क्या कर रही है, तो अगली सबसे अच्छी बात दोस्ताना ब्लैक हैट्स हैं।

मेरे पास भी एक असामान्य विचार है। मान लीजिए कि मैत्रीपूर्ण काली टोपी और सफेद टोपी के अलावा, एक ग्रे टोपी टीम है। ग्रे टोपी होने का क्या मतलब है? विचार सरल है। ग्रे टोपी को देखने की अनुमति है कि अनुकूल काली टोपी और सफेद टोपी क्या कर रहे हैं। लेकिन क्यों?

मान लीजिए कि अनुकूल ब्लैक हैट ए, बी और सी के दृष्टिकोण का उपयोग करके हमले शुरू करते हैं, और सफेद टोपी इन तीनों में से किसी भी दृष्टिकोण की खोज नहीं करते हैं। खैर, ग्रे टोपियों को यह देखने के लिए सशक्त किया जाता है कि दोनों मित्रवत काली टोपी क्या कर रही हैं और साथ ही सफेद टोपी क्या कर रही हैं, और वे इस पर विचार करने की कोशिश करते हैं कि इन अवांछित हमलों की खोज के लिए किन सिद्धांतों का उपयोग किया जा सकता है। यदि ग्रे टोपी में ऐसे सिद्धांत पाए जाते हैं, तो ग्रे टोपी टीम इन सिद्धांतों को विस्तार से सटीक हमलों का वर्णन किए बिना सफेद टोपी टीम के साथ साझा कर सकती है।

उम्मीद है कि ग्रे टोपी टीम द्वारा प्रदान किए गए ये "संकेत" सफेद टोपी टीम को बहुत अधिक प्रकट किए बिना सही दिशा में एक धक्का देते हैं।

पूर्वव्यापी में, मैं माफी माँगता हूँ अगर मेरी प्रतिक्रिया वास्तव में विशिष्ट तकनीकों के बारे में नहीं है। जाहिर है कि मेरी प्रतिक्रिया विशिष्ट तकनीकों के बारे में नहीं है । लेकिन मेरे अनुभव में, मशीन सीखने में बहुत सारी समस्याएं - जिनमें सुरक्षा शामिल है - अक्सर असफल हो जाती है क्योंकि डेटा अपर्याप्त है। यह दृष्टिकोण, सफेद टोपी, ग्रे टोपी और काली टोपी का उपयोग करके, डेटा का उत्पादन करने में मदद कर सकता है जो एक सुरक्षा कंपनी (या आईटी स्टाफ) को उनके बचाव की प्रभावशीलता को न केवल निर्धारित करने की अनुमति देगा, बल्कि एक संगठनात्मक संरचना प्रदान करेगा जो सफेद टोपी टीमों को धक्का दे। उत्तरोत्तर उनकी सुरक्षा और उनकी निगरानी में सुधार हुआ।

अगर मैं सुझाव दे रहा हूं तो मैं मूल नहीं हूं, मुझे वास्तव में कोई पता नहीं है। मैंने कभी भी ग्रे टोपियों के बारे में नहीं सुना है, लेकिन मुझे वास्तव में लगता है कि बहुत अधिक खुलासा किए बिना, सफेद टीम को आगे बढ़ाने के लिए ग्रे टोपी की भूमिका महत्वपूर्ण हो सकती है।


नोट: यहाँ "ग्रे हैट" शब्द का उपयोग मानक नहीं है। Http://www.howtogeek.com/157460/hacker-hat-colors-explained-black-hats-white-hats-and-gray-hats/ देखें । तो कुछ अन्य शब्द, शायद "धारीदार टोपी" के बजाय इस्तेमाल किया जाना चाहिए।

लेकिन अभी भी यह विचार समान है: एक धारीदार टोपी दोस्ताना काली टोपी और रक्षकों (सफेद टोपी) के काम के बीच मध्यस्थता में मदद कर सकती है, ताकि कुछ विचारों और संकेतों को सफेद टोपी के साथ विवेकपूर्ण रूप से साझा किया जा सके।


1
ऐसा लगता है कि आपने गलती से दूसरा खाता बना लिया होगा - उन्हें मर्ज करने के तरीके के लिए यहां देखें । यह आपको अपने स्वयं के पोस्ट संपादित करने देगा।
सिल्वरफिश

0

चूंकि मैंने मूल प्रश्न पोस्ट किया है, इसलिए मैंने इस विषय पर बहुत शोध किया है और अब मैं उत्तर के रूप में अपने परिणाम प्रदान कर सकता हूं।

सबसे पहले, हमारी प्रयोगशाला में, हम एक ऐसी सीमेंस प्रणाली विकसित करते हैं जो विसंगति का पता लगाने वाले एल्गोरिदम का उपयोग करती है। सिस्टम और एल्गोरिदम का विवरण मेरे पेपर में उपलब्ध है , बड़े पैमाने पर नेटवर्क में सुरक्षा घटनाओं के जटिल विश्लेषण के लिए एक प्रणाली की ओर

इसके अलावा मैंने क्रॉस वैलिडेट पर एक समान प्रश्न के उत्तर में इस तरह के डेटा से निपटने के तरीके पर एक संक्षिप्त सारांश लिखा था

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.