डेटा मास्किंग के लिए कौन से उपकरण हैं? (MySQL, Linux) [बंद]


14

मैं (आदर्श रूप से मुक्त, ओपन-सोर्स) डेटा मास्किंग टूल ढूंढ रहा हूं। क्या ऐसा कोई मौजूद है?

नोट: यह संबंधित प्रश्न परीक्षण डेटा उत्पन्न करने के लिए उपकरणों से संबंधित है, लेकिन इस प्रश्न में मैं वास्तविक डेटा के साथ शुरू करने में अधिक दिलचस्पी रखता हूं, और परीक्षण में उपयोग के लिए इसे किसी भी विशेष रिश्तों को खोए बिना परीक्षण के लिए मास्किंग करता हूं जो इसे परीक्षण के उद्देश्यों के लिए दिलचस्प बनाता है। उत्पन्न डेटा कुछ परीक्षण उद्देश्यों के लिए ठीक है, लेकिन वास्तविक दुनिया डेटा उन मुद्दों को सामने लाएगा जिनके बारे में आपने कभी नहीं सोचा था। परीक्षण डेटा के बड़े डेटासेट उत्पन्न करने के लिए उपकरण

जवाबों:


9

मुझे बहुत आश्चर्य होगा अगर इसके लिए कोई जेनेरिक टूल था - यह कैसे पता चलेगा कि "संवेदनशील डेटा क्या है और क्या नहीं था?" उदाहरण के लिए यह आपके सभी डेटा की जांच करने और क्रेडिट कार्ड नंबर, फोन नंबर, पिनकोड, ईमेल पते और जो भी अन्य डेटा संवेदनशील माना जाता है, के सभी संभावित स्वरूपों को पहचानने की आवश्यकता होगी। अपने स्कीमा के बारे में स्मार्ट होना भी आवश्यक है - जैसे कि इसे "no@company.com" पर सभी ग्राहक ईमेल पते को फिर से लिखना चाहिए - या आपके डेटाबेस, एप्लिकेशन के किसी भी हिस्से को करता है, अन्य उपकरण मानते हैं कि ग्राहक का ईमेल पता (या एसएसएन) या जो भी) अद्वितीय है? या क्या आपके पास आवेदन का कुछ हिस्सा है जो क्रेडिट कार्ड नंबर की जांच करता है, अगर आप उन सभी को 0000 0000 0000 0000 पर रीसेट करते हैं, तो वे टूट जाएंगे? या क्या आपकी टेलीफोनी प्रणाली यह मानती है कि ग्राहक '

असल में, यह करने के लिए किसी भी उपकरण को कॉन्फ़िगर करना आवेदन के अपने ज्ञान का उपयोग करके, केवल अपनी स्क्रिप्ट लिखने की तुलना में अधिक या अधिक काम होगा। मेरी साइट पर, हमने बस यह नीति बनाई थी कि जो कोई भी इस तरह के डेटा के साथ एक कॉलम जोड़ता है, वह स्क्रिप्ट को अपडेट करने के लिए इसे उसी समय अनइंस्टॉल कर सकता है, प्रारंभिक ऑडिट के बाद उन सभी कॉलमों को खोजने और संस्करण 1 लिखने के लिए।


1
मुझे पता है कि वाणिज्यिक उपकरण हैं, क्योंकि पिछले कार्यस्थल में हमारे ओरेकल डीबी के लिए एक (विफल) पहल का उपयोग करना था। (मैं उस परियोजना में शामिल नहीं था, इसलिए मुझे असफलता के कारणों का पता नहीं है। मुझे संदेह है कि एक विरासत के लिए डेटा मास्किंग टूल सेट करना एक बहुत ही कठिन काम होने वाला है, जैसा कि आप सुझाव देते हैं)।
टेस्टेरैब

3
ओह मुझे उम्मीद है कि कोई व्यक्ति आपको ऐसा कुछ बेच देगा जो यह होने का दावा करता है, लेकिन जैसा कि मैं कहता हूं, इसे कॉन्फ़िगर करना SQL में अपना खुद का लिखने की तुलना में अधिक काम होगा क्योंकि आपको पहले उनके hokey DSL को सीखना होगा!
गयुस

5

यदि आपका डेटाबेस छोटा है, एक साधारण डेटा मॉडल है और वर्तमान DBA द्वारा अच्छी तरह से समझा जाता है - स्क्रिप्टिंग "उत्तर" हो सकता है। हालाँकि, विशिष्ट डेटाबेस को मैन्युअल रूप से विश्लेषण और मास्क करने का प्रयास (और लागत) बहुत जल्दी हाथ से निकल सकता है क्योंकि आवश्यकताएं बदल जाती हैं, कार्यक्षमता जोड़ी जाती है और डेवलपर्स / डीबीए के आते हैं और जाते हैं।

जबकि मुझे किसी भी ओपन सोर्स डेटा मास्किंग उत्पादों के बारे में पता नहीं है, वहाँ व्यावसायिक रूप से उपलब्ध प्रसाद हैं जो उचित रूप से व्यापक हैं, अपेक्षाकृत उपयोग करने में आसान हैं और आश्चर्यजनक रूप से उचित लागत-बुद्धिमान हो सकते हैं। उनमें से कई में संवेदनशील डेटा (एसएसएन, क्रेडिट कार्ड, फोन नंबर) की पहचान करने और वर्गीकृत करने के साथ-साथ चेकसम, ईमेल एड्रेस फ़ॉर्मेटिंग, डेटा ग्रुपिंग, आदि को बनाए रखने के लिए कार्यक्षमता शामिल है ताकि नकाबपोश डेटा। दिखता है और वास्तविक लगता है।

लेकिन आपको इसके लिए मेरा (भर्ती पक्षपाती) शब्द नहीं लेना है। गार्टनर या फॉरेस्टर जैसे उद्योग विश्लेषकों से पूछें, जिनके पास मास्किंग पर उपलब्ध निष्पक्ष रिपोर्ट की संख्या है जो मदद कर सकती है।

उम्मीद है कि ये टिप्पणियां आपको वाणिज्यिक उत्पादों के साथ-साथ आंतरिक स्क्रिप्ट विकास की खोज करने पर विचार करने के लिए प्रोत्साहित करेंगी। दिन के अंत में, सबसे महत्वपूर्ण बात यह है कि संवेदनशील डेटा की रक्षा के लिए, जो हम में से कई दिन-प्रतिदिन देखते हैं और हमें अपने काम करने के लिए हमें देखने की ज़रूरत नहीं है - हमें और उन लोगों को जिनकी व्यक्तिगत है डेटा हम जोखिम में रखते हैं।

केविन हिलियर, वरिष्ठ एकीकरण विशेषज्ञ, छलावरण सॉफ्टवेयर इंक।


1
मुझे लगता है कि आप अपने स्वयं के उत्पाद को बेचने के रूप में नहीं आना चाहते हैं, लेकिन यह उपयोगी होगा यदि आप कुछ वाणिज्यिक उत्पादों का नाम दे सकते हैं, या कुछ विशिष्ट सलाह की ओर इशारा कर सकते हैं?
वृषब

1
मैं समझता हूं कि आप इस कंपनी के लिए काम करते हैं, और यह कि आप अपने स्वयं के उत्पाद की सिफारिश करना चाहते हैं, और मैं इसके खिलाफ नहीं हूं, लेकिन सिग के कारण यह एक हंसली इनलाइन विज्ञापन की तरह दिखता है, बजाय "मुझे पता है कि मैं किस बारे में बात कर रहा हूं। , क्योंकि यह मैं क्या कर रहा हूँ "... मैं" blah blah blah (पूर्ण प्रकटीकरण: मैं इस उत्पाद पर काम करता हूं) का उपयोग करने के लिए राजी हूं क्योंकि blah blah blah "और अंत में अपना नाम मत डालें। यदि हम आपका व्यक्तिगत विवरण चाहते हैं, तो हम आपके प्रोफाईल पर क्लिक कर सकते हैं और उस सिग को पढ़ सकते हैं और वहां लिंक पर क्लिक कर सकते हैं।
jcolebrand

5

इस तरह की वस्तु को कभी नहीं देखा गया, लेकिन मेरे समय में कुछ संवेदनशील डेटा सेट के साथ काम करने के बाद, मुख्य बात यह है कि लोगों को पहचानने की जरूरत है या व्यक्तिगत रूप से पहचान की जानकारी। यह केवल डेटाबेस में कुछ स्थानों पर एक उपस्थिति बनाना चाहिए

आपके मास्किंग ऑपरेशन को डेटा के सांख्यिकीय गुणों और संबंधों को बनाए रखना चाहिए, और संभवतः वास्तविक संदर्भ कोड (या कम से कम कुछ प्रकार के नियंत्रित अनुवाद तंत्र) को बनाए रखने की आवश्यकता है ताकि आप इसे वास्तविक डेटा से सामंजस्य कर सकें।

इस प्रकार की चीज़ों को खेतों में नामों की एक अलग सूची प्राप्त करके और फर्स्टनामेक्सएक्सएक्सएक्सएक्सएक्स (जहां XXXX एक अनुक्रम संख्या है, प्रत्येक अलग मूल्य के लिए एक) के साथ प्रतिस्थापित किया जा सकता है। क्रेडिट कार्ड नंबर और इसी तरह की जानकारी जिनका उपयोग पहचान की चोरी के लिए किया जा सकता है, के विकास के माहौल में नहीं के बराबर होने की संभावना है, लेकिन आपको केवल वास्तविक लोगों की आवश्यकता है यदि आप भुगतान प्रसंस्करण प्रणालियों का परीक्षण कर रहे हैं - आमतौर पर विक्रेता आपको विशेष कोड देंगे डमी खातों के लिए।

इस तरह की गुमनाम प्रक्रियाओं को लिखना विशेष रूप से मुश्किल नहीं है, लेकिन आपको व्यवसाय के साथ नामांकित होने के लिए वास्तव में सहमत होने की आवश्यकता होगी। यदि आवश्यक हो, तो डेटाबेस फ़ील्ड के माध्यम से फ़ील्ड पर जाएं। हां / नहीं पूछने पर आपको झूठी सकारात्मकता मिलेगी जो आप नहीं चाहते हैं। व्यापार प्रतिनिधि को यह बताने के लिए कहें कि किसी विशेष डेटा को नहीं बताने के परिणाम या नियामक निहितार्थ क्यों।


3

कुछ हफ्ते पहले मेरा भी यही काम था। हमने कुछ सॉफ्टवेयर सिस्टम का मूल्यांकन किया, लेकिन उनमें से ज्यादातर केवल एक प्रकार के डेटा बेस, उदाहरण के लिए ओरेकल हैं और वे अक्सर उपयोग करने के लिए बहुत जटिल होते हैं ... इसलिए यह मूल्यांकन करने के लिए सबसे अच्छी बात नहीं है। हमें हफ्तों लग गए।

हमने डेटा मास्किंग सूट पेशेवर संस्करण खरीदने का फैसला किया क्योंकि यह सबसे आसान था। यह भी डेटा मास्क करने के लिए शांत संभावनाएं हैं, उदाहरण के लिए, आप ईमेल पते को वास्तविक दिखने वाले लोगों में बदल सकते हैं उदा ... @ siemens.com to mike.miller@seimsen.com।

जहाँ तक मुझे याद है आप लगभग 500 (?) रिकॉर्ड के लिए इसे मुफ्त में आज़मा सकते हैं।

यहाँ लिंक है http://www.data-masking-tool.com/


1
बस एक डेटा बिंदु: इस लेखन के रूप में, डेटा मास्किंग उपकरण केवल $ 1,000 का शर्मीलापन चलाता है।
माइकल टेपर

2

ऐसा करने का मेरा तरीका:

  1. केवल दृश्य के साथ एक नया डेटाबेस बनाएं और उपयोगकर्ताओं के लिए अधिकारों का चयन करें
  2. अन्य डेटाबेस में देखने योग्य होने वाली तालिकाओं के लिए दृश्य बनाएं
  3. मास्क कॉलम जिन्हें मास्किंग की आवश्यकता होती है: रिपीट ('*', char_length ( column to be masked))

2

मैंने पहली बार इस पथ को कई साल पहले बताया था और तब से इस अभ्यास के आसपास एक कंसल्टेंसी का निर्माण किया है।

मैं मान रहा हूं कि इसका उद्देश्य परीक्षण वातावरण में उपयोग के लिए परीक्षण डेटा का निर्माण करना है जहां डेटा को एक्सेस करने वाले उन व्यक्तियों के पास उत्पादन जानकारी देखने के अधिकार नहीं हैं।

स्थापित करने के लिए पहली बात यह है कि डेटा तत्वों की आपको वास्तव में क्या जरूरत है और यह करने के लिए कि स्कीमा स्पाइवेयर (ओपन सोर्स) जैसे डेटा डिस्कवरी टूल के साथ शुरुआत करना सबसे अच्छा है और आपको इस कार्य के लिए संबंधित jdbc ड्राइवर की आवश्यकता होगी लेकिन यह प्रक्रिया में एक बहुत ही उपयोगी कदम है।

टैलेंड ओपन स्टूडियो ईटीएल कार्यों में से कुछ को निष्पादित करने के लिए हाल के वर्षों में उपयोग किए जाने वाले सबसे अच्छे उपकरणों में से एक है और आप रैंडम या के साथ मूल्यों की जगह लेकर कुछ बुनियादी मास्किंग अभ्यास भी कर पाएंगे। लुकअप / बदलें - निरंतरता बनाए रखने के लिए - मानचित्र घटक का उपयोग करके।

लेकिन अगर आपकी वास्तविक डेटा मास्किंग टूल की तलाश है तो मुझे एक उपयुक्त ओपन सोर्स टूल नहीं मिला है। यदि आपके पास टूल के लिए बहुत उदार बजट है, तो मैं डेटा मास्कर का सुझाव दूंगा लेकिन आपको MS SQL या Oracle के माध्यम से कुछ आयात और निर्यात करने की आवश्यकता होगी क्योंकि यह केवल उन प्रोटोकॉल के माध्यम से जोड़ता है।

डेटा मास्किंग, डेटा मास्किंग पद्धति, डेटा खोज और परीक्षण डेटा के बारे में जानकारी के लिए http://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolset देखें प्रबंधन। Http://www.dataobfuscation.com.au पर एक उपयोगी ब्लॉग भी है


1

बाजार में Informatica से एक उपकरण उपलब्ध है जिसे Informatica ILM (TDM) कहा जाता है। यह ईटीएल के लिए एक बैकऑन के रूप में पावरकार्ट का उपयोग करता है और विभिन्न मास्किंग विकल्पों के साथ मास्क डेटा उपलब्ध है। पर्याप्त रूप से आपको एक डेटा विश्लेषक या एसएमई की आवश्यकता होती है, जो यह समझ सके कि डेटा को कैसे मास्क किया जाना चाहिए। टूल स्वयं यह जानकारी प्रदान नहीं करता है कि कौन से फ़ील्ड्स को मास्क किया जाना चाहिए, हालांकि नाम, आईडी कार्ड, नंबर, क्रेडिट कार्ड, एसएसएन नंबर, अकाउंट नंबर आदि जैसे सेन्स्टिव डेटा फ़ील्ड की पहचान करने के लिए एक आंतरिक एल्गोरिथ्म या प्रक्रिया या प्रक्रिया है।


इसके अलावा, Informatica ILM TDM डेटा सब्मिट करने की अनुमति देता है। तो आप डेटा को सब्मिट कर सकते हैं और इसे मास्क कर सकते हैं या सभी डेटा को मास्क कर सकते हैं और फिर बिजनेस की जरूरत के अनुसार इसे सब्मिट कर सकते हैं।
अवधेश योना

1

इस साल मुझे आईबीएम ऑप्टिमाइज़ेशन के साथ काम करने का अवसर मिला है, जो करने के लिए कहा जाता है। मुक्त नहीं है, लेकिन यह ठीक काम करता है।


1

जो मुझे सबसे अच्छा लगता है वह है बहुमुखी प्रतिभा (सबसे अधिक डेटा मास्किंग कार्य), गति (अंदर डेटा आंदोलन के लिए कॉर्टोर्ट इंजन), और एर्गोनॉमिक्स (सरल 4GL जॉब) के मामले में IRI फील्डशील्ड ( https://www.iri.com/products/fieldshield )। टन के DB और फ़ाइल कनेक्शन के साथ इसके ग्रहण GUI में समर्थित)। मूल्य-वार यह लगभग आधा आईबीएम और सूचनात्मक है, हालांकि 'बिग' डेटा परिवर्तन, माइग्रेशन और बीआई के लिए एक बड़े डेटा एकीकरण सूट में भी उपलब्ध है। तो यह या तो मुक्त नहीं है, लेकिन कुछ खुले स्रोत (आईडीई का उपयोग करता है, और ओपनएसएसएल और जीपीजी का उपयोग कर सकता है) और विंडोज, लिनक्स, और अन्य यूनिक्स स्वादों पर चलने वाली स्क्रिप्ट।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.