क्या किसी को अच्छे डेटा एनोनिमा सॉफ्टवेयर के बारे में पता है? या शायद आर के लिए एक पैकेज जो डेटा एनोनिमा करता है? स्पष्ट रूप से बेकाबू गुमनामी की उम्मीद नहीं है - बस इसे मुश्किल बनाना चाहते हैं।
क्या किसी को अच्छे डेटा एनोनिमा सॉफ्टवेयर के बारे में पता है? या शायद आर के लिए एक पैकेज जो डेटा एनोनिमा करता है? स्पष्ट रूप से बेकाबू गुमनामी की उम्मीद नहीं है - बस इसे मुश्किल बनाना चाहते हैं।
जवाबों:
कॉर्नेल गुमनाम करना Tookit खुला स्रोत है। उनके शोध पृष्ठ में संबंधित प्रकाशनों के लिंक हैं।
चेतावनी: सावधान रहें कि डेटा का अधिक मूल्य खोए बिना, एक तरह से डेटा को फिर से पहचानना (डी-अनामीकरण) को रोकना बहुत मुश्किल हो सकता है। यह एक ऐसी स्थिति नहीं है जहाँ आप बिना सोचे समझे उस पर केवल सॉफ्टवेयर का एक टुकड़ा फेंक सकते हैं। लोगों के गुमनामी की रक्षा करने के लिए सावधानीपूर्वक विचार की आवश्यकता है। देखें, जैसे, इस पत्र क्यों यह तुच्छ नहीं है की एक और अधिक सावधान प्रदर्शनी के लिए।
एक सावधानी की कहानी का एक उदाहरण है नेटफ्लिक्स चुनौती, जहां एक उचित रूप से अज्ञात डेटासेट वास्तव में नेटफ्लिक्स उपयोगकर्ताओं की पहचान से जुड़ा हुआ था - या अज्ञात एओएल खोज रिकॉर्ड जारी करना, जिनमें से कई (शोधकर्ताओं ने खोजे) अभी भी वापस बंधे हैं। अधिक परिष्कृत विश्लेषण के माध्यम से व्यक्तियों। एक अन्य उदाहरण मैसाचुसेट्स का है, जहां एक स्वास्थ्य बीमा आयोग ने नाम, पते, एसएसएन आदि को हटाकर सभी राज्य कर्मचारियों पर डेटा जारी किया। हालांकि, एक गोपनीयता शोधकर्ता ने पाया कि व्यक्तियों की फिर से पहचान करना अभी भी संभव था, और एक प्रदर्शन के रूप में, राज्यपाल के स्वास्थ्य रिकॉर्ड की पहचान करना दिखाया। उसने बाद में दिखाया, उदाहरण के लिए, अधिकांश लोगों को केवल उनके ज़िप कोड (या जनगणना पथ), जन्म तिथि और लिंग से विशिष्ट रूप से पहचाना जा सकता है। ये लोगों के डेटा को परिश्रम से प्रसारित करने की कहानियाँ थीं; उन्होंने सोचा कि उन्होंने गुमनामी का अच्छा काम किया है, और बस यह महसूस नहीं किया कि यह मुद्दा कितना पेचीदा है। इन सावधान कहानियों को आपको विराम देना चाहिए।
इन कारणों से, यदि आप इस क्षेत्र में कोई पूर्व अनुभव नहीं रखते हैं, तो मैं आपको अपने डेटासेट को अपने दम पर अनाउंस करने की कोशिश करने से रोकता हूं।
महत्वपूर्ण: डेटा को अनाम बनाने के लिए आवश्यक तकनीक आपके द्वारा उपयोग किए जा रहे डेटा और आपके द्वारा उपयोग किए जा रहे एप्लिकेशन डोमेन पर बहुत अधिक निर्भर करेगी। दुर्भाग्य से, आपने यह जानकारी प्रदान नहीं की। नतीजतन, अपने डेटासेट को अज्ञात करने के बारे में आपको अच्छी सलाह प्रदान करना लगभग असंभव है।
मैं कल्पना करता हूं कि इस उत्तर को अप्राप्य के रूप में देखने के लिए लुभावना हो सकता है, क्योंकि कहने के बजाय "खुश रहें, चिंता न करें, बस इस जादुई टुकड़े को अपने डेटा पर फेंक दें और आपको सोचने की ज़रूरत नहीं है", मैं कह रहा हूं " रुको, यह पहली नज़र में प्रकट होने की तुलना में मुश्किल है, सावधान रहें "। मुझे पता है कि यह संदेश बहुत लोकप्रिय नहीं हो सकता है, लेकिन मुझे लगता है कि यह एक संदेश है जिसे लोगों को सुनना होगा।
एक दृष्टिकोण ब्लूम फ़िल्टर का उपयोग करना होगा। जावा और पायथन में कार्यक्रमों के लिए SAFELINK प्रोजेक्ट वेबसाइट देखें । पेपर समझाने की विधि यहाँ है ।
एएनयू डाटा माइनिंग ग्रुप द्वारा विकसित एन-ग्राम का उपयोग करके रिकॉर्ड लिंकेज के संदर्भ में तार के अनामीकरण के लिए एक दिलचस्प दृष्टिकोण भी है । विवरण और नमूना पायथन कोड वाला पेपर यहां उपलब्ध है ।