प्रेरणा

मैं ऐसे डेटासेट के साथ काम करता हूं जिसमें व्यक्तिगत रूप से पहचान योग्य जानकारी (पीआईआई) होती है और कभी-कभी किसी तीसरे पक्ष के साथ एक डेटासेट का हिस्सा साझा करने की आवश्यकता होती है, इस तरह से कि पीआईआई को उजागर नहीं करता है और मेरे नियोक्ता को दायित्व के अधीन करता है। यहां हमारा सामान्य दृष्टिकोण डेटा को पूरी तरह से रोकना है, या कुछ मामलों में इसके रिज़ॉल्यूशन को कम करना है; उदाहरण के लिए, संबंधित काउंटी या जनगणना पथ के साथ एक सटीक सड़क का पता लगाना।

इसका मतलब यह है कि कुछ प्रकार के विश्लेषण और प्रसंस्करण को घर में किया जाना चाहिए, तब भी जब किसी तीसरे पक्ष के पास संसाधन और विशेषज्ञता कार्य के लिए अधिक अनुकूल हो। चूंकि स्रोत डेटा का खुलासा नहीं किया गया है, जिस तरह से हम इस विश्लेषण और प्रसंस्करण के बारे में जाते हैं, उसमें पारदर्शिता का अभाव है। नतीजतन, क्यूए / क्यूसी प्रदर्शन करने, मापदंडों को समायोजित करने या शोधन करने की किसी भी तीसरे पक्ष की क्षमता बहुत सीमित हो सकती है।

अनाम डेटा को अनाम बनाना

एक कार्य में त्रुटियों और विसंगतियों को ध्यान में रखते हुए, उपयोगकर्ता-प्रस्तुत डेटा में उनके नाम से व्यक्तियों की पहचान करना शामिल है। एक निजी व्यक्ति को एक स्थान पर "डेव" के रूप में और दूसरे में "डेविड" के रूप में दर्ज किया जा सकता है, वाणिज्यिक संस्थाओं में कई अलग-अलग संक्षिप्त रूप हो सकते हैं, और हमेशा कुछ टाइपोस होते हैं। मैंने कई मानदंड के आधार पर स्क्रिप्ट विकसित की है जो निर्धारित करते हैं कि गैर-समान नामों वाले दो रिकॉर्ड एक ही व्यक्ति का प्रतिनिधित्व करते हैं, और उन्हें एक सामान्य आईडी असाइन करते हैं।

इस बिंदु पर हम नामों को रोककर और उन्हें इस व्यक्तिगत आईडी नंबर से बदलकर डेटासेट को अनाम बना सकते हैं। लेकिन इसका मतलब है कि प्राप्तकर्ता को मैच की ताकत के बारे में लगभग कोई जानकारी नहीं है। हम बिना किसी पहचान के अधिक से अधिक जानकारी के पारित होने में सक्षम होना पसंद करेंगे।

क्या काम नहीं करता

उदाहरण के लिए, एडिटिंग डिस्टेंस को सुरक्षित रखते हुए स्ट्रिंग्स को एन्क्रिप्ट करना बहुत अच्छा होगा। इस तरह, तीसरे पक्ष अपने स्वयं के क्यूए / क्यूसी में से कुछ कर सकते हैं, या अपने स्वयं के आगे प्रसंस्करण करने का विकल्प चुन सकते हैं, कभी पहुंच के बिना (या संभावित रूप से रिवर्स-इंजीनियर होने में सक्षम) पीआईआई। शायद हम संपादित दूरी <= 2 के साथ इन-हाउस से मेल खाते हैं, और प्राप्तकर्ता दूरी को संपादित करने के लिए उस सहिष्णुता के कसाव को देखना चाहता है।

लेकिन एकमात्र तरीका जिससे मैं परिचित हूं वह यह है ROT13 (अधिक सामान्यतः, किसी भी शिफ्ट सिफर ), जो शायद ही एन्क्रिप्शन के रूप में गिना जाता है; यह नामों को उल्टा लिखने जैसा है और कहा जा रहा है, "वादा करो कि तुम कागज को नहीं पलटोगे?"

एक और बुरा समाधान सब कुछ संक्षिप्त करना होगा। "एलेन रॉबर्ट्स" "ईआर" और इसके आगे बन जाता है। यह एक खराब समाधान है क्योंकि कुछ मामलों में सार्वजनिक डेटा के साथ मिलकर, किसी व्यक्ति की पहचान को प्रकट करेगा, और अन्य मामलों में यह बहुत अस्पष्ट है; "बेंजामिन ओथेलो एम्स" और "बैंक ऑफ अमेरिका" में एक ही प्रारंभिक अक्षर होंगे, लेकिन उनके नाम अन्यथा असमान हैं। इसलिए यह उन चीजों में से नहीं है जो हम चाहते हैं।

एक अयोग्य विकल्प नाम की कुछ विशेषताओं को ट्रैक करने के लिए अतिरिक्त फ़ील्ड पेश करना है, जैसे:

+-----+----+-------------------+-----------+--------+
| Row | ID | Name              | WordChars | Origin |
+-----+----+-------------------+-----------+--------+
| 1   | 17 | "AMELIA BEDELIA"  | (6, 7)    | Eng    |
+-----+----+-------------------+-----------+--------+
| 2   | 18 | "CHRISTOPH BAUER" | (9, 5)    | Ger    |
+-----+----+-------------------+-----------+--------+
| 3   | 18 | "C J BAUER"       | (1, 1, 5) | Ger    |
+-----+----+-------------------+-----------+--------+
| 4   | 19 | "FRANZ HELLER"    | (5, 6)    | Ger    |
+-----+----+-------------------+-----------+--------+

मैं इसे "अशुभ" कहता हूं क्योंकि यह अनुमान लगाने की आवश्यकता है कि कौन से गुण दिलचस्प हो सकते हैं और यह अपेक्षाकृत मोटे हैं। यदि नाम हटा दिए जाते हैं, तो बहुत अधिक नहीं है कि आप यथोचित रूप से पंक्तियों 2 और 3 के बीच मैच की ताकत के बारे में निष्कर्ष निकाल सकते हैं, या पंक्तियों 2 और 4 के बीच की दूरी के बारे में (यानी, वे मिलान के कितने करीब हैं)।

निष्कर्ष

लक्ष्य स्ट्रिंग्स को इस तरह से बदलना है कि मूल स्ट्रिंग के कई उपयोगी गुणों को मूल स्ट्रिंग का अवलोकन करते समय संभव के रूप में संरक्षित किया जाता है। डिक्रिप्शन असंभव होना चाहिए, या इतना अव्यवहारिक होना चाहिए कि प्रभावी रूप से असंभव हो, कोई फर्क नहीं पड़ता कि डेटा सेट का आकार। विशेष रूप से, एक विधि जो मनमानी तार के बीच संपादित दूरी को बनाए रखती है, बहुत उपयोगी होगी।

मुझे कुछ ऐसे कागजात मिले हैं जो प्रासंगिक हो सकते हैं, लेकिन वे मेरे सिर पर थोड़े हैं:

data-cleaning anonymization

— वायु
स्रोत

19

ओपी में मैंने जिन संदर्भों का उल्लेख किया है उनमें से एक ने मुझे एक संभावित समाधान के लिए प्रेरित किया जो काफी शक्तिशाली प्रतीत होता है, "ब्लूम फ़िल्टर का उपयोग करके गोपनीयता-संरक्षण रिकॉर्ड लिंकेज" में वर्णित है ( doi: 10.1186 / 1472-6947-9-41 ):

पहचानकर्ताओं में त्रुटियों की अनुमति देने वाले एन्क्रिप्टेड पहचानकर्ताओं के साथ गोपनीयता-संरक्षण रिकॉर्ड लिंकेज के लिए एक नया प्रोटोकॉल विकसित किया गया है। प्रोटोकॉल पहचानकर्ताओं के क्यू-ग्राम पर ब्लूम फिल्टर पर आधारित है।

लेख विधि के बारे में विस्तार से बताता है, जिसे मैं अपनी क्षमता के अनुसार यहां संक्षेप में बताऊंगा।

ब्लूम फ़िल्टर बिट्स की एक निश्चित लंबाई वाली श्रृंखला है जिसमें स्वतंत्र हैश कार्यों के एक निश्चित सेट के परिणामों को संग्रहीत किया जाता है, प्रत्येक एक ही इनपुट मूल्य पर गणना की जाती है। प्रत्येक हैश फ़ंक्शन का आउटपुट फ़िल्टर में संभावित अनुक्रमितों में से एक सूचकांक मान होना चाहिए; यानी, यदि आपके पास 10 बिट्स की 0-अनुक्रमित श्रृंखला है, तो हैश फ़ंक्शन को 0 से 9 तक मान (या मैप किया जाना चाहिए) होना चाहिए।

फ़िल्टर प्रत्येक बिट सेट के साथ 0. से शुरू होता है। हैश फ़ंक्शन के सेट से प्रत्येक फ़ंक्शन के साथ इनपुट मूल्य को हैशिंग के बाद, किसी भी हैश फ़ंक्शन द्वारा लौटाए गए इंडेक्स मान से संबंधित प्रत्येक बिट 1 पर सेट होता है। यदि एक ही सूचकांक अधिक द्वारा लौटाया जाता है एक से अधिक हैश फ़ंक्शन, उस इंडेक्स पर बिट केवल एक बार सेट होता है। आप ब्लूम फ़िल्टर को बिट्स की निश्चित सीमा पर हैश के सेट का सुपरपोज़िशन मान सकते हैं।

उपरोक्त लिंक किए गए लेख में वर्णित प्रोटोकॉल स्ट्रिंग को एन-ग्राम में विभाजित करता है, जो इस मामले में वर्णों के सेट हैं। एक उदाहरण के रूप में, "hello"2-ग्राम के निम्नलिखित सेट की उपज हो सकती है:

["_h", "he", "el", "ll", "lo", "o_"]

रिक्त स्थान के साथ आगे और पीछे पैड लगाना, आमतौर पर वैकल्पिक होता है जब एन-ग्राम का निर्माण होता है; इस पद्धति का प्रस्ताव करने वाले कागज में दिए गए उदाहरण ऐसे पैडिंग का उपयोग करते हैं।

प्रत्येक एन-ग्राम को ब्लूम फिल्टर का उत्पादन करने के लिए हैश किया जा सकता है, और ब्लूम फिल्टर का यह सेट स्ट्रिंग के लिए ब्लूम फिल्टर का उत्पादन करने के लिए स्वयं (बिटवाइज़ या ऑपरेशन) पर सुपरइम्पोज़ किया जा सकता है।

यदि फ़िल्टर में हैश फ़ंक्शंस या n-gr की तुलना में बहुत अधिक बिट्स हैं, तो मनमाने ढंग से तार बिल्कुल उसी फ़िल्टर का उत्पादन करने की संभावना नहीं है। हालांकि, अधिक एन-ग्राम दो तार सामान्य रूप से होते हैं, जितने अधिक बिट्स उनके फिल्टर अंततः साझा करेंगे। फिर आप A, Bअपने पासा गुणांक के माध्यम से किसी भी दो फिल्टर की तुलना कर सकते हैं :

डी _{ए, बी} = 2 एच / (ए + बी)

hबिट्स की संख्या जहां दोनों फिल्टर में 1 पर aसेट की जाती है, केवल फिल्टर ए में बिट्स की संख्या 1 है , और bक्या केवल फिल्टर बी में 1 तक सेट बिट्स की संख्या है यदि स्ट्रिंग्स बिल्कुल समान हैं, पासा गुणांक 1 होगा; जितना अधिक वे भिन्न होंगे, गुणांक उतना ही निकट होगा 0।

चूँकि हैश फ़ंक्शंस कम संख्या में संभावित बिट इंडेक्स के लिए अनूठे इनपुट की अनिश्चित संख्या की मैपिंग कर रहे हैं, इसलिए अलग-अलग इनपुट एक ही फ़िल्टर का उत्पादन कर सकते हैं, इसलिए गुणांक केवल एक संभावना को इंगित करता है कि तार समान या समान हैं। विभिन्न हैश फ़ंक्शंस की संख्या और फ़िल्टर में बिट्स की संख्या झूठी सकारात्मकता की संभावना को निर्धारित करने के लिए महत्वपूर्ण पैरामीटर हैं - इनपुट के जोड़े जो इस विधि द्वारा उत्पादित पासा गुणांक की तुलना में बहुत कम हैं, भविष्यवाणी करता है।

ब्लूम फ़िल्टर को समझने के लिए मुझे यह ट्यूटोरियल बहुत मददगार लगा।

इस पद्धति के कार्यान्वयन में कुछ लचीलापन है; यह भी देखें कि 2010 का पेपर (प्रश्न के अंत में भी जुड़ा हुआ है) कुछ संकेतों के लिए कि यह अन्य तरीकों के संबंध में कैसा है, और विभिन्न मापदंडों के साथ।

— वायु
स्रोत

सुझाए गए दृष्टिकोणों के कारण इसे स्वीकृत उत्तर के रूप में चिह्नित करना, यह मेरे विशेष उपयोग के मामले में सबसे अधिक आशाजनक है।

— एयर

इस सभी विवरण और पृष्ठभूमि के लिए धन्यवाद। क्या आप इस दृष्टिकोण के किसी भी कार्यान्वयन (जैसे पायथन) में आए थे?

— 21

@ लंबोदर मैं नहीं।

— वायुसेना

8

आपके प्रश्न को पढ़ने के आधे रास्ते के बाद, मैंने महसूस किया कि लेवेन्सहाइट डिस्टेंस आपकी समस्या का एक अच्छा समाधान हो सकता है। यह देखने के लिए अच्छा है कि आपके पास इस विषय पर एक पेपर का लिंक है, मुझे यह देखने दें कि क्या मैं लेवन्सहाइट समाधान में कुछ प्रकाश डाल सकता हूं।

लेवेनशेटिन दूरी का उपयोग कई उद्योगों में इकाई संकल्प के लिए किया जाता है, जो इसे उपयोगी बनाता है वह यह है कि यह दो अनुक्रमों के बीच अंतर का एक माप है। स्ट्रिंग तुलना के मामले में यह सिर्फ अनुक्रम चरित्र है।

यह आपकी समस्या को हल करने में मदद कर सकता है ताकि आप एक नंबर प्रदान कर सकें जो यह मापता है कि किसी अन्य फ़ील्ड का पाठ कैसे समान है।

यहाँ आपके द्वारा दिए गए डेटा के साथ लेवेंसहाइट का उपयोग करने के मूल तरीके का एक उदाहरण है:

यहाँ छवि विवरण दर्ज करें

यह एक ठीक समाधान प्रदान करता है, 8 की दूरी एक रिश्ते के कुछ संकेत प्रदान करती है, और यह बहुत पीआईआई अनुपालन है। हालांकि, यह अभी भी सुपर उपयोगी नहीं है, देखते हैं कि क्या होता है अगर हम कुछ टेक्स्ट मैजिक करते हैं तो पहले नाम का पहला प्रारंभिक और बीच में कुछ भी छोड़ने वाला पूरा अंतिम नाम:

यहाँ छवि विवरण दर्ज करें

जैसा कि आप देख सकते हैं कि लेवेंसहाइट 0 की दूरी एक रिश्ते का संकेत है। आम तौर पर डेटा प्रदाता 1, 2, या सभी वर्णों के लेवेंशेटिन क्रमोन्नति के एक समूह को जोड़कर, केवल कुछ आयाम देने के लिए कहेंगे कि डेटा के भीतर गुमनामी बनाए रखते हुए संस्थाएं कैसे संबंधित हैं।

— neone4373
स्रोत

1

मेरे द्वारा लिंक किए गए कागज के बारे में मुझे क्या दिलचस्पी है कि यह दोनों इनपुट स्ट्रिंग्स के ज्ञान के बिना इस तरह की गणना करने के लिए एक विधि दिखाने का दावा करता है । कागज में, प्रत्येक अभिनेता को एक स्ट्रिंग का ज्ञान होता है, जो मेरे उद्देश्यों के लिए उपयोगी नहीं है; मुझे एक अभिनेता की आवश्यकता होगी जो किसी भी स्ट्रिंग के ज्ञान के बिना गणना करने में सक्षम हो । पहले से ही उनकी गणना करना बहुत छोटे डेटासेट या बहुत सीमित उत्पादों के लिए ही संभव है; मेरे डेटासेट पर पूर्णांक दूरी का एक पूर्ण क्रॉस उत्पाद ~ 10 PB का संग्रहण करेगा।

— वायु

इसलिए मैंने एक प्रतिस्थापन सिफर (ROT13) का विचार लाया क्योंकि यह तार के बीच की दूरी को संरक्षित करता है; लेकिन यह सुरक्षित नहीं है, और मुझे संदेह है कि संपादित दूरी को सुरक्षित रखते हुए स्ट्रिंग्स को सुरक्षित रूप से एन्क्रिप्ट करना असंभव हो सकता है। (गलत होना पसंद करेंगे!)

— वायु

ठीक है, मैं सिर्फ मैट्रिक्स को फ़िल्टर करूँगा जिसमें केवल लेवेंसहाइट्स को एक निश्चित कटऑफ से नीचे शामिल किया जा सकता है, इसलिए आप केवल आबादी कर रहे हैं जहां ओवरलैप की संभावना अधिक है। इसके अतिरिक्त, जब पीआईआई की बात आती है, तो मैं इस मानसिकता का हूं कि यदि आप अपने डेटासेट में असमान संस्थाओं के बीच संबंध निर्धारित करने के लिए पर्याप्त जानकारी शामिल करते हैं, तो इसकी बहुत संभावना नहीं है कि आप ग्राहकों को गुमनामी से बचा रहे हैं। डेटा को अनाम बनाने का उद्देश्य संभावित PII से संबंधित नियामक सिरदर्द को उस रेखा से नीचे रखना है, (मानकों को हमेशा कड़ा किया जा सकता है), इसलिए व्यक्तिगत रूप से मैं जोखिम नहीं उठाऊंगा।

— neone4373

7

यदि संभव हो तो मैं संबंधित रिकॉर्ड (जैसे, डेव, डेविड, इत्यादि) को लिंक करूंगा और उन्हें एक अनुक्रम संख्या (1,2,3, आदि) या स्ट्रिंग के एक नमकीन हैश से बदल दूंगा जिसका उपयोग सभी संबंधित रिकॉर्डों का प्रतिनिधित्व करने के लिए किया जाता है ( उदाहरण के लिए, डेव के बजाय डेविड)।

मेरा मानना है कि तीसरे पक्ष को कोई विचार नहीं है कि असली नाम क्या है, अन्यथा आप उन्हें भी दे सकते हैं।

संपादित करें : आपको यह परिभाषित करने और औचित्य देने की आवश्यकता है कि तीसरे पक्ष को किस प्रकार के संचालन की आवश्यकता है। उदाहरण के लिए, बेंजामिन ओथेलो एम्स से बैंक ऑफ अमेरिका को खंडित करने के लिए एक संख्या (जैसे, BOA-1, BOA-2, आदि) के बाद के शुरुआती का उपयोग करने में क्या गलत है? यदि यह बहुत खुलासा हो रहा है, तो आप कुछ अक्षरों या नामों को बिन कर सकते हैं; उदाहरण के लिए, [AE] -> 1, [FJ] -> 2, इत्यादि तो BOA 1OA, या ["बैंक", "बैरी", "ब्रूस", इत्यादि बन जाएगा] -> 1 तो बैंक ऑफ अमेरिका फिर से है 1OA।

अधिक जानकारी के लिए k-anonymity देखें ।

— Emre
स्रोत

K-anonymity संदर्भ और बिन सुझाव की सराहना करें - जो मुझे सोचने के लिए कुछ नई चीजें देता है।

— एयर

6

एक विकल्प (आपके डेटासेट के आकार पर निर्भर करता है) केवल अतिरिक्त दूरी के रूप में संपादित दूरी (या समानता के अन्य उपाय जो आप उपयोग कर रहे हैं) प्रदान करना है।

उदाहरण के लिए:

डेटासेट में अद्वितीय नामों का एक सेट उत्पन्न करें
प्रत्येक नाम के लिए, एक दूसरे के नाम से संपादित दूरी की गणना करें
प्रत्येक नाम के लिए एक आईडी या अपरिवर्तनीय हैश उत्पन्न करें
इस आईडी के साथ मूल डेटासेट में नाम बदलें
नए डेटासेट के रूप में आईडी नंबरों के बीच संपादित दूरी का मैट्रिक्स प्रदान करें

हालांकि अभी भी बहुत कुछ ऐसा है जो इनसे भी डेटा का नामकरण करने के लिए किया जा सकता है।

उदाहरण के लिए, अगर "टिम" एक लड़के के लिए सबसे लोकप्रिय नाम के रूप में जाना जाता है, तो आईडी की आवृत्ति की गिनती जो आबादी भर में टिम्स के ज्ञात प्रतिशत से निकटता से मेल खाती है, वह दूर दे सकती है। फिर आप 1 की संपादित दूरी वाले नामों की तलाश कर सकते हैं, और यह निष्कर्ष निकाल सकते हैं कि वे आईडी "टॉम" या "जिम" (जब अन्य जानकारी के साथ संयुक्त हो) का उल्लेख कर सकते हैं।

— डेव चालिस
स्रोत

5

मुझे पूरा यकीन नहीं है, लेकिन शायद स्थानीय-संवेदनशील हैशिंग एक अच्छा समाधान है। यह इनपुट डेटा के हैशिंग (आपके मामले में - नाम) करता है, इसलिए मूल स्ट्रिंग्स को संरक्षित किया जाएगा। दूसरी तरफ, एलएसएच का मुख्य विचार समान वस्तुओं के लिए हैश की संभावना को अधिकतम करना है। कई अलग-अलग एलएसएच-कार्यान्वयन हैं। मैंने ट्वीट ग्रंथों की तुलना करने के लिए निलिमिसा-हैश की कोशिश की , और इसने काफी अच्छा काम किया। लेकिन मुझे यकीन नहीं है, शॉर्ट स्ट्रिंग्स (नामों) के मामले में यह कितना अच्छा काम करेगा - इस मुद्दे को परीक्षण की आवश्यकता है। मैंने आपके उदाहरणों की कोशिश की, और यहाँ परिणाम है (नाम ए, नाम बी, "दूरी" - अधिकतम 120 है):

1. AMELIA BEDELIA  - CHRISTOPH BAUER - 107
2. AMELIA BEDELIA  - C J BAUER       - 82
3. AMELIA BEDELIA  - FRANZ HELLER    - 91
4. CHRISTOPH BAUER - C J BAUER       - 81
5. CHRISTOPH BAUER - FRANZ HELLER    - 98
6. C J BAUER       - FRANZ HELLER    - 83

जैसा कि आप देख रहे हैं, CHRISTOPH BAUER और CJ BAUER सबसे करीबी जोड़ी बने। लेकिन अंतर महत्वपूर्ण नहीं है। और उदाहरण के लिए - इन नामों का हैश प्रतिनिधित्व:

AMELIA BEDELIA  6b208299602b5000c3005a048122a43a828020889042240005011c1880864502
CHRISTOPH BAUER 22226448000ab10102e2860b52062487ff0000928e0822ee106028016cc01237
C J BAUER       2282204100961060048050004400240006032400148000802000a80130402002
FRANZ HELLER    58002002400880080b49172044020008030002442631e004009195020ad01158

— sobach
स्रोत

3

यहां एक दृष्टिकोण है जिसका मैंने उल्लेख नहीं किया है: प्रक्रिया को दो चरणों में अलग करें: पहला कदम एन्कोडिंग नामों पर केंद्रित है ताकि एक ही नाम के वैकल्पिक संस्करण एक ही (या लगभग समान) एन्कोड किए गए हों, और दूसरा चरण बनाने पर केंद्रित हो उन्हें गुमनाम।

पहले चरण के लिए, आप विभिन्न क्रमों में पहले नाम, अंतिम नाम और आद्याक्षर पर लागू ध्वन्यात्मक एल्गोरिथम (साउंडेक्स और वेरिएंट) में से एक का उपयोग कर सकते हैं । ( इस लेख को भी देखें )। यह इस चरण में है जहां आप झूठी नकारात्मक से सकारात्मक सकारात्मकता को संतुलित करने के लिए नामों में अंतर बनाम मतभेदों को हल करते हैं।

दूसरे चरण के लिए, आप किसी भी हैशिंग या क्रिप्टोग्राफ़िक पद्धति को पसंद कर सकते हैं, बिना इस चिंता के कि यह विधि नाम मिलान को कैसे प्रभावित करती है। यह आपको एक ऐसी विधि का उपयोग करने की स्वतंत्रता देता है जिसमें प्रदर्शन, मजबूती और गुमनामी दोनों के लिए सर्वोत्तम विशेषताएं हैं।

— MrMeritology
स्रोत

मुझे नहीं लगता कि यह सुझाव समस्या को संबोधित करता है क्योंकि यह प्रश्न में प्रस्तुत किया गया है। लचीलापन पोस्ट-एन्क्रिप्शन कहाँ है? मूल डेटा तक पहुंच के बिना मैं आपके विश्लेषण को कैसे परिष्कृत करूं?

— वायु

@AirThomas मुझे खेद है लेकिन मुझे आपके दो प्रश्न समझ नहीं आ रहे हैं। "लचीलापन पोस्ट-एन्क्रिप्शन" से आपका क्या मतलब है? मुझे आपके प्रश्न / विवरण में ऐसा कुछ नहीं दिखाई दिया। आपका क्या मतलब है "मूल डेटा तक पहुंच के बिना अपने विश्लेषण को परिष्कृत करें"? मैंने "रिफाइनिंग" के बारे में कुछ नहीं देखा।

— मर्मिटोलॉजी

1

मैंने प्रेरणा अनुभाग के दूसरे पैराग्राफ में समस्या की पहचान करने की कोशिश की । उदाहरण के लिए, कल्पना करें कि आप अपना डेटा विभिन्न शोधकर्ताओं के लिए सेट करना चाहते हैं जो कुछ मॉडलिंग करना चाहते हैं। किसी भी संख्या में चतुर और प्रभावी तरीके हैं जिन्हें लागू किया जा सकता है, और प्रत्येक शोधकर्ता थोड़ा अलग तरीके से काम करता है। आप अपने डेटा सेट में निजी व्यक्तियों के नामों का खुलासा नहीं कर सकते। यदि आप डेटा जारी करने से पहले विश्लेषण के उस हिस्से को निष्पादित करते हैं, तो यह आपकी कार्यप्रणाली को सभी पर निर्भर करता है।

— एयर

यदि आप अतिरिक्त रूप से नामों की हैश प्रदान करते हैं, तो लाभ यह है कि तीसरे पक्ष सटीक पहचान को भेद सकते हैं, लेकिन अब और नहीं। तो सवाल यह है कि आप उस डेटा के बारे में अधिक जानकारी कैसे प्रदान कर सकते हैं जिसे आप जारी नहीं कर सकते? उदाहरण के लिए, क्या कोई विधि है जो हैशिंग / एन्क्रिप्शन में संरक्षित करती है, मनमाने आदानों के बीच संपादित दूरी को आउटपुट करती है? मुझे कम से कम एक तरीका मिला है जो कम से कम उस कार्यक्षमता का पता लगाता है (अधिक जानकारी के लिए, मेरा अपना जवाब देखें)। मुझे उम्मीद है कि इससे चीजें और स्पष्ट होंगी।

— वायु