मॉडल निर्माण में सामाजिक भेदभाव से बचना


10

मेरे पास अमेज़ॅन के हालिया भर्ती घोटाले से प्रेरित प्रश्न हैं, जहां उनकी भर्ती प्रक्रिया में महिलाओं के साथ भेदभाव का आरोप लगाया गया था। अधिक जानकारी यहाँ :

Amazon.com इंक के मशीन-लर्निंग विशेषज्ञों ने एक बड़ी समस्या को उजागर किया: उनका नया भर्ती इंजन महिलाओं को पसंद नहीं आया।
टीम 2014 से कंप्यूटर प्रोग्राम बना रही थी, शीर्ष आवेदकों की खोज को मशीनी बनाने के उद्देश्य से नौकरी के आवेदकों के रिज्यूमे की समीक्षा करने के उद्देश्य से
... कंपनी के प्रायोगिक हायरिंग टूल ने आर्टिफिशियल इंटेलिजेंस का उपयोग नौकरी के उम्मीदवारों को एक से पांच सितारों तक के स्कोर देने के लिए किया। ...
... लेकिन 2015 तक, कंपनी ने महसूस किया कि इसकी नई प्रणाली लिंग-तटस्थ तरीके से सॉफ्टवेयर डेवलपर नौकरियों और अन्य तकनीकी पदों के लिए उम्मीदवारों की रेटिंग नहीं थी।
ऐसा इसलिए है क्योंकि 10 साल की अवधि में कंपनी को जमा किए गए रिज्यूमे में अमेज़ॅन के कंप्यूटर मॉडल को आवेदकों को प्रशिक्षित करने के लिए प्रशिक्षित किया गया था। अधिकांश लोग तकनीक उद्योग में पुरुष प्रभुत्व का प्रतिबिंब थे। (टेक में लिंग टूटने पर एक ग्राफिक के लिए, देखें: यहां ) वास्तव में, अमेज़ॅन के सिस्टम ने खुद को सिखाया कि पुरुष उम्मीदवार बेहतर थे। इसने फिर से शुरू किया जिसमें "महिला शतरंज क्लब कप्तान" के रूप में "महिला" शब्द शामिल था। मामले से परिचित लोगों के अनुसार, इसने दो सभी-महिला कॉलेजों के स्नातक को अपग्रेड किया। उन्होंने स्कूलों के नाम नहीं बताए।
अमेज़ॅन ने इन विशेष शर्तों के लिए उन्हें तटस्थ बनाने के लिए कार्यक्रमों को संपादित किया। लेकिन इस बात की कोई गारंटी नहीं थी कि मशीनें उम्मीदवारों को छांटने के अन्य तरीकों से वंचित नहीं करेंगी जो भेदभावपूर्ण साबित हो सकते हैं, लोगों ने कहा।
सिएटल कंपनी ने अंततः पिछले साल की शुरुआत तक टीम को भंग कर दिया क्योंकि अधिकारियों ने परियोजना के लिए उम्मीद खो दी ...
... कंपनी का प्रयोग ... मशीन सीखने की सीमाओं में एक केस अध्ययन प्रदान करता है।
... कंप्यूटर वैज्ञानिक जैसे निहार शाह, जो कार्नेगी मेलन यूनिवर्सिटी में मशीन लर्निंग सिखाते हैं, कहते हैं कि अभी बहुत काम करना बाकी है।
"यह सुनिश्चित करने के लिए कि एल्गोरिथ्म निष्पक्ष है, यह सुनिश्चित करने के लिए कि एल्गोरिथ्म वास्तव में व्याख्या योग्य और व्याख्यात्मक है - यह अभी भी काफी दूर है," उन्होंने कहा।

MASCULINE भाषा
[अमेज़ॅन] ने अमेज़ॅन के एडिनबर्ग इंजीनियरिंग हब में एक टीम स्थापित की जो लगभग एक दर्जन लोगों के लिए बढ़ी। उनका लक्ष्य एआई को विकसित करना था, जो भर्ती के लायक वेब और स्पॉट उम्मीदवारों को तेजी से क्रॉल कर सकता था, इस मामले से परिचित लोगों ने कहा।
समूह ने 500 कंप्यूटर मॉडल बनाए जो विशिष्ट कार्य और स्थानों पर केंद्रित थे। उन्होंने प्रत्येक को कुछ 50,000 शब्दों को पहचानना सिखाया जो पिछले उम्मीदवारों के रिज्यूमे पर दिखाई देते थे। एल्गोरिदम ने उन कौशल को बहुत कम महत्व देना सीखा जो आईटी आवेदकों में सामान्य थे, जैसे कि विभिन्न कंप्यूटर कोड लिखने की क्षमता ...
इसके बजाय, प्रौद्योगिकी ने उन उम्मीदवारों का समर्थन किया जिन्होंने खुद को पुरुष इंजीनियरों के रिज्यूमे पर पाए जाने वाले क्रियाओं का उपयोग करके वर्णित किया, जैसे कि "निष्पादित" और "कब्जा कर लिया," एक व्यक्ति ने कहा।

मान लीजिए कि मैं व्यक्तिगत डेटा से कुछ आउटपुट की भविष्यवाणी करने के लिए एक सांख्यिकीय मॉडल बनाना चाहता हूं, जैसे नए लोगों की भर्ती में मदद करने के लिए पांच सितारा रैंकिंग। मान लीजिए कि मैं एक नैतिक बाधा के रूप में भी लैंगिक भेदभाव से बचना चाहता हूं। लिंग के अलावा दो सख्ती से समान प्रोफ़ाइल को देखते हुए, मॉडल का आउटपुट समान होना चाहिए।

  1. क्या मुझे एक इनपुट के रूप में लिंग (या किसी भी डेटा को सहसंबद्ध) का उपयोग करना चाहिए और उनके प्रभाव को ठीक करने की कोशिश करनी चाहिए, या इन डेटा का उपयोग करने से बचना चाहिए?

  2. मैं लिंग के खिलाफ भेदभाव की अनुपस्थिति की जांच कैसे करूं?

  3. मैं आंकड़ों के लिए अपने मॉडल को सही कैसे करूं जो सांख्यिकीय रूप से भेदभावपूर्ण हैं लेकिन मैं नैतिक कारणों से नहीं बनना चाहता हूं?


1
मुझे लगता है कि अमेज़ॅन के कथित भर्ती घोटाले के बारे में एक लेख का संदर्भ आपको सवाल के शरीर में होना महत्वपूर्ण होगा। कुछ तर्क दे सकते हैं कि कोई "भेदभाव" नहीं था (शब्द कैसे परिभाषित किया गया है इसके आधार पर) लेकिन पुरुषों बनाम महिलाओं में एक साधारण असंतुलन काम पर रखा गया है, इसलिए शायद "भेदभाव" की आपकी परिभाषा प्रदान करें।
स्टैट्सस्टूडेंट

1
इस संभावना के बारे में क्या कि यहां एक कैनोनिकल उत्तर संभव नहीं है? क्या आप इसे संबोधित कर सकते हैं? मैं पुनर्विचार पर विचार कर रहा हूं।
गूँग - मोनिका

3
"मॉडल के आउटपुट पर लिंग के प्रभाव की अनुपस्थिति" - मुझे नहीं लगता कि यह एक अच्छी परिभाषा क्यों है। मान लीजिए, आपके पास मॉडल में लिंग नाम की कोई विशेषता नहीं है, जो कि यह वैसे भी नहीं है। तब मॉडल "आंकड़े बाहर" को देखकर अन्य जिम्मेदार ठहराया कि यह एक महिला है, और डाउनग्रेड करती है क्योंकि एक महिला नौकरी के लिए कम फिट है तो क्या? ऐसी कई नौकरियां हैं जहां महिलाएं गरीब होंगी, जैसे कि मरीन। इसका मतलब यह नहीं है कि आप एक ऐसी महिला नहीं खोज सकते जो महान होगी, लेकिन उनमें से ज्यादातर फिट नहीं होंगी।
अक्कल

2
@ लिस्मोरिन, केवल शारीरिक क्यों? आपको क्यों लगता है कि प्रोग्रामर महिलाओं और पुरुषों दोनों के लिए सबसे उपयुक्त है? मुझे स्पष्ट कारण नहीं दिख रहा है। मुझे संदेह है क्योंकि केवल उच्च वेतन वाली नौकरियां प्रश्न में हैं। उदाहरण के लिए, पुरुषों को अधिक जेल होती है, महिलाओं को उसी दर पर जेल जाने के लिए धक्का क्यों नहीं दिया जाता? भेदभाव का गठन करने की एक अच्छी परिभाषा सर्वोपरि है
अक्षल

1
मुझे लगता है कि यह सामाजिक विज्ञानों में किसी भी लागू सांख्यिकी पाठ्यक्रम द्वारा कवर किया गया है, जो कारण प्रभावों को निर्धारित करने की कोशिश कर रहा है ... छोड़े गए परिवर्तनशील पूर्वाग्रह आदि की पहचान करना, 'कारक X के लिए नियंत्रण' आदि
seanv507

जवाबों:


4

यह पत्र विशेष रूप से भाषा-आधारित मॉडल में लिंग पूर्वाग्रह को कैसे नेविगेट करने का एक उत्कृष्ट अवलोकन प्रदान करता है: आदमी कंप्यूटर प्रोग्रामर के लिए है जैसा कि महिला होममेकर के लिए है? डिबियासिंग वर्ड एंबेडिंग - बोलुकबासी एट। अल। । एक अच्छा ब्लॉग सारांश यहाँ पाया जा सकता है:

https://developers.googleblog.com/2018/04/text-embedding-models-contain-bias.html

आपको यहाँ संसाधनों का एक बड़ा संकलन मिलेगा:

https://developers.google.com/machine-learning/fairness-overview/

आपको लिंग के पूर्वाग्रह को कम करने के लिए उपरोक्त लिंक में तकनीकों का एक समूह मिलेगा। सामान्यतया वे तीन वर्गों में आते हैं:

1) अपने डेटा का नमूना लेना। इसका उद्देश्य उच्च गुणवत्ता वाली महिला रिज्यूमे और नमूना पुरुष रिज्यूमे के तहत निरीक्षण करना है।

2) "लिंग उप-स्थान" को घटाना। यदि आपका मॉडल लिंग-पक्षपाती है, तो आप सीधे लिंग की भविष्यवाणी करने के लिए अपने फिर से शुरू एम्बेडिंग का उपयोग करके ऐसा कर सकते हैं। इस तरह के एक सहायक मॉडल के निर्माण के बाद (यहां तक ​​कि लिंग से संबंधित सामान्य शब्दों का नमूना, और फिर पीसीए को लागू करना), आप प्रभाव को मॉडल से इस आयाम को घटा सकते हैं, फिर से शुरू करने को लिंग-तटस्थ बना सकते हैं। यह बोलुकबासी के कागज में प्रयुक्त मुख्य तकनीक है।

3) एडवरसरी लर्निंग। इस मामले में आप उच्च गुणवत्ता वाले महिला रेज़्यूमे के अधिक संस्करण उत्पन्न करने का प्रयास करके अतिरिक्त डेटा उत्पन्न करने का प्रयास करते हैं जो अन्यथा वास्तविक रूप से अप्रभेद्य हैं।


1
यहां कोई अपराध नहीं है लेकिन कुछ गायब है। क्या यह बीमारी की अनदेखी करते हुए लक्षणों का इलाज कर रहा है? एक पीसी भाषा समाधान सब पर एक समाधान है या क्या यह समस्या अपने आप में सही है? भाषा भावनाओं का प्राथमिक स्रोत नहीं है, केवल उन्हें व्यक्त करने का एक साधन है। भावनाओं स्थितियों के लिए प्रतिक्रिया कर रहे हैं। भाषा के साथ उन्हें खत्म करने के बजाय स्थितियों को ठीक करें।
कार्ल

@ कार्ल: यदि कोई डेटासेट पहले ही पूर्वाग्रह से सड़ा हुआ है, तो इसे सही करना बहुत मुश्किल है। राजनीतिक शुद्धता पूर्वाग्रह को कम करने का एक प्रयास है। एमएल मामले में हम मॉडल को पूर्वाग्रह से दूर कर रहे हैं, यह लिंग पर आधारित भविष्यवाणियां हैं जो विशुद्ध रूप से कौशल पर आधारित हैं। अन्यथा इस तरह के एक मॉडल की संभावना महिलाओं को दंडित करेगी और प्रत्येक पेशे में उनके कौशल को बहुत अलग स्कोरिंग प्रदान करेगी। अतिरिक्त तरीकों से पूर्वाग्रह उठता है और शारीरिक परिवर्तनों के माध्यम से उन्हें ठीक करने के लिए डेव हैरिस का जवाब पढ़ें (डेटा परिवर्तनों के विपरीत)
एलेक्स आर।

मैंने डेव के जवाब पर टिप्पणी की, इसलिए आपके सुझाव से पता चलता है कि आप चूक गए हैं। आपको यह बात याद नहीं आ रही होगी कि जिस नौकरी से आप नफरत करते हैं उसे जीतने के लिए एक समस्या है। अवधारण समस्या और कार्यशील वातावरण को ठीक करें। महिलाओं को अधिक "आकर्षक" बनाने से कुछ नहीं होता है, यह समस्याओं को बढ़ा सकता है। नौकरी के संबंध में, यह समस्या "शादी" करने के लिए नहीं है, बल्कि "शादीशुदा रहने" के लिए है।
कार्ल

@ कार्ल: मुझे यकीन नहीं है कि आप यहां क्या बहस कर रहे हैं, क्योंकि ओपी सवाल स्पष्ट रूप से पूछ रहा है कि मौजूदा डेटासेट पर एक सांख्यिकीय मॉडल कैसे बनाया जाए। मेरे द्वारा दिए गए लिंक से पता चलता है कि भाषा के मॉडल, आउट-ऑफ-द-बॉक्स, पहले से ही छिपे हुए पूर्वाग्रह हो सकते हैं। मैं बस यह भी तर्क दे सकता हूं कि जो लोग अपनी नौकरियों को लंबे समय तक रखते हैं, वे कहीं और नौकरी खोजने के लिए बहुत औसत दर्जे के होते हैं। भले ही आप किस KPI का अनुकूलन कर रहे हैं (यह एक प्रासंगिक लेकिन, पूरी तरह से अलग विषय है), आपका मॉडल अभी भी लैंगिक पूर्वाग्रहों को प्रदर्शित कर सकता है।
एलेक्स आर।

1
माना। आपने प्रश्न का उत्तर दिया। हालांकि, टेक नौकरियों की महिला नौकरी प्रतिधारण खराब है और आपने समस्याओं की पहचान नहीं की है। तो इसका जवाब है महिलाओं का असंतोष। यदि इसका उपयोग किया जाता है तो यह दुख का कारण होगा। सांख्यिकीविदों की नैतिक जिम्मेदारी है कि वे अपने काम को संदर्भ में देखें और उन प्रश्नों की पहचान करें जो भोलेपन से प्रस्तुत किए गए लोगों की तुलना में अधिक उपयुक्त हैं।
कार्ल

9

यह आपके सवाल का जवाब नहीं है लेकिन सिर्फ कुछ विचार हैं जो एक टिप्पणी में फिट होने के लिए बहुत लंबे हैं।

मुझे लगता है कि इन मुद्दों के बारे में सोचते समय हमें एक समस्या पर विचार करना होगा कि हर मॉडल भेदभाव करता है , और वे डेटा में मौजूद किसी भी एसोसिएशन के आधार पर ऐसा करेंगे। यह निश्चित रूप से एक पूर्वानुमान मॉडल का संपूर्ण उद्देश्य है। उदाहरण के लिए, पुरुषों की तुलना में महिलाओं की तुलना में अपराध करने की संभावना अधिक होती है, इसलिए इस जानकारी तक पहुंचने वाले लगभग किसी भी मॉडल में इस तरह का विरोधाभास होगा।

लेकिन इसका मतलब यह नहीं है कि हमें किसी को लिंग के आधार पर आंशिक रूप से दोषी ठहराना चाहिए, भले ही एक आदमी को आम तौर पर अपराध (अन्य चीजें बराबर) होने की संभावना अधिक दिखाई देगी। बल्कि हमें इस तरह के निर्णय लेते समय किसी अपराध के प्रत्यक्ष प्रमाण की आवश्यकता होनी चाहिए , न कि केवल जानकारी के आधार पर। एक अन्य उदाहरण के रूप में: जो लोग बीमार होने की अधिक संभावना रखते हैं क्या वे वास्तव में उच्च बीमा प्रीमियम का भुगतान करने के लायक हैं ?

इसलिए जब भेदभाव की बात आती है, तो मैं यह दलील दूंगा कि यह मुद्दा नैतिक अनुप्रयोग से अधिक व्यवहार करता है , बजाय इसके कि मॉडल स्वयं अनुचित हैं। यदि हम दिए गए स्थिति में मॉडल का उपयोग करते समय भेदभाव या अन्य अनुचित परिणामों के बारे में चिंतित हैं, तो शायद हमें मॉडल का उपयोग नहीं करना चाहिए।


2
मैं आपके अंतिम वाक्य के बारे में तर्क दूंगा कि सामाजिक भेदभाव से बचने के लिए बनाया गया एक मॉडल मानव की तुलना में उस मामले में बेहतर प्रदर्शन करेगा, लेकिन मैं यहां नहीं हूं। मैं अपनी पोस्ट को सामाजिक भेदभाव की बेहतर परिभाषा के साथ संपादित करूंगा।
lcrmorin

मुझे नहीं लगता कि हमारी अदालत प्रणाली पुरुषों को अधिक दंडित करने का इरादा रखती है, लेकिन यह करता है। वही उस काल्पनिक अमेज़ॅन एल्गोरिथ्म के लिए जाता है। मुझे संदेह है कि वे महिलाओं के साथ भेदभाव करना चाहते थे, लेकिन अहंकार ने सीखा कि महिलाएं कम फिट हैं और वैसे भी भेदभाव किया जाता है।
अक्कल

आप ओपी के प्रश्न से तेजी से आगे बढ़े हैं: विपरीत भेदभाव n 1: पूर्वाग्रह 2 के आधार पर किसी व्यक्ति या समूह का अनुचित व्यवहार: संज्ञानात्मक प्रक्रिया जिससे दो या अधिक उत्तेजनाएं प्रतिष्ठित होती हैं। [WordNet]। ओपी पहली परिभाषा के बारे में पूछ रहा है, और आप दूसरी के बारे में जवाब दे रहे हैं।
एलेक्सिस

@ एलेक्सिस यह वास्तव में मेरे लिए स्पष्ट नहीं है कि ओपी केवल पहली परिभाषा के बारे में बात कर रहा है। उद्धरण में: "मैं आंकड़ों के लिए अपने मॉडल को सही कैसे करूं जो सांख्यिकीय रूप से भेदभावपूर्ण हैं लेकिन मैं नैतिक कारणों से नहीं बनना चाहता हूं?" इससे यह प्रतीत होता है कि वे उन चीजों से निपटना चाहते हैं जो सांख्यिकीय रूप से लिंग से भिन्न होते हैं, भले ही वे लक्षण न हों जो उपयोग करने के लिए अनुचित हैं। वैसे, भेदभाव की दो अवधारणाओं के बीच कोई तेज अंतर नहीं है। कुछ लोगों को उचित लगता है तो कुछ अनुचित।
उड़ानों

लिंग के संबंध में महत्वपूर्ण अंतर हैं, आवेदन करने वाले लोगों की संख्या और प्रोफाइल की अवधि में दोनों। मेरा लक्ष्य यह सुनिश्चित करना है कि एक समान प्रोफ़ाइल वाले दो लोग नहीं बल्कि एक ही लिंग के साथ समान व्यवहार किया जाएगा।
lcrmorin

6

मैं सॉफ्टवेयर प्रबंधन सर्वोत्तम प्रथाओं को विकसित करने के लिए एक परियोजना पर काम करता था। मैंने मैदान में लगभग पचास सॉफ्टवेयर टीमों का अवलोकन किया। हमारा नमूना 77 के आसपास था, लेकिन हमने लगभग सौ टीमों को देखकर समाप्त किया। प्रमाणपत्र, डिग्री और इसके बाद की चीजों पर डेटा एकत्र करने के अलावा, हमने कई प्रकार के मनोवैज्ञानिक और जनसांख्यिकीय डेटा भी एकत्र किए।

सॉफ्टवेयर डेवलपमेंट टीमों में कुछ बहुत महत्वपूर्ण आत्म-चयन प्रभाव होते हैं, जिनका लिंग के साथ कोई संबंध नहीं होता है, लिंग के साथ दृढ़ता से सहसंबद्ध होते हैं। इसके अलावा, प्रबंधक खुद को दोहराने के लिए करते हैं। लोग उन लोगों को किराए पर लेते हैं जिनके साथ वे सहज हैं, और वे खुद के साथ सबसे अधिक आरामदायक हैं। इस बात के भी सबूत हैं कि लोगों को संज्ञानात्मक रूप से पक्षपाती तरीके से आंका जा रहा है। कल्पना कीजिए कि, एक प्रबंधक के रूप में, मैं काम की शुरुआत में अत्यधिक आगमन को महत्व देता हूं। मैं फिर उस पर रेट करूंगा। एक और प्रबंधक, जो सिर्फ इस बात की परवाह करता है कि काम पूरा हो गया है, कुछ महत्वपूर्ण पर पूरी तरह से अलग हो सकता है।

आपने नोट किया कि पुरुष भाषा का अलग तरह से इस्तेमाल करते हैं, लेकिन यह भी सच है कि अलग-अलग व्यक्तित्व वाले लोग अलग-अलग तरीके से भाषा का इस्तेमाल करते हैं। जातीय भाषा उपयोग मतभेद भी हो सकते हैं, उदाहरण के लिए हार्वर्ड और एशियाई प्रवेश पर मौजूदा विवाद देखें।

अब आप मानते हैं कि सॉफ्टवेयर फर्म महिलाओं के साथ भेदभाव करती हैं, लेकिन सॉफ्टवेयर विकास उद्योग में लिंग भेदभाव का एक और रूप है जो आपने नहीं देखा है। जब आप वस्तुनिष्ठ चीजों जैसे प्रमाणपत्र, डिग्री, कार्यकाल और इसके बाद के लिए नियंत्रण करते हैं, तो औसत महिला औसत पुरुष की तुलना में 40% अधिक कमाती है। दुनिया में रोजगार भेदभाव के तीन स्रोत हैं।

पहला यह है कि प्रबंधक या मालिक किसी विशेषता के आधार पर किसी को नौकरी देने की इच्छा नहीं रखते हैं। दूसरा यह है कि सहकर्मी उस विशेषता वाले लोगों के साथ काम करने की इच्छा नहीं रखते हैं। तीसरा यह है कि ग्राहक उन लोगों को नहीं चाहते जिनके पास एक सुविधा है। ऐसा प्रतीत होता है कि वेतन भेदभाव ग्राहकों द्वारा ट्रिगर किया जा रहा है क्योंकि कार्य उत्पाद अलग है, और ग्राहकों के दृष्टिकोण से भी बेहतर है। इसी विशेषता के कारण पुरुष दंत चिकित्सकों को महिलाओं की तुलना में कम वेतन लेना पड़ता है। यह विश्व फुटबॉल मजदूरी में "यहां पैदा हुए" की ओर एक पूर्वाग्रह में भी देखा जाता है।

इसके लिए सबसे अच्छा नियंत्रण आपके डेटा और इसमें शामिल सामाजिक ताकतों को समझना है। कोई भी फर्म जो अपने स्वयं के डेटा का उपयोग करती है, वह स्वयं को दोहराने के लिए करेगी। यह एक बहुत अच्छी बात हो सकती है, लेकिन यह उन्हें काम पर बलों के लिए अंधा भी बना सकता है। दूसरा नियंत्रण आपके उद्देश्य फ़ंक्शन को समझना है। मुनाफा एक अच्छा कार्य हो सकता है, लेकिन यह एक बुरा कार्य हो सकता है। एक उद्देश्य हानि समारोह के चयन में खेलने के लिए मूल्य हैं। फिर, अंत में, दुर्भाग्यपूर्ण भेदभाव हो रहा है यह निर्धारित करने के लिए जनसांख्यिकी के खिलाफ डेटा का परीक्षण करने का मुद्दा है।

अंत में, और यह एआई जैसी चीजों में एक बड़ी समस्या है जहां आपको अच्छे व्याख्यात्मक आंकड़े नहीं मिल सकते हैं, आप यूल के विरोधाभास को नियंत्रित करना चाहेंगे। क्लासिक ऐतिहासिक उदाहरण यह खोज है कि 44% पुरुषों को यूसी बर्कले को स्वीकार किया गया था जबकि 1973 में केवल 35% महिलाओं को भर्ती किया गया था। यह एक बहुत बड़ा अंतर था और सांख्यिकीय रूप से महत्वपूर्ण था। यह भी भ्रामक था।

यह स्पष्ट रूप से निंदनीय था, और इसलिए विश्वविद्यालय ने यह देखने का फैसला किया कि कौन-कौन से आक्रामक साथी थे। खैर, यह पता चला कि जब आप प्रमुख के लिए नियंत्रित करते हैं, तो महिलाओं को स्वीकार करने के पक्ष में एक सांख्यिकीय महत्वपूर्ण पूर्वाग्रह था। अस्सी-पाँच बड़ी कंपनियों में से छह महिलाओं की ओर और चार पुरुषों की ओर से पक्षपाती थे, शेष महत्वपूर्ण नहीं थे। अंतर यह था कि महिलाएं, सबसे अधिक प्रतिस्पर्धी बड़ी कंपनियों के लिए आवेदन कर रही थीं और दोनों में से कुछ में लिंग कम हो रहे थे।

यूल के विरोधाभास में जोड़ना भेदभाव के लिए एक और भी गहरी परत बनाता है। कल्पना कीजिए, लिंग परीक्षण के बजाय, नौकरी के प्रकार से लिंग परीक्षण था। आप संभवतः कंपनी-व्यापी लिंग तटस्थ परीक्षा पास कर सकते हैं, लेकिन कार्य स्तर पर विफल हो सकते हैं। कल्पना कीजिए कि केवल महिलाओं को वी एंड वी के लिए भर्ती किया गया था और सिस्टम प्रशासन के लिए केवल पुरुष थे। आप लिंग को तटस्थ देखेंगे, और आप नहीं होंगे।

इसका एक संभावित समाधान प्रतिस्पर्धात्मक AI को चलाना है जो "अच्छाई" के अलग-अलग उद्देश्य मानदंडों का उपयोग करता है। लक्ष्य नेट को चौड़ा करना है, इसे संकीर्ण नहीं करना है। यह प्रबंधन साहित्य में एक और समस्या से बचने में भी मदद कर सकता है। जबकि 3% पुरुष सोसियोपैथ हैं, यह संख्या काफी हद तक बढ़ जाती है क्योंकि आप कॉर्पोरेट सीढ़ी से आगे और आगे बढ़ते हैं। आप sociopaths के लिए फ़िल्टरिंग नहीं करना चाहते हैं।

अंत में, आप कुछ प्रकार के पदों के लिए AI का उपयोग करने पर विचार नहीं करना चाह सकते हैं। मैं अभी नौकरी का शिकार हूं। मुझे यकीन है कि मुझे फ़िल्टर किया जा रहा है, और मुझे यह पता नहीं चला है कि इसके चारों ओर कैसे पहुंचा जाए। मैं एक बहुत ही विघटनकारी नई तकनीक पर बैठा हूं। समस्या यह है कि मेरा काम जादू के शब्दों से मेल नहीं खाता है। इसके बजाय, मेरे पास जादू के शब्दों का अगला सेट है। अभी, मैं सही फर्म के लिए एक भाग्य के लायक हूं, लेकिन एक मामले में जहां मैंने आवेदन किया था, मुझे एक मिनट से भी कम समय में स्वचालित गिरावट आई। मेरे एक मित्र हैं जिन्होंने संघीय एजेंसियों के सीआईओ के रूप में सेवा की है। उन्होंने एक नौकरी के लिए आवेदन किया था, जहां काम पर रखने वाले प्रबंधक उनके आवेदन को देखने के लिए इंतजार कर रहे थे ताकि उन्हें नौकरी की पेशकश की जा सके। यह कभी नहीं आया क्योंकि फ़िल्टर ने इसे अवरुद्ध कर दिया था।

यह AI की दूसरी समस्या को स्थापित करता है। अगर मैं ऑनलाइन रिज्यूमे से काम कर सकता हूं जो अमेज़ॅन को काम पर रख रहा है, तो मैं अपने रिज्यूमे को जादू कर सकता हूं। वास्तव में, मैं अपने फिर से शुरू करने पर काम कर रहा हूं ताकि इसे गैर-मानव फिल्टर फिट कर सकें। मैं भर्तीकर्ताओं के ई-मेल से यह भी बता सकता हूं कि मेरे फिर से शुरू होने के कुछ हिस्सों को ज़ूम इन किया जा रहा है और अन्य भागों को अनदेखा किया गया है। यह वैसा ही है जैसे प्रोलॉग जैसे सॉफ्टवेयर के द्वारा भर्ती और भर्ती प्रक्रिया को संभाल लिया गया है। तार्किक बाधाओं से मुलाकात की? हाँ! यह उम्मीदवारों का इष्टतम उम्मीदवार या सेट है। क्या वे इष्टतम हैं?

आपके प्रश्न का पूर्व-निर्मित उत्तर नहीं है, केवल इंजीनियर के लिए समस्याएँ हैं।


(+1) ठोस अवलोकन। मैं विशेष रूप से परिणामों के व्याख्यात्मक पूर्वाग्रह के विषय में समीकरण को पसंद करता हूं और केवल यह जोड़ना चाहूंगा कि किसी को सामाजिक इंजीनियरिंग के लिए एक लक्ष्य को परिभाषित करना चाहिए जो कि वस्तु उन्मुख है, अर्थात् कुछ मूर्त लाभ। उदाहरण के लिए, पुरुषों में मूत्र कैथेटर डालने के लिए एक पुरुष नर्स उपलब्ध होने की आवश्यकता नहीं होगी कि 50% नर्सें पुरुष हों।
कार्ल

@Dave। आपकी जानकारी के लिए धन्यवाद। क्या आप "जब आप प्रमाणपत्र, डिग्री, कार्यकाल और इत्यादि जैसे वस्तुनिष्ठ चीजों के लिए नियंत्रण करते हैं, तो इसके लिए स्रोत प्रदान कर सकते हैं। औसत महिला औसत आदमी की तुलना में 40% अधिक कमाती है"? और आपका क्या मतलब है "आप sociopaths के लिए फ़िल्टरिंग नहीं करना चाहते हैं।" ?
lcrmorin

@Lrmorin में प्रमोशन की तलाश में सोशोपथ्स की प्रवृत्ति है। यदि आप अपने मौजूदा पदानुक्रम की नकल कर रहे हैं क्योंकि आप इसके डेटा का उपयोग कर रहे हैं, तो आप अपने आप को उन व्यवहारों के लिए चुन सकते हैं जो सोशियोपैथी के लिए फ़िल्टर करते हैं। एक धारणा है कि सॉफ्टवेयर तटस्थ होगा, लेकिन कमांड की कई मौजूदा श्रृंखलाएं तटस्थ से बहुत दूर हैं। कभी-कभी पुरुषों के लिए फ़िल्टर करना वास्तव में पुरुषों के लिए फ़िल्टरिंग नहीं होता है, बल्कि इसके बजाय, पुरुष व्यवहार जो कि सोशियोपैथी को प्रच्छन्न करते हैं।
डेव हैरिस

@ लेक्रोमरीन मेरा कार्यालय वस्तुतः बक्से में है क्योंकि इसे स्थानांतरित किया जा रहा है, जिसमें लगभग सात सौ जर्नल लेख शामिल हैं। लेख ने मुझे मारा क्योंकि मैं उस समय सॉफ्टवेयर इंजीनियरों पर शोध कर रहा था। हालांकि, बारह साल पहले था। फील्ड रिसर्च और प्रशिक्षित भविष्य के इंजीनियरों के प्रदर्शन के बाद, मेरा अनुमान है कि महिलाओं को एक भारी पुरुष वर्चस्व वाले समूह में जीवित रहने के लिए पुरुष व्यवहार को चुनना पड़ता है, लेकिन पुरुषों को उन व्यवहारों को नहीं उठाना पड़ता है जो महिलाएं अपने साथ लाती हैं। मेरा अनुमान है कि अंतर आवश्यकताओं के माध्यम से प्रवेश करता है।
डेव हैरिस

मैं मुख्य रूप से 40% के आंकड़े के बारे में उलझन में था, जो बहुत कुछ प्रतीत होता है और कहीं भी नहीं है, जो मेरे सहित, आजकल लोग अनुभव करते हैं।
lcrmorin

5

इस तरह का एक मॉडल बनाने के लिए, पहले भेदभाव और प्रक्रिया-परिणामों के कुछ बुनियादी सांख्यिकीय पहलुओं को समझना महत्वपूर्ण है। इसके लिए सांख्यिकीय प्रक्रियाओं की समझ की आवश्यकता होती है जो विशेषताओं के आधार पर वस्तुओं को रेट करती हैं। विशेष रूप से, यह निर्णय लेने के उद्देश्यों (यानी, भेदभाव) के लिए एक विशेषता के उपयोग के बीच संबंध को समझने की आवश्यकता है और कहा विशेषता के संबंध में प्रक्रिया के परिणामों का आकलन। हम निम्नलिखित को देखते हुए शुरू करते हैं:

  • भेदभाव (अपने उचित अर्थ में) तब होता है जब निर्णय प्रक्रिया में एक चर का उपयोग किया जाता है, न कि केवल तब जब परिणाम उस चर के साथ सहसंबद्ध होता है। औपचारिक रूप से, हम एक चर के संबंध में भेदभाव करते हैं यदि प्रक्रिया में निर्णय कार्य (यानी, इस मामले में रेटिंग) उस चर का एक फ़ंक्शन है।

  • किसी विशेष चर के संबंध में विषमताएं अक्सर तब भी होती हैं जब उस चर पर कोई भेदभाव नहीं होता है । यह तब होता है जब निर्णय फ़ंक्शन में अन्य विशेषताओं को बहिष्कृत चर के साथ सहसंबद्ध किया जाता है। ऐसे मामलों में जहां बहिष्कृत चर एक जनसांख्यिकीय चर है (उदाहरण के लिए, लिंग, जाति, आयु, आदि) अन्य विशेषताओं के साथ सहसंबंध सर्वव्यापी है, इसलिए जनसांख्यिकीय समूहों के परिणाम में असमानताएं अपेक्षित हैं।

  • सकारात्मक कार्रवाई के माध्यम से जनसांख्यिकीय समूहों में परिणामों में असमानताओं को कम करने की कोशिश करना संभव है, जो भेदभाव का एक रूप है। यदि किसी चर के संबंध में प्रक्रिया-परिणामों में असमानताएं हैं, तो चर को निर्णय-चर के रूप में उपयोग करके उन विषमताओं को कम करना संभव है (यानी, उस चर पर भेदभाव करके) एक तरह से उन समूहों का पक्ष लेते हैं जो "अंडरप्रेजेंट" हैं (अर्थात, निर्णय प्रक्रिया में सकारात्मक परिणामों के कम अनुपात वाले समूह)।

  • आपके पास यह दोनों तरीके नहीं हो सकते हैं --- या तो आप किसी विशेष विशेषता के संबंध में भेदभाव से बचना चाहते हैं, या आप उस विशेषता के संबंध में प्रक्रिया-परिणामों को बराबर करना चाहते हैं। यदि आपका लक्ष्य किसी विशेष विशेषता के संबंध में परिणामों में असमानताओं को "सही" करना है, तो अपने आप को यह मत समझो कि आप क्या कर रहे हैं --- आप उद्देश्यपूर्ण कार्रवाई के लिए भेदभाव में संलग्न हैं

एक बार जब आप सांख्यिकीय निर्णय लेने की प्रक्रियाओं के इन बुनियादी पहलुओं को समझ जाते हैं, तो आप इस मामले में अपना वास्तविक लक्ष्य क्या बना पाएंगे। विशेष रूप से, आपको यह तय करने की आवश्यकता होगी कि क्या आप एक गैर-भेदभावपूर्ण प्रक्रिया चाहते हैं, जिसके परिणामस्वरूप समूहों में परिणाम की असमानताएं हो सकती हैं, या क्या आप चाहते हैं कि समान प्रक्रिया परिणाम प्राप्त करने के लिए डिज़ाइन की गई भेदभावपूर्ण प्रक्रिया (या इसके करीब कुछ)। नैतिक रूप से, यह मुद्दा गैर-भेदभाव बनाम सकारात्मक-कार्रवाई पर बहस की नकल करता है।


मान लीजिए कि मैं व्यक्तिगत डेटा से कुछ आउटपुट की भविष्यवाणी करने के लिए एक सांख्यिकीय मॉडल बनाना चाहता हूं, जैसे नए लोगों की भर्ती में मदद करने के लिए पांच सितारा रैंकिंग। मान लीजिए कि मैं एक नैतिक बाधा के रूप में भी लैंगिक भेदभाव से बचना चाहता हूं। लिंग के अलावा दो सख्ती से समान प्रोफ़ाइल को देखते हुए, मॉडल का आउटपुट समान होना चाहिए।

यह सुनिश्चित करना आसान है कि मॉडल से दी गई रेटिंग एक चर से प्रभावित नहीं होती है जिसे आप बाहर करना चाहते हैं (जैसे, लिंग)। ऐसा करने के लिए, आपको केवल इस चर को मॉडल में एक भविष्यवक्ता के रूप में निकालना होगा, ताकि इसका उपयोग रेटिंग निर्णय में न किया जाए। यह सुनिश्चित करेगा कि दो प्रोफाइल जो कि समान रूप से समान हैं, उस चर के अलावा समान हैं। हालांकि, यह आवश्यक रूप से सुनिश्चित नहीं करेगा कि मॉडल किसी अन्य चर के आधार पर भेदभाव नहीं करता है जिसे बहिष्कृत चर के साथ सहसंबद्ध किया जाता है, और यह आम तौर पर ऐसे परिणामों को जन्म नहीं देगा जो लिंग के बीच बराबर होते हैं। ऐसा इसलिए है क्योंकि लिंग को कई अन्य विशेषताओं के साथ जोड़ा जाता है जो आपके मॉडल में भविष्य कहे जाने वाले चर के रूप में उपयोग किए जा सकते हैं, इसलिए हम आमतौर पर परिणामों को भेदभाव के अभाव में भी असमान होने की उम्मीद करेंगे।

इस मुद्दे के संबंध में, यह उन विशेषताओं के बीच सीमांकन करने के लिए उपयोगी है जो अंतर्निहित लिंग विशेषताओं (उदाहरण के लिए, खड़े होने वाले) बनाम विशेषताओं हैं जो केवल लिंग के साथ सहसंबद्ध हैं (जैसे, एक इंजीनियरिंग की डिग्री है)। यदि आप लिंग भेदभाव से बचना चाहते हैं, तो यह आमतौर पर एक भविष्यवक्ता के रूप में लिंग को हटाने के लिए मजबूर करेगा, और किसी अन्य विशेषता को भी हटा देगा जिसे आप एक अंतर्निहित लिंग विशेषता मानते हैं । उदाहरण के लिए, यदि ऐसा हुआ है कि नौकरी के आवेदक निर्दिष्ट करते हैं कि क्या वे खड़े हैं या नीचे बैठे हैं, तो यह एक विशेषता है जो कड़ाई से लिंग के बराबर नहीं है, लेकिन एक विकल्प प्रभावी रूप से लिंग का निर्धारण करता है, इसलिए आप शायद उस विशेषता को हटा देंगे मॉडल में एक भविष्यवक्ता के रूप में।

  1. क्या मुझे एक इनपुट के रूप में लिंग (या किसी भी डेटा को सहसंबद्ध) का उपयोग करना चाहिए और उनके प्रभाव को ठीक करने की कोशिश करनी चाहिए, या इन डेटा का उपयोग करने से बचना चाहिए?

सही क्या? जब आप कहते हैं कि "उनके प्रभाव को ठीक करें" तो मैं मान सकता हूं कि आप का मतलब है कि आप परिणामों में "सही" असमानताओं पर विचार कर रहे हैं जो कि भविष्यवक्ताओं द्वारा लिंग के साथ सहसंबद्ध होने के कारण हैं। अगर ऐसा है, और आप एक परिणाम असमानता को ठीक करने के लिए लिंग का उपयोग करते हैं तो आप प्रभावी रूप से सकारात्मक कार्रवाई में संलग्न हैं --- यानी, आप अपने मॉडल को लिंग पर सकारात्मक रूप से भेदभाव करने के लिए प्रोग्रामिंग कर रहे हैं, परिणामों को करीब लाने के लिए। । आप ऐसा करना चाहते हैं, यह मॉडल में आपके नैतिक लक्ष्य (भेदभाव से बचने और समान परिणाम प्राप्त करने) पर निर्भर करता है।

  1. मैं लिंग के खिलाफ भेदभाव की अनुपस्थिति की जांच कैसे करूं?

यदि आप वास्तविक भेदभाव के बारे में बात कर रहे हैं, तो परिणाम में असमानताओं के विपरीत, यह विवश और जांचना आसान है। आपको बस अपने मॉडल को इस तरह से तैयार करना है कि वह भविष्यवक्ताओं के रूप में लिंग (और निहित लिंग विशेषताओं) का उपयोग न करे। कंप्यूटर उन विशेषताओं के आधार पर निर्णय नहीं ले सकते हैं जिन्हें आप उनके मॉडल में नहीं डालते हैं, इसलिए यदि आपके पास इस पर नियंत्रण है, तो भेदभाव की अनुपस्थिति की जांच करना काफी सरल होना चाहिए।

जब आप मशीन-शिक्षण मॉडल का उपयोग करते हैं तो चीजें थोड़ी कठिन हो जाती हैं, जो आपके इनपुट के बिना, प्रासंगिक विशेषताओं का पता लगाने की कोशिश करते हैं। इस मामले में भी, आपके लिए अपने मॉडल को प्रोग्राम करना संभव होना चाहिए, ताकि यह उन भविष्यवाणियों को बाहर कर दे जिन्हें आप निर्दिष्ट करना चाहते हैं (जैसे, लिंग)।

  1. मैं आंकड़ों के लिए अपने मॉडल को सही कैसे करूं जो सांख्यिकीय रूप से भेदभावपूर्ण हैं लेकिन मैं नैतिक कारणों से नहीं बनना चाहता हूं?

जब आप "सांख्यिकीय रूप से भेदभावपूर्ण" डेटा का उल्लेख करते हैं, तो मेरा मानना ​​है कि आप सिर्फ उन विशेषताओं का मतलब है जो लिंग के साथ सहसंबद्ध हैं। यदि आप वहां इन अन्य विशेषताओं को नहीं चाहते हैं, तो आपको बस उन्हें मॉडल में भविष्यवाणियों के रूप में हटा देना चाहिए। हालांकि, आपको यह ध्यान में रखना चाहिए कि यह संभावना है कि लिंग के साथ कई महत्वपूर्ण विशेषताओं का संबंध होगा। किसी भी मामले में लिंग के साथ किसी भी द्विआधारी विशेषता को सहसंबद्ध किया जाएगा जब उस विशेषता वाले पुरुषों का अनुपात उस विशेषता के साथ महिलाओं के अनुपात से अलग हो। (बेशक, यदि वे अनुपात करीब हैं, तो आप पा सकते हैं कि वे अंतर "सांख्यिकीय रूप से महत्वपूर्ण" नहीं है।) अधिक सामान्य चर के लिए गैर-शून्य सहसंबंध के लिए स्थिति भी बहुत कमजोर है। इस प्रकार,


सहसंबद्ध चर को हटाने का एक विकल्प पुरुषों और महिलाओं के लिए अलग-अलग मॉडल को प्रशिक्षित करना होगा। फिर सवाल यह है कि उन अलग-अलग मॉडलों का उपयोग कैसे किया जाए?
kjetil b halvorsen

दिलचस्प। जबकि पूर्वजन्म में योग्यता है, उदाहरण के लिए, मान्यताओं, उदाहरण के लिए, "लिंग पूर्वाग्रह समस्याग्रस्त कैसे है?" नो-वन सभी जानते हैं और परिणाम पोस्ट हॉक की जाँच के लिए कोई विकल्प नहीं है ।
कार्ल

1
विचारशील के लिए +1। "आपको बस अपने मॉडल को इस तरह से तैयार करना है कि यह भविष्यवाणियों के रूप में लिंग (और निहित लिंग विशेषताओं का उपयोग नहीं करता है।" यह लिखना आसान है, लेकिन समाज के मध्यस्थों के काम पर रखने जैसे सामाजिक निर्णयों के लिए एल्गोरिदम बनाना शुरू करने का मतलब है कि आय का इतिहास , शैक्षिक प्राप्ति और पिछली स्थिति जैसी चीजें लिंग के कारण से नीचे हैं।
एलेक्सिस

4

यह कम से कम एक आंशिक उत्तर होगा (या बिल्कुल भी जवाब नहीं)।

पहली बात यह ध्यान देने की है कि मैं पूरी तरह से @dsaxton से सहमत हूं: सभी मॉडल "भेदभाव" (कम से कम भेदभाव की कुछ परिभाषाओं में) जैसे कि उनका कार्य है। मुद्दा यह है कि मॉडल सारांश और औसत पर काम करते हैं और वे औसत के आधार पर चीजें असाइन करते हैं। एकल व्यक्ति अद्वितीय हैं और भविष्यवाणी से पूरी तरह से दूर हो सकते हैं।

उदाहरण: एक साधारण मॉडल पर विचार करें जो एक चर - आयु के आधार पर उल्लिखित पांच सितारा रैंकिंग की भविष्यवाणी करता है । समान आयु वाले सभी लोगों के लिए (कहते हैं कि 30) यह एक ही आउटपुट का उत्पादन करेगा। हालाँकि यह एक सामान्यीकरण है। 30yr आयु वाले प्रत्येक व्यक्ति समान नहीं होंगे। और अगर मॉडल अलग-अलग उम्र के लिए अलग-अलग रैंक पैदा करता है - यह पहले से ही लोगों को उनकी उम्र के लिए भेदभाव कर रहा है। कहें कि यह 50 वर्ष के बच्चों के लिए 3 रैंक और 40 साल के बच्चों के लिए 4 रैंक देता है। वास्तव में कई 50 साल के लोग होंगे जो 40 साल की उम्र के लोगों की तुलना में बेहतर हैं। और उनके साथ भेदभाव किया जाएगा।


  1. क्या मुझे एक इनपुट के रूप में लिंग (या किसी भी डेटा को सहसंबद्ध) का उपयोग करना चाहिए और उनके प्रभाव को ठीक करने की कोशिश करनी चाहिए, या इन डेटा का उपयोग करने से बचना चाहिए?

यदि आप चाहते हैं कि मॉडल समान रूप से पुरुषों और महिलाओं के लिए एक ही परिणाम लौटाए तो आपको मॉडल में लिंग को शामिल नहीं करना चाहिए। लिंग से संबंधित किसी भी डेटा को संभवतः शामिल किया जाना चाहिए। इस तरह के सहसंयोजकों को छोड़कर आप कम से कम 2 प्रकार की त्रुटियां कर सकते हैं: 1) सभी पुरुषों और महिलाओं को समान रूप से सभी कोवरिएट में वितरित किया जाता है; 2) अगर उनमें से कुछ लिंग-सहसंबंधित सहसंयोजक रेटिंग के लिए प्रासंगिक हैं और एक ही समय में लिंग के साथ सहसंबद्ध हैं - तो आप उन्हें छोड़कर अपने मॉडल के प्रदर्शन को काफी कम कर सकते हैं।

  1. मैं लिंग के खिलाफ भेदभाव की अनुपस्थिति की जांच कैसे करूं?

मॉडल को ठीक उसी डेटा पर दो बार चलाएं - एक बार "पुरुष" और दूसरी बार "महिला" का उपयोग करके। यदि यह एक पाठ दस्तावेज़ से आता है तो शायद कुछ शब्दों को प्रतिस्थापित किया जा सकता है।

  1. मैं आंकड़ों के लिए अपने मॉडल को सही कैसे करूं जो सांख्यिकीय रूप से भेदभावपूर्ण हैं लेकिन मैं नैतिक कारणों से नहीं बनना चाहता हूं?

निर्भर करता है कि आपकी क्या करने की इच्छा है। जेंडर के बीच समानता को मजबूर करने का एक क्रूर तरीका यह है कि पुरुष आवेदकों और महिला आवेदकों पर अलग से मॉडल चलाया जाए। और फिर एक समूह से 50% और दूसरे समूह से 50% चुनें।

आपकी भविष्यवाणी सबसे अधिक पीड़ित होगी - क्योंकि यह संभावना नहीं है कि आवेदकों का सबसे अच्छा सेट बिल्कुल आधा पुरुष और आधा महिला शामिल होगा। लेकिन आप शायद नैतिक रूप से ठीक होंगे? - फिर से यह नैतिकता पर निर्भर करता है। मैं एक नैतिक घोषणा देख सकता हूं जहां इस प्रकार का अभ्यास अवैध होगा क्योंकि यह लिंग के आधार पर भी भेदभाव करेगा लेकिन दूसरे तरीके से।


अलग से भी प्रशिक्षण क्यों नहीं?
kjetil b halvorsen

क्या यह अभी तक भेदभाव का दूसरा रूप नहीं पेश करेगा - पुरुषों और महिलाओं को अलग-अलग मानदंडों के अनुसार चुना जाएगा।
कारोलिस कोनसेविसियस

हो सकता है, लेकिन यह एक कोशिश के काबिल होगा। यह पुरुषों के लिए बेहतर नियम भी बना सकता है, मशीन को आसान रास्ता नहीं देना।
kjetil b halvorsen

"और फिर एक समूह से 50% और दूसरे समूह से 50% चुनें।" जब मूल आबादी (दोनों संख्या और प्रोफ़ाइल के संदर्भ में) में असमानता है, तो इससे सकारात्मक भेदभाव नहीं होगा?
lcrmorin

2
@ Lcrmorin हां यह जरूर होगा। यही कारण है कि वे मतलब है " यह भी भेदभाव लिंग पर लेकिन किसी अन्य तरीके से आधारित होगा। "
उड़ानों

4

अमेज़न कहानी क्या दिखाती है कि पूर्वाग्रह से बचना बहुत कठिन है। मुझे संदेह है कि अमेज़ॅन ने इस समस्या के लिए लोगों को बेवकूफ बनाया, या कि उनके पास कौशल की कमी थी, या कि उनके पास पर्याप्त डेटा नहीं था, या उनके पास बेहतर मॉडल को प्रशिक्षित करने के लिए पर्याप्त एडब्ल्यूएस क्रेडिट नहीं थे। समस्या यह थी कि जटिल मशीन लर्निंग एल्गोरिदम डेटा में सीखने के पैटर्न में बहुत अच्छे हैं, लिंग पूर्वाग्रह ठीक उसी तरह का पैटर्न है। डेटा में पूर्वाग्रह थे, भर्ती के रूप में (सचेत या नहीं), इष्ट पुरुष उम्मीदवारों। मैं यहां यह नहीं कह रहा हूं कि अमेज़ॅन एक कंपनी है जो नौकरी के उम्मीदवारों के साथ भेदभाव करती है, मुझे यकीन है कि उनके पास हजारों भेदभाव-विरोधी नीतियां हैं और वे बहुत अच्छे नियोक्ताओं को भी नियुक्त करते हैं। इस तरह के पूर्वाग्रह और पूर्वाग्रह के साथ समस्या यह है कि कोई फर्क नहीं पड़ता कि आप इसे लड़ने की कितनी कोशिश करते हैं। मनोविज्ञान के कई प्रयोग हैं जो दिखाते हैं कि लोग पक्षपाती नहीं होने की घोषणा कर सकते हैं (जैसे नस्लवादी), लेकिन अभी भी पक्षपातपूर्ण कार्रवाई करते हैं, बिना इसे साकार किए। लेकिन आपके प्रश्न का उत्तर देते हुए, एल्गोरिथ्म जो पक्षपाती नहीं है, आपको उस डेटा के साथ शुरू करना होगा जो इस तरह के पूर्वाग्रह से मुक्त है। मशीन लर्निंग एल्गोरिदम डेटा में उनके द्वारा देखे गए पैटर्न को पहचानना और दोहराना सीखते हैं, इसलिए यदि आपके डेटा ने पक्षपातपूर्ण फैसले रिकॉर्ड किए हैं, तो एल्गोरिथम उन पूर्वाग्रह को सीख और बढ़ा देगा।

दूसरी चीज डेटा का प्रबंधन कर रही है। यदि आप अपने एल्गोरिथ्म को पक्षपाती निर्णय लेने के लिए सीखने से रोकना चाहते हैं, तो आपको उन सभी जानकारी को हटा देना चाहिए जो ब्याज के समूहों (यहां लिंग) में भेदभाव करने में मदद करेगी। इसका मतलब केवल लिंग के बारे में जानकारी को हटाना नहीं है, बल्कि उन सभी सूचनाओं को भी बताया जा सकता है, जो लिंग की पहचान कर सकती हैं, और यह बहुत सारी चीजें हो सकती हैं। नाम और फोटो जैसे स्पष्ट हैं, लेकिन अप्रत्यक्ष भी हैं, उदाहरण के लिए फिर से शुरू में मातृत्व, लेकिन यह भी शिक्षा (क्या होगा अगर कोई केवल लड़कियों के स्कूल में चला गया?), या यहां तक ​​कि नौकरी के इतिहास (कहते हैं कि आपकी कंपनी में भर्ती करने वाले पक्षपाती नहीं हैं? , लेकिन क्या होगा अगर हर दूसरे भर्ती से पहले पक्षपाती था, इसलिए कार्य इतिहास उन सभी पक्षपाती निर्णयों को दर्शाता है?), आदि जैसे कि हम देख सकते हैं,

2. और 3. प्रश्नों के बारे में, कोई आसान उत्तर नहीं है और मैं उन्हें विस्तार से उत्तर देने की कोशिश करने में सक्षम महसूस नहीं करता। समाज में पूर्वाग्रह और पूर्वाग्रह दोनों पर साहित्य का टन है, और एल्गोरिथम पूर्वाग्रह के बारे में। यह हमेशा जटिल होता है और दुर्भाग्य से, इसके लिए कोई सरल नुस्खा नहीं है। Google की तरह कंपनियां, उन विशेषज्ञों को नियुक्त करती हैं जिनकी भूमिका एल्गोरिदम में इस तरह के पूर्वाग्रह की पहचान और रोकथाम कर रही है।


1
हर चीज को हटाने के लिए एक विकल्प जो मॉडल के बीच भेदभाव करने में मदद करता है (संक्षिप्तता के लिए) लिंग आपके मॉडल को लिंग के साथ प्रशिक्षित करने के लिए हो सकता है, फिर जब भविष्यवाणी (या जो भी) दो बार भविष्यवाणी चलती है, एक बार प्रत्येक लिंग के साथ, परिणामों का औसत।
jbowman

@ जंबोमैन थोड़ी व्याख्यात्मक परिणाम में परिणामी है, और समय के साथ-साथ अंतर्निहित गैसों का स्थिरीकरण।
एलेक्सिस

अमेज़ॅन केस किसी भी तरह से निर्णायक रूप से पूर्वाग्रह नहीं दिखाता है। यह केवल स्टीरियोटाइप सटीकता के रूप में जानी जाने वाली घटना हो सकती है । कभी-कभी लक्षण वास्तव में जनसांख्यिकीय चर के साथ सहसंबंधित होते हैं। यहाँ एक उदाहरण है। आप जानते हैं कि व्यक्ति X युवा और मध्यम वर्ग है। हिंसक अपराध करने की कितनी संभावना है? अब मैं आपको एक और जानकारी देता हूं: उनका सेक्स। क्या इससे संभावना बदल जाती है? बेशक। क्या वह पूर्वाग्रह है ? बिलकूल नही। यह वही है जिसे स्टीरियोटाइप सटीकता के
उड़ानों

1
@ और इसी तरह भेदभाव होता है ... मादा औसत से कम कमाती हैं, तो चलो उन्हें कम भुगतान करें! भेदभावपूर्ण एल्गोरिदम नहीं होने का पूरा बिंदु यह है कि आपको ऐसी जानकारी का उपयोग करने के लिए नहीं करना चाहिए , भले ही यह काम करने के लिए लगता है। इसके अलावा, अगर अक्सर सामाजिक पूर्वाग्रह के कारण काम करता है (जैसे हम पुरुषों को अधिक भुगतान करने के लिए तम्बू बनाते हैं, तो अफ्रीकी अमेरिकियन कोकेशियान अमेरिकियों की तुलना में ठीक उसी अपराध के लिए जेल जाने की संभावना है), इसलिए स्टीरियोटाइप सही है क्योंकि वहां स्टीरियोटाइप है, स्टीरियोटाइप ग्रुप की प्रकृति के कारण नहीं।
टिम

1
@ टिम नोप। जबकि आप जो कह रहे हैं, उसके अनुसार कुछ सत्य हो सकता है और बड़े पैमाने पर यह सच नहीं है। मैं आपसे ली जुसिम की पुस्तक "सोशल परसेप्शन एंड सोशल रियलिटी: व्हाईट एक्यूरेसी डोमिनेट्स बायस एंड सेल्फ- फुलिलिंग भविष्यवाणी" पढ़ने का आग्रह करता हूं । इस प्रमुख पुस्तक में लेखक मूल रूप से रूढ़िवादिता, पूर्वाग्रह, आत्मनिर्भर भविष्यवाणियों इत्यादि पर वैज्ञानिक साहित्य के पूरे शरीर की समीक्षा करता है। वह दिखाता है कि जो सबूत आप दिखा रहे हैं वह बताता है कि जो हो रहा है उसकी अल्पसंख्यक है।
उड़ानों

1
  1. क्या मुझे एक इनपुट के रूप में लिंग (या किसी भी डेटा को सहसंबद्ध) का उपयोग करना चाहिए और उनके प्रभाव को ठीक करने की कोशिश करनी चाहिए, या इन डेटा का उपयोग करने से बचना चाहिए?

इस प्रश्न के कई निहितार्थ हैं जो निम्नलिखित को उबालते हैं, क्या मैं एक सामाजिक इंजीनियर बनना चाहता हूं; एक कार्यकर्ता जिसकी भूमिका यथास्थिति को बदलने की है क्योंकि मैंने तय किया है कि समाज बीमार है और चिकित्सा की आवश्यकता है?इसका स्पष्ट उत्तर इस बात पर निर्भर करता है कि ऐसा परिवर्तन लाभकारी है या हानिकारक। उदाहरण के लिए, "नर्सिंग कर्मचारियों के लिए लैंगिक समानता से हमें क्या लाभ होगा?" हो सकता है कि पुरुषों में मूत्र कैथेटर डालने के लिए कम से कम एक पुरुष नर्स उपलब्ध हो, जिसमें 50% नर्सों के पुरुष होने की आवश्यकता नहीं होगी। तो, सोशल इंजीनियरिंग दृष्टिकोण विभिन्न संस्कृतियों, संदर्भों और ज्ञात लिंग पूर्वाग्रह के साथ समस्याओं की जांच करता है, और उस पूर्वाग्रह के मूल कारण (परिवर्तनों) से होने वाले कार्यात्मक लाभ प्रस्तुत करता है। यह निर्णय लेने की प्रक्रिया में एक आवश्यक कदम है। अब, प्रश्न 1. का उत्तर एक शानदार है, अर्थात, एक बार किसी ने यह तय कर लिया है कि समाज को फिक्सिंग की आवश्यकता है, एक बस एक स्टार जोड़ता है, या (नीचे देखें), महिला आवेदकों को, लेकिन इस बात से बहुत सावधान रहें कि आप क्या चाहते हैं क्योंकि यह सकारात्मक कार्रवाई है, जो कि स्वाभाविक रूप से भेदभावपूर्ण है। कोई भी AI परिणाम नए हायरिंग मानदंड को प्रतिबिंबित करने के लिए बदल जाएगा, एक बार जब वे एक नए कार्यात्मक मानदंड के रूप में स्थापित हो जाते हैं।

  1. मैं लिंग के खिलाफ भेदभाव की अनुपस्थिति की जांच कैसे करूं?

पर्याप्त मात्रा में, रेटिंग्स सौंपे जाने के बाद, कोई व्यक्ति पुरुषों और महिलाओं के लिए रेटिंग का वितरण क्या है और उनकी तुलना करता है, यह देखने के लिए एक पोस्ट हॉक विश्लेषण करता है ।

  1. मैं आंकड़ों के लिए अपने मॉडल को सही कैसे करूं जो सांख्यिकीय रूप से भेदभावपूर्ण हैं लेकिन मैं नैतिक कारणों से नहीं बनना चाहता हूं?

यह तथ्य के बाद, अर्थात, पोस्ट हॉक के अनजाने में किया जाता है । फोरथॉट भी आवश्यक है, लेकिन जिस प्रकार के फोरथॉट की सबसे अधिक आवश्यकता है, वह समीक्षकों द्वारा जांचने का एक ठोस प्रयास है कि सामाजिक इंजीनियर की धारणाएं क्या हैं। यही है, यह मानते हुए (तर्क के लिए, नीचे देखें) यह सभी लिंग पूर्वाग्रह को खत्म करने के लिए सामाजिक रूप से न्यायोचित होने के लिए है, एक केवल पुरुषों के समान समान वितरण का पालन करने के लिए महिला रेटिंग को समायोजित करता है। शिक्षण व्यवसाय में इसे एक वक्र पर ग्रेडिंग कहा जाएगा। इसके अलावा, मान लें कि लिंग पूर्वाग्रह का पूर्ण उन्मूलन करने के लिए यह वांछनीय नहीं हो सकता है (ऐसा करने के लिए बहुत विघटनकारी हो सकता है), तो कोई पूर्वाग्रह का आंशिक उन्मूलन कर सकता है, उदाहरण के लिए, प्रत्येक देशी महिला का एक जोड़ीदार वजन औसत रेटिंग और इसकी पूरी तरह से सही रेटिंग, जो कुछ भी वजन के साथ एक इच्छा है कि जो सोचा है (या परीक्षण किया जा रहा है) कम से कम हानिकारक और / या सबसे अधिक लाभकारी है।

लिंग असमानता को नीतियों को अकेले काम पर रखने से ठीक से बदला नहीं जा सकता है क्योंकि कुछ क्षेत्रों में महिला उम्मीदवारों की सापेक्ष कमी है। उदाहरण के लिए, पोलैंड में, 2018 में 14.3% आईटी छात्र महिलाएं थीं और ऑस्ट्रेलिया में 17% । एक बार काम पर रखने के बाद, तकनीक-गहन उद्योगों में महिलाओं की अवधारण समस्याग्रस्त थी (31% पुरुषों की तुलना में 53% महिलाओं की तुलना में उच्च-दरों पर तकनीक-गहन उद्योगों में व्यावसायिक भूमिका वाली महिलाएं अन्य उद्योगों के लिए छोड़ देती हैं।) इस प्रकार, महिला नौकरी से संतुष्टि हो सकती है। अकेले पॉलिसी को हायर करने से ज्यादा महत्वपूर्ण है। कार्यस्थल में महिलाओं के किसी विशेष प्रतिशत होने के लिए सबसे पहले एक ठोस लाभ की पहचान करने की आवश्यकता है, और इस बारे में कुछ संकेत हैं, उदाहरण के लिए, 2016 में, कॉर्पोरेट बोर्ड (16%) पर महिलाएं अपने पुरुष समकक्षों (9%) की तुलना में लगभग दोगुनी थीं, 518 फोर्ब्स ग्लोबल 2000 कंपनियों के बीच पेशेवर प्रौद्योगिकी अनुभव है। इस प्रकार तकनीक-सहजता पुरुष निवल मूल्य की तुलना में महिला को अधिक योगदान देती है। इस चर्चा से, यह स्पष्ट होना चाहिए कि लिंग को विशिष्ट धारणा बनाने से पहले, एक विशेष प्रयास को निर्देशित किया जाना चाहिए ताकि विशिष्ट नीतियों के अधिक वैश्विक ठोस लाभों की पहचान की जा सके, जिनमें से केवल एक छोटी, महत्वपूर्ण, भाग, और शायद सबसे महत्वपूर्ण नहीं है प्रस्थान बिंदू। यह उत्तरार्ध काफी हद तक किराए की अवधारण है क्योंकि टर्नओवर नैतिक के लिए बुरा है और काम पर रखने में लिंग पूर्वाग्रह का मूल कारण हो सकता है।

मेरे प्रबंधन के अनुभव ने मुझे सिखाया है कि काम के उत्पादन में छोटे बदलाव (जैसे 10-20%) अंततः प्रतीक्षा सूचियों को समाप्त करने में काफी प्रभावी हैं, अर्थात्, कर्मचारियों की संख्या को दोगुना करने के लिए तुरंत आउटपुट संख्या में 100% वृद्धि करने की कोई आवश्यकता नहीं है यह प्रतीक्षा सूची को केवल एक छोटे से परिवर्तन की तुलना में थोड़ा तेज करेगा, लेकिन फिर विघटनकारी होगा क्योंकि कर्मचारी बाद में इस उम्मीद के साथ खड़े होंगे कि काम दरवाजे पर चलेगा। यही है, अगर कोई सामाजिक इंजीनियरिंग करने का फैसला करता है, तो पूर्ण सुधार का प्रयास करना हानिकारक हो सकता है; यह उस तरह से काम नहीं करता है। कोशिश करें कि एक सेलबोट में अचानक कोर्स सुधार के साथ, और एक व्यक्ति तैराकी के अभ्यास को पूरा कर सकता है। लिंग पूर्वाग्रह (यदि पर्चे फिट बैठता है) के इलाज के लिए समकक्ष, केवल महिलाओं को किराए पर लेना होगा। यह समस्या को हल करेगा (और दूसरों को बनाएगा)। इसलिए,

सारांश में, प्रभावशाली सामाजिक इंजीनियरिंग के लिए जटिल परिस्थितियों के लिए एक समग्र दृष्टिकोण की आवश्यकता होती है, और केवल यह पहचानना कि कोई समस्या हो सकती है हमें नहीं बताती है कि एक है, हमें यह नहीं बताता है कि यह क्या कारण है, हमें यह नहीं बताता कि इसे कैसे ठीक किया जाए, और वास्तव में यह सब हमें बताता है कि हमें अपनी सोच के आधार पर रखना होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.