क्या एक शैक्षणिक सेटिंग में लवलेश टेस्ट 2.0 का सफलतापूर्वक उपयोग किया गया है?


18

अक्टूबर 2014 में, डॉ। मार्क रिडेल ने मूल लवलेस टेस्ट (2001 में प्रकाशित) से प्रेरित होने के बाद , AI बुद्धि का परीक्षण करने के लिए एक दृष्टिकोण प्रकाशित किया, जिसे "लवलेस टेस्ट 2.0" कहा गया । मार्क का मानना ​​था कि मूल लवलेस टेस्ट पास करना असंभव होगा, और इसलिए, एक कमजोर और अधिक व्यावहारिक संस्करण का सुझाव दिया।

लवलेस टेस्ट 2.0 यह धारणा बनाता है कि एआई के बुद्धिमान होने के लिए उसे रचनात्मकता का प्रदर्शन करना चाहिए। कागज से ही:

लवलेस 2.0 टेस्ट इस प्रकार है: कृत्रिम एजेंट को निम्नानुसार चुनौती दी जाती है:

  • टाइप टी का एक विरूपण साक्ष्य बनाना चाहिए;

  • o बाधाओं का एक सेट के अनुरूप होना चाहिए C जहां C ∈ C प्राकृतिक भाषा में अभिव्यक्त कोई मानदंड है;

  • एक मानव मूल्यांकक h, t और C को चुना है, इस बात से संतुष्ट है कि o t का एक मान्य उदाहरण है और C से मिलता है; तथा

  • एक मानव रेफरी आर एक औसत मानव के लिए अवास्तविक नहीं होने के लिए टी और सी के संयोजन को निर्धारित करता है।

चूंकि एआई को हरा देने के लिए मानव मूल्यांकनकर्ता के लिए कुछ बहुत आसान बाधाओं के साथ आना संभव है, मानव मूल्यांकनकर्ता को तब एआई के लिए अधिक से अधिक जटिल बाधाओं के साथ आने की उम्मीद है जब तक कि एआई विफल नहीं हो जाता। लवलेस टेस्ट 2.0 का उद्देश्य अलग-अलग एआई की रचनात्मकता की तुलना करना है, न कि ट्यूरिंग टेस्ट की तरह 'खुफिया' और 'नॉनइंटेलिजेंस' के बीच एक निश्चित विभाजन रेखा प्रदान करना।

हालाँकि, मुझे इस बात की उत्सुकता है कि क्या यह परीक्षण वास्तव में अकादमिक सेटिंग में उपयोग किया गया है, या इसे केवल एक सोचा प्रयोग के रूप में देखा जाता है। लवलेस टेस्ट अकादमिक सेटिंग्स में लागू करना आसान लगता है (आपको केवल कुछ औसत दर्जे की बाधाओं को विकसित करने की आवश्यकता है जिन्हें आप कृत्रिम एजेंट का परीक्षण करने के लिए उपयोग कर सकते हैं), लेकिन यह बहुत अधिक व्यक्तिपरक हो सकता है (मनुष्य कुछ निश्चित बाधाओं के गुणों पर असहमत हो सकता है, और चाहे एक AI द्वारा निर्मित एक रचनात्मक कलाकृति वास्तव में अंतिम परिणाम से मिलती है)।

जवाबों:


5

नहीं।

टीएल; डीआर: लवलेस टेस्ट 2.0 बहुत अस्पष्ट है, जो इसे बुद्धि के मूल्यांकन के लिए बीमार अनुकूल बनाता है। यह आमतौर पर कम्प्यूटेशनल रचनात्मकता के शोधकर्ताओं द्वारा भी अनदेखा किया जाता है, जिनके पास रचनात्मकता का मूल्यांकन करने के लिए पहले से ही अपने परीक्षण हैं।

लंबा उत्तर: Google विद्वान के अनुसार, "लवलेस टेस्ट 2.0" पेपर के 10 संदर्भ हैं। वे सभी संदर्भ केवल यह बताने के लिए मौजूद हैं कि लवलेस टेस्ट 2.0 मौजूद है। वास्तव में, मैंने कम से कम दो लेखों की सलाह ली ( मानव-जैसे आत्म-सचेत व्यवहार और फ्रामोइटेक की पहचान के लिए एक उपन्यास दृष्टिकोण : एडाप्टिव कंट्रोल सिस्टम के मूल्यांकन के लिए मॉड्यूलर टास्क-एनवायरनमेंट कंस्ट्रक्शन के लिए एक फ्रेमवर्क ) ने अपने स्वयं के परीक्षणों का प्रस्ताव रखा ।

FraMoTEC पेपर लिखने वाले लेखकों में से एक ने भी FraMoTEC पर अपनी थीसिस लिखी , और अप्रत्यक्ष रूप से लवलेस टेस्ट 2.0 और इसी तरह के अन्य परीक्षणों की आलोचना की:

पियागेट-मैकगाइवर रूम की समस्या [ब्रिंगजॉर्ड और लाइसेंसेटो, 2012], लवलेस टेस्ट 2.0 [रीडल, 2014] और टॉय बॉक्स की समस्या [जॉनसन, 2010] सभी बहुत अस्पष्ट रूप से परिभाषित होने के कगार के साथ आते हैं - इन मूल्यांकन विधियों के आने की संभावना हो सकती है बुद्धि के लिए एक उचित मूल्यांकन के साथ, लेकिन दो अलग-अलग एजेंटों (या नियंत्रकों) की तुलना करना बहुत मुश्किल है जो अपने स्वयं के डोमेन-विशिष्ट मूल्यांकन में भाग लेते हैं, जो कि अक्सर तब होता है जब एजेंट विशिष्ट मूल्यांकन पास करने के लिए अनुकूलित होते हैं।

लवलेस टेस्ट 2.0 के साथ एक और प्रमुख मुद्दा यह है कि एआई की रचनात्मकता को "मापने" के लिए अन्य परीक्षणों का प्रसार है । मूल्यांकन का मूल्यांकन: कम्प्यूटेशनल क्रिएटिविटी रिसर्च में प्रगति का आकलन , 2011 में अन्ना जॉर्डन द्वारा प्रकाशित (3 साल पहले लवलेस टेस्ट 2.0 के आविष्कार के बाद) ने एआई रचनात्मकता के बारे में शोध पत्रों का विश्लेषण किया और लिखा:

अपनी प्रणाली की रचनात्मकता का मूल्यांकन करने के लिए रचनात्मकता के मूल्यांकन के तरीकों को लागू करने वाले 18 पत्रों में से, कोई भी कार्यप्रणाली पूरे समुदाय में मानक के रूप में नहीं उभरी। Colton के रचनात्मक तिपाई ढांचे ( Colton 2008 ) का इस्तेमाल अक्सर (6 उपयोग) किया गया था, जिसमें Ritchie के अनुभवजन्य मानदंड ( Ritchie 2007 ) का उपयोग करते हुए 4 पेपर थे ।

पत्ते कि 10 विविध रचनात्मकता मूल्यांकन के तरीकों के साथ कागजात।

"मूल्यांकन मूल्यांकन" का लक्ष्य रचनात्मकता का मूल्यांकन करने की प्रक्रिया का मानकीकरण करना था, ताकि बहुत सारे रचनात्मकता परीक्षणों के प्रसार के कारण क्षेत्र के स्थिर होने की संभावना से बचा जा सके। अन्ना जॉर्डनस अभी भी रचनात्मकता परीक्षणों के मूल्यांकन में रुचि रखते थे, "स्टेपिंग बैक टू प्रोग्रेस फ़ॉरवर्ड: सेटिंग स्टैंडर्ड्स फॉर मेटा- इवैलुएशन ऑफ़ कम्प्यूटेशनल क्रिएटिविटी" और कम्प्यूटेशनल क्रिएटिविटी पर चार पीपीपीपरस्पेक्टिव्स

"मूल्यांकन का मूल्यांकन" रचनात्मकता का मूल्यांकन करने के लिए प्रणालियों के प्रसार की व्याख्या करने के लिए कुछ टिप्पणी प्रदान करता है:

मूल्यांकन मानकों को परिभाषित करना आसान नहीं है। रचनात्मकता का मूल्यांकन करना और इससे भी अधिक कठिन है कि हम रचनात्मकता का मूल्यांकन कैसे करें, मानव रचनात्मकता के साथ-साथ कम्प्यूटेशनल रचनात्मकता में भी। वास्तव में, यहां तक ​​कि रचनात्मकता की बहुत परिभाषा समस्याग्रस्त है (प्लकर, बेगेटो, और डॉव 2004)। यह पहचानना कठिन है कि 'रचनात्मक' क्या होता है, इसलिए इसके खिलाफ कोई बेंचमार्क या जमीनी सच्चाई नहीं है।

तथ्य यह है कि रचनात्मकता के इतने सारे परीक्षण पहले से ही मौजूद हैं (इस हद तक कि जोर्डस उनका अध्ययन करने में एक अकादमिक कैरियर बना सकते हैं) का अर्थ है कि किसी भी नए परीक्षण (जैसे कि लवलेस टेस्ट 2.0) के लिए यह बहुत मुश्किल है, यहां तक ​​कि ध्यान दिया जाना चाहिए (बहुत कम उद्धृत )। जब आप इसके बजाय कई अन्य परीक्षण कर सकते हैं तो आप लवलेस टेस्ट 2.0 जैसी किसी वस्तु का उपयोग क्यों करना चाहेंगे?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.