मशीन लर्निंग प्राइम नंबरों को क्यों नहीं पहचान सकती?


13

मान लें कि हमारे पास परिमाण n, V_n के किसी भी पूर्णांक का वेक्टर प्रतिनिधित्व है

यह वेक्टर मशीन लर्निंग एल्गोरिदम का इनपुट है।

पहला सवाल: तंत्रिका नेटवर्क या कुछ अन्य वेक्टर-टू-बिट एमएल मैपिंग का उपयोग करके n की मौलिकता / संरचना जानने के लिए किस प्रकार के निरूपण संभव हैं। यह विशुद्ध रूप से सैद्धांतिक है - तंत्रिका नेटवर्क संभवतः आकार में अनबाउंड हो सकता है।

आइए उन अभ्यावेदन को नजरअंदाज करें जो पहले से ही मौलिकता परीक्षण से संबंधित हैं जैसे: n के कारकों की अशक्त पृथक सूची, या मिलर राबिन जैसे रचनाकार गवाह का अस्तित्व। आइए इसके बजाय विभिन्न मूलों में अभ्यावेदन पर ध्यान केंद्रित करें, या (संभवतः बहुभिन्नरूपी) बहुपद के गुणांक वैक्टर के रूप में अभ्यावेदन। या अन्य विदेशी के रूप में प्रस्तुत कर रहे हैं।

दूसरा प्रश्न: क्या, यदि कोई हो, के लिए एमएल एल्गोरिथ्म के प्रकार प्रतिनिधित्व वेक्टर की बारीकियों की परवाह किए बिना यह सीखना असंभव होगा? फिर, आइए छोड़ें 'तुच्छता से निषिद्ध' जो उदाहरण ऊपर दिए गए हैं।

मशीन लर्निंग एल्गोरिदम का आउटपुट एक एकल बिट, प्राइम के लिए 0, कंपोजिट के लिए 1 है।

इस प्रश्न का शीर्षक मेरे आकलन को दर्शाता है कि प्रश्न 1 के लिए आम सहमति 'अज्ञात' है और प्रश्न 2 के लिए सर्वसम्मति 'संभवतः अधिकांश एमएल एल्गोरिदम' है। मैं यह पूछ रहा हूं क्योंकि मुझे इससे ज्यादा कोई जानकारी नहीं है और मैं उम्मीद कर रहा हूं कि कोई ऐसा कर सकता है।

मुख्य प्रेरणा, अगर वहाँ एक है, इस सवाल का है: क्या वहाँ एक 'सूचना सिद्धांत' की सीमा है कि एक विशेष आकार के तंत्रिका नेटवर्क में कब्जा कर लिया जा सकता है सेट के ढांचे की संरचना? जैसा कि मैं इस तरह की शब्दावली में विशेषज्ञ नहीं हूं, मुझे इस विचार को कुछ बार फिर से समझने दें और देखें कि क्या मुझे इस अवधारणा के लिए एक मोंटे-कार्लो सन्निकट मिल गया है: क्या primes के सेट की एल्गोरिथम जटिलता है? क्या तथ्य यह है कि प्राइम्स डायोफैंटाइन रिकर्सिवली एनुमेरबल हैं (और एक विशेष बड़े डियोफैटिन समीकरण को संतुष्ट कर सकते हैं ) का उपयोग ऊपर वर्णित इनपुट और आउटपुट के साथ तंत्रिका नेटवर्क में समान संरचना को पकड़ने के लिए किया जा सकता है।


12
सिद्धांत के दृष्टिकोण से, आपकी समस्या अच्छी तरह से परिभाषित नहीं है। मशीन लर्निंग एल्गोरिदम के इनपुट क्या हैं? वे कैसे उत्पन्न होते हैं? एल्गोरिथ्म अपने शिक्षण कार्य से पहले क्या जानता है?
लेव Reyzin

3
मुझे नहीं लगता कि यह इस साइट के लिए अपने मौजूदा रूप में एक अच्छा सवाल है।
केवह

4
यह। लेकिन मशीन लर्निंग में हम डेटासेट परीक्षण में त्रुटि को कम करना चाहते हैं। अब, यदि आप [ 1] पर प्रशिक्षण देते हैं ,सीख सकते हैं f ( n ) = n - n + ४१ और जो कि संख्या ४१ के लिए पूरी तरह से काम करता है। लेकिन इसके बाद इसका प्रदर्शन अच्छा नहीं रहा है। लोगों ने यह कोशिश की है (मैन्युअल रूप से :-)) और अब तकबहुत सफलता के बिना। एमएल में हम पैटर्न खोजने की कोशिश करते हैं लेकिन क्या होगा अगर कोई पैटर्न नहीं है? [1,20]f(n)=n2n+4141
प्रतीक देवघर

1
आप पूछ रहे हैं कि क्या एक एल्गोरिथ्म है जो प्राकृतिक संख्याओं के परिमित अनुक्रमों से एक फ़ंक्शन देता है, जो प्राकृतिक संख्याओं की भविष्यवाणी करता है, एल्गोरिदम पर अतिरिक्त बाधाओं के अधीन, primality predicate को primes के अनुक्रम को सही ढंग से आउटपुट कर सकता है। यदि संभव हो तो अपने प्रतिबंध को और अधिक गैर-तुच्छ बनाना है। यदि आप इसे सटीक बनाने का प्रयास करते हैं, तो आप देख सकते हैं।
विजय डी

1
एक सरल उत्तर, क्योंकि प्राइम नंबर फ़ंक्शन f के खोज स्थान को अनुमानित करना मुश्किल हैSf आप देख रहे हैं (यह है कि, देता है 1 यदि n हर के लिए अन्यथा प्रधानमंत्री है और 0 एन )। @PratikDeoghare टिप्पणी के संबंध में, एस में एक पैटर्न खोजना मुश्किल है । f(n)nnS
AJed

जवाबों:


-8

यह एक पुराना प्रश्न / समस्या है जिसमें कई, कई सिद्धांत, संख्या सिद्धांत, गणित, TCS और विशेष रूप से स्वचालित थ्येम प्रोविंग में गहरे संबंध हैं। [५]

पुराने, निकट-प्राचीन प्रश्न है, "क्या कंप्यूटिंग कंप्यूटिंग के लिए कोई फार्मूला है"

इसका उत्तर है, हां, एक अर्थ में, इसकी गणना करने के लिए विभिन्न एल्गोरिदम हैं ।

रीमान ज़ेटा फ़ंक्शन को प्रिज़्म खोजने के लिए "एल्गोरिथ्म" के रूप में पुन: पेश किया जा सकता है।

मेरे लिए यह संभव प्रतीत होता है कि एक जीए, आनुवंशिक-एल्गोरिथ्म दृष्टिकोण इस समस्या पर किसी दिन एक सरल सेटअप के साथ सफल हो सकता है, अर्थात जीएएस निकटतम ज्ञात तकनीक है जो सफल होने की सबसे अधिक संभावना है। [६] [a] उदाहरणों के एक निश्चित सेट से एक एल्गोरिथ्म खोजने की अपनी समस्या, यानी मशीन लर्निंग, जो गणितीय प्रेरण के समान है। हालाँकि अभी तक संख्या सिद्धांत में GA के अनुप्रयोग में अधिक शोध नहीं हुआ है।

मौजूदा साहित्य में इसके सबसे निकट उदाहरण [8] प्रतीत होता है, जो ट्विन प्राइम अनुमान को स्वचालित तरीके से विकसित करने की चर्चा करता है, जिसका अर्थ है "स्वचालित अनुमान बनाना"।

एक अन्य दृष्टिकोण एक प्रोग्राम है जिसमें मानक पूर्णांक अनुक्रमों को पहचानने के लिए कुछ परिष्कृत रूपांतरण तर्क के साथ मानक कार्यों की एक बड़ी संख्या है। यह एक नया समारोह है जिसे मैथमेटिका में बनाया गया है जिसे findsequence[3] कहा जाता है।

यह "प्रायोगिक गणित" [9,10] नामक एक अपेक्षाकृत नए क्षेत्र से भी जुड़ा है या जिसे टीसीएस में "अनुभवजन्य" शोध भी कहा जाता है।

यहां एक और मूल बिंदु यह है कि अपराधों का क्रम "सुचारू" नहीं है, अत्यधिक अनियमित, अराजक, भग्न और मानक मशीन लर्निंग एल्गोरिदम ऐतिहासिक रूप से संख्यात्मक अनुकूलन और न्यूनतम त्रुटि (जैसे ढाल वंश) पर आधारित हैं, और ऐसा नहीं करते हैं असतत समस्याओं के सटीक उत्तर खोजने पर अच्छी तरह से। लेकिन फिर से जीए सफल हो सकते हैं और इस क्षेत्र / शासन में सफल होने के लिए दिखाए गए हैं।

[१] nth प्राइम के लिए एक गणित eqn है, math.se

[२] primes , विकिपीडिया के लिए सूत्र

[३] वुल्फराम खोज कार्य करता है

[४] रीमान ज़ेटा फंक्शन

[५] स्वचालित प्रमेय की शीर्ष सफलताएँ सिद्ध होती हैं

[६] वास्तविक दुनिया में आनुवंशिक एल्गोरिदम के अनुप्रयोग

[[] वांग द्वारा साबित किए गए स्वचालित thm में आनुवंशिक एल्गोरिदम लागू करना

[[] एचआर, ओटर और मेपल कॉलन का उपयोग करके नंबर थ्योरी में स्वचालित अनुमान बनाना

[९] क्या टीसीएस में प्रायोगिक गणित के आवेदन आते हैं?

[१०] प्रयोगात्मक एल्गोरिदम पर एक पठन सूची


1
यह एक महान जवाब है। सुनिश्चित नहीं है कि साइट सहमत होगी, लेकिन यह वही था जो मैं देख रहा था। पुराने कनेक्शनों का पता लगाने और उम्र के लिए नई दिशाओं का एक गुच्छा। धन्यवाद, वास्तव में सराहना करते हैं। विशेष रूप से जीए। इसके अलावा, आप मशीन लर्निंग और 'प्रिम्स के लिए फॉर्मुलर' से सामान्यीकृत लाइनों के बीच पढ़ते हैं। यह बहुत मददगार धन्यवाद है।
संकट स्ट्रींगफेलो

11
@ क्रिस, इस जवाब में लगभग कुछ भी नहीं है जो मशीन सीखने के बारे में है। आर्येह के उत्तर पर आपकी टिप्पणी से ऐसा लगता है कि आप मशीन लर्निंग से परिचित नहीं हैं (क्या मैं पूछ सकता हूं कि आपने कहां देखा है कि मशीन ने उदाहरणों की सूची से प्राण परीक्षण जैसे एल्गोरिथ्म सीखे हैं?)
केवह

6
GA उसी अर्थ में एक मौलिकता परीक्षण एल्गोरिथ्म "सीख" सकता है जिसमें लौकिक अनंत बंदर एक दिन शेक्सपियर के पूर्ण कार्यों को टाइप करेंगे
सैशो निकोलेव

@ साशो, यह अभी तक प्रदर्शित नहीं हुआ है, लेकिन (हाँ, imho) इसकी संभवतः प्रौद्योगिकी में सीमाओं के कारण नहीं है, बल्कि प्रयास के अभाव में है। koza ने वीडियो गेम जैसे pacman (आदिम के लिस्प पेड़ के माध्यम से) के लिए जटिल एल्गोरिदम जीए "हल / सीखने" का प्रदर्शन किया, और उपकेंद्रों का उपयोग करके सर्किट का निर्माण भी किया। कि कम से कम primes खोजने के रूप में मुश्किल है? असली सवाल यह है कि सिस्टम में किस प्रकार के आदिम हैं, और वे कैसे आदिम हो सकते हैं और अभी भी समाधान ढूंढ सकते हैं?
vzn

19

प्रश्न, मेरी राय में, काफी अस्पष्ट है और इसमें कुछ गलतफहमी शामिल है, इसलिए यह उत्तर केवल सही शब्दावली प्रदान करने और आपको सही दिशा में इंगित करने का प्रयास करता है।

कंप्यूटर विज्ञान के दो क्षेत्र हैं जो सीधे ऐसी समस्याओं का अध्ययन करते हैं। प्रेरक आविष्कार और कम्प्यूटेशनल सीखने का सिद्धांत । दो क्षेत्र बहुत निकट से संबंधित हैं और भेद एक औपचारिक के बजाय एक सामाजिक और सौंदर्यवादी है।

AP(A)AAFP(A)

f:NA

iNf(i)=T, for some T in F.

तो, सकारात्मक डेटा की एक प्रस्तुति लक्ष्य अवधारणा की एक गणना है, जिसमें अक्सर कुछ अतिरिक्त निष्पक्षता की स्थिति होती है। आप इसी तरह एक प्रस्तुति के लिए पूछ सकते हैं जो शब्दों को लेबल करता है कि वे भाषा में हैं या नहीं। फिर से, आप सभी शब्दों की निष्पक्षता और कवरेज सुनिश्चित करने के लिए अतिरिक्त शर्तें जोड़ सकते हैं।

RepMRepL(M) । अभ्यावेदन के उदाहरण हैं बूलियन सूत्र, परिमित ऑटोमेटा, नियमित अभिव्यक्तियाँ, रैखिक समीकरणों की प्रणालियाँ, डोमेन विशिष्ट प्रोग्रामिंग भाषाएं, आदि। आप जो कुछ भी चाहते हैं, वास्तव में, विभिन्न शर्त को छोड़कर आमतौर पर यह सुनिश्चित करने के लिए लगाया जाता है कि प्रतिनिधित्व में बुनियादी ट्रैक्टिबिलिटी गुण हैं।

p:NRepL(p(i))f(j)jikjkL(p(j))=L(p(j+1)) यदि अंतिम भाषा लक्ष्य भाषा के बराबर होती है।

मुझे इस बात पर जोर देना चाहिए कि यह एक विशिष्ट शिक्षण मॉडल का केवल एक विशिष्ट औपचारिककरण है। लेकिन यह चरण शून्य है इससे पहले कि आप उन प्रश्नों को पूछना और अध्ययन करना शुरू कर सकें, जिनमें आप रुचि रखते हैं। सीखने वाले मॉडल को शिक्षार्थी और शिक्षक के बीच बातचीत की अनुमति देकर समृद्ध किया जा सकता है। भाषाओं के मनमाने परिवारों के बजाय, हम बहुत विशिष्ट भाषाओं, या यहां तक ​​कि विशिष्ट अभ्यावेदन (जैसे मोनोटोन बूलियन फ़ंक्शन) पर विचार कर सकते हैं। प्रत्येक मॉडल में आप क्या सीख सकते हैं और सीखने की जटिलता के बीच अंतर है। यहाँ एक मौलिक असंभवता परिणाम का एक उदाहरण है।

गोल्ड [१ ९ ६ fin] भाषाओं का कोई परिवार जिसमें सभी परिमित भाषाएं नहीं होती हैं और कम से कम एक सुपर-परिमित भाषा निष्क्रिय रूप से अकेले सकारात्मक ज्ञान से सीखी जाती है।

इस परिणाम की व्याख्या करने में बहुत सावधानी बरतनी चाहिए। उदाहरण के लिए, दाना एंग्लुइन ने 80 के दशक में दिखाया था

k

k

एंग्लुइन [1987] नियमित भाषाएं एक शिक्षक से सीखी जाती हैं जो समकक्ष प्रश्नों का उत्तर देती है और काउंटरटेक्मेन्स प्रदान करती है। एल्गोरिथ्म न्यूनतम डीएफए और अधिकतम प्रतिपक्ष की लंबाई के राज्यों के सेट में बहुपद है।

यह काफी मजबूत और सकारात्मक परिणाम है और हाल ही में कई एप्लिकेशन मिले हैं। हालांकि, जैसा कि हमेशा विवरण महत्वपूर्ण होता है, क्योंकि पहले से ही नीचे दिए गए पेपर का शीर्षक बताता है।

न्यूनतम सुसंगत डीएफए समस्या को भीतर और बहुपद , पिट और वार्मथ, 1989 में नहीं देखा जा सकता है

अब आप सोच रहे होंगे कि इसमें से कोई भी आपके प्रश्न के लिए प्रासंगिक कैसे है? जिस पर मेरा उत्तर है कि आपकी समस्या की गणितीय परिभाषा के लिए डिज़ाइन स्थान बहुत बड़ा है और इस स्थान में आपके द्वारा चुने गए विशिष्ट बिंदु उस तरह के उत्तरों को प्रभावित करने वाले हैं जो आपको मिलेंगे। उपरोक्त का मतलब सीखने की समस्या को औपचारिक रूप देने का व्यापक सर्वेक्षण नहीं है। यह सिर्फ उस दिशा को प्रदर्शित करने के लिए है जिसका आप जांच करना चाहते हैं। मेरे द्वारा उद्धृत सभी संदर्भ और परिणाम अत्यंत दिनांकित हैं, और तब से क्षेत्र ने बहुत कुछ किया है। बुनियादी पाठ्यपुस्तक हैं जिन्हें आप अपने प्रश्न को सटीक तरीके से तैयार करने के लिए पर्याप्त पृष्ठभूमि प्राप्त करने के लिए परामर्श कर सकते हैं और निर्धारित कर सकते हैं कि क्या जवाब आप पहले से मौजूद हैं।


यह महान @Vijay डी है, इसके लिए धन्यवाद।
संकट स्ट्रींगफेलो

यह एक बीमार गठित प्रश्न है। नीचे मेरा जवाब (और टिप्पणियाँ) दिखाते हैं कि क्यों। एमएल अपराधों को पहचान सकते हैं, लेकिन किसी भी व्यावहारिक अर्थ में, यह बहुत लंबा नहीं होगा। ऐसा उस विशेष जानवर की प्रकृति है।
डोमिनिक सेरिसानो

12

एक लर्निंग एल्गोरिथ्म की सफलता प्रतिनिधित्व पर गंभीर रूप से निर्भर करती है। आप एल्गोरिथ्म में इनपुट कैसे प्रस्तुत करते हैं? एक चरम मामले में, मान लीजिए कि आप संख्या को प्रमुख कारकों के अनुक्रम के रूप में प्रस्तुत करते हैं - इस मामले में, सीखना काफी तुच्छ है। एक और चरम में, संख्याओं को बाइनरी स्ट्रिंग्स के रूप में प्रतिनिधित्व करने पर विचार करें। मुझे पता है कि सभी मानक शिक्षण एल्गोरिदम यहाँ विफल होंगे। यहां एक है जो काम करेगा: सबसे छोटी ट्यूरिंग मशीन ढूंढें जो सभी सकारात्मक उदाहरणों को स्वीकार करता है और सभी नकारात्मक लोगों को अस्वीकार करता है। [व्यायाम: साबित करें कि यह एक सार्वभौमिक शिक्षार्थी है।] इसके साथ एक समस्या यह है कि कार्य ट्यूरिंग-कम्प्यूटेबल नहीं है। चीजों को परिप्रेक्ष्य में रखने के लिए, क्या आप केवल द्विआधारी प्रतिनिधित्व के आधार पर मौलिकता को पहचानना सीख सकते हैं ?


मिलर राबिन एल्गोरिथ्म, अगर मैं 'सीखता हूं', तो मैं बाइनरी प्रतिनिधि के आधार पर मौलिकता को पहचानना सीख सकता हूं। लेकिन मैं इस तरह की चीजों से आगे जाना चाहता हूं, और देखना है कि क्या कुछ और है। आपके द्वारा उल्लेखित कार्य ट्यूरिंग-कम्प्यूटेबल क्यों नहीं है?
क्राइस स्ट्रिंगफेलो

6
मुझे समझ में नहीं आता है कि कोई एक सीखने की समस्या के बारे में बात कैसे कर सकता है, उदाहरण के लिए, कार्यों के लक्ष्य वर्ग।
लेव Reyzin

1
लेव सही है, निश्चित रूप से - लेकिन मुझे लगा कि फ़ंक्शन कक्षाओं की चर्चा प्रश्न के दायरे से परे होगी ... :)
आर्येह

-1

यह समस्या आधुनिक शोध का हिस्सा है: दिए गए इनपुट और आउटपुट डेटा, सरलतम एल्गोरिथ्म ढूंढें जो इनपुट से आउटपुट का उत्पादन करता है। RNN नेटवर्क ट्यूरिंग-पूर्ण है, इसलिए सैद्धांतिक रूप से अंतहीन SGD द्वारा आप RNN में समाप्त हो सकते हैं जो इस कोड के बराबर है:

bool isPrime(int n, int d) {
    if(n<2)
        return 0;
    if(d == 1)
        return true;
    else 
    {
        if(n % d == 0) 
            return false;
        else
            return isPrime(n, d - 1);
    }
}

इस डेटासेट पर: 0 => 0, 1 => 0, 2 => 1, 3 => 1, 4 => 0, 5 => 1, ... आदि।

समस्या यह है कि हमारे पास SGD कनवर्जेन्स पर कोई व्यावहारिक रूप से विश्वसनीय सिद्धांत नहीं है और न ही अभिसरण या तंत्रिका नेटवर्क गहराई के लिए आवश्यक समय का कोई अनुमान है। लेकिन नवीनतम शोध से पता चलता है कि एक जैसी समस्याओं को हल किया जा सकता है:

https://en.wikipedia.org/wiki/Neural_Turing_machine

https://www.microsoft.com/en-us/research/wp-content/uploads/2017/10/curr_opin_sys_biol_17.pdf

https://www.microsoft.com/en-us/research/wp-content/uploads/2016/12/cav13.pdf

कीवर्ड के लिए Google विद्वान का उपयोग करें ...


-3

मशीन लर्निंग कंप्यूटिंग जटिलता के नियमों के अधीन है।

मुख्य कारक की समस्या एनपी जटिलता वर्ग में है, संभवतः एनपी-हार्ड (साबित नहीं) भी।

यही कारण है कि primes का पता लगाना मशीन सीखने में सबसे कठिन समस्याओं में से एक है, और उस दृष्टिकोण के साथ बिल्कुल भी संभव नहीं हो सकता है।

क्वांटम कंप्यूटर (QC) इसे बहुपद समय में कर सकते हैं, लेकिन शोर का बल-नियतत्ववाद है, मशीन सीखना नहीं।

संभवतः शोर के आधार पर एक QC सीखने का एल्गोरिथ्म एक दृष्टिकोण है। मैं वास्तव में सिर्फ सुझाव के साथ चट्टानों को पीट रहा हूं।


1
PRIMES P में है, इसलिए मैं यह नहीं कहूंगा कि "अपराध का पता लगाना" एमएल में सबसे कठिन समस्याओं में से एक है - या कंप्यूटर विज्ञान की किसी अन्य शाखा में, इस मामले के लिए। "यह सब प्रतिनिधित्व के बारे में है" घर के काफी करीब पहुंचता है - जैसा कि मेरे उत्तर और इसके नीचे की टिप्पणियों में बताया गया है।
आर्येह

माफ करना, पी P एनपी! PRIMES सह-एनपी है, और पी में इसे हल करने के लिए वर्तमान में किसी भी कंप्यूटिंग प्रतिमान में पूरी तरह से अनुपयोगी एक गैलेक्टिक एल्गोरिथ्म की आवश्यकता होगी - विशेष रूप से मशीन लर्निंग, कोई फर्क नहीं पड़ता कि आप इसका प्रतिनिधित्व कैसे करते हैं। किसी भी व्यावहारिक अर्थ में यह एनपी है, और संभवतः एनपी-हार्ड, धन्यवाद यूओ।
डोमिनिक सेरिसानो

1
@Birkensocks आप फैक्टरिंग के साथ Primality परीक्षण को जब्त करने के लिए प्रकट होते हैं। "PRIMES पी में है" वास्तव में उस कागज का नाम है जिसने पहली बार एक बहुपद-कालिक एल्गोरिथ्म प्रदान किया है जो कि primality, en.wikipedia.org/wiki/AKS_primality_test की जाँच करता है । यह भी ध्यान दें, कि फैक्टरिंग एनपी और सह-एनपी में है, इसलिए एनपी-हार्ड होने की संभावना बहुत कम है, उदाहरण के लिए देखें, blog.computationalcomplexity.org/2002/09/…
राहुल सावानी

हाँ मुझे लगता है कि मैंने पहले ही कहा था कि ...
डोमिनिक सेरिसानो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.