क्या न्यूनतम नियमित अभिव्यक्ति एनपी-पूर्ण समस्या का पता लगा रही है?


43

मैं निम्नलिखित समस्या के बारे में सोच रहा हूं: मैं एक नियमित अभिव्यक्ति ढूंढना चाहता हूं जो स्ट्रिंग्स के एक विशेष सेट (पूर्व वैध ईमेल पते के लिए) से मेल खाती है और दूसरों (अवैध ईमेल पते) से मेल नहीं खाती है।

मान लें कि नियमित अभिव्यक्ति से हमारा मतलब है कि कुछ अच्छी तरह से परिभाषित परिमित राज्य मशीन है, मैं सटीक शब्दावली से परिचित नहीं हूं, लेकिन आइए कुछ अभिव्यक्तियों के लिए अनुमति दी गई अभिव्यक्तियों पर सहमति दें।

अभिव्यक्ति को मैन्युअल रूप से तैयार करने के बजाय, मैं इसे सकारात्मक का एक सेट और नकारात्मक उदाहरणों का एक सेट देना चाहता हूं।

यह तब एक अभिव्यक्ति के साथ आना चाहिए जो कि + से मेल खाता है, - को अस्वीकार करता है और कुछ अच्छी तरह से परिभाषित अर्थों में न्यूनतम है (ऑटोमेटा में राज्यों की संख्या?)।

मेरे प्रश्न हैं:

  • क्या इस समस्या पर विचार किया गया है, इसे किसी और ठोस तरीके से कैसे परिभाषित किया जा सकता है और क्या इसे कुशलता से हल किया जा सकता है? क्या हम इसे बहुपद समय में हल कर सकते हैं? क्या यह एनपी पूर्ण है, क्या हम इसे किसी तरह अनुमानित कर सकते हैं? अभिव्यक्ति के किस वर्ग के लिए यह काम करेगा? मैं पाठ्यपुस्तकों, लेखों या इस विषय पर चर्चा करने वाले किसी भी सूचक की सराहना करूंगा।
  • क्या यह कोलमोगोरोव जटिलता के लिए किसी भी तरह से संबंधित है?
  • क्या यह किसी भी तरह से सीखने से संबंधित है? यदि नियमित अभिव्यक्ति मेरे उदाहरणों के अनुरूप है, तो यह न्यूनतम होने के नाते, क्या हम अभी तक अनदेखी उदाहरणों पर इसकी सामान्यीकरण शक्ति के बारे में कुछ कह सकते हैं? न्यूनतमता के लिए क्या मानदंड इसके लिए अधिक उपयुक्त होगा? कौन सा अधिक कुशल होगा? क्या इसका मशीन लर्निंग से कोई संबंध है? फिर से किसी भी संकेत सहायक होगा ...

गन्दे सवाल के लिए क्षमा करें ... यह पता लगाने के लिए मुझे सही दिशा में इंगित करें। धन्यवाद !


2
निम्न पृष्ठ प्रश्न के सीखने के पहलू के लिए बहुत प्रासंगिक लगता है: People.dsv.su.se/~henke/ML/MERLIN.html
Tsuyoshi Ito

1
… या शायद नहीं। वैसे भी DFA सीखने पर कई कार्य प्रतीत होते हैं।
Tsuyoshi Ito

जवाबों:


39

OPTkkP=NP

सीखने के सवाल के बारे में: केर्न्स और वैलिएंट ने साबित किया कि आप आरएसए को डीएफए में शामिल कर सकते हैं। इसलिए, भले ही लेबल किए गए उदाहरण समान वितरण से आते हैं, भविष्य के उदाहरणों के लिए सामान्यीकरण करने में सक्षम होने के बावजूद (समान वितरण से आने वाले) भी RSA को तोड़ देगा। इसलिए, हम सोचते हैं कि सबसे खराब स्थिति में, लेबल वाले उदाहरणों से डीएफए (पीएसी मॉडल में) सीखने में मदद नहीं मिलती है। यह सीखने के लिए क्लासिक क्रिप्टोग्राफ़िक कठोरता परिणामों में से एक है।

इन दोनों मुद्दों को आपस के रेज़र प्रमेय के नाम से जाना जाता है । यह मूल रूप से बताता है कि अगर हमारे पास किसी दिए गए वर्ग से सबसे छोटी परिकल्पना को खोजने के लिए एक प्रक्रिया है जो एक ही कक्षा से एक परिकल्पना द्वारा लेबल किए गए नमूने के अनुरूप है, तो हम पीएसी को उस कक्षा को सीख सकते हैं। इसलिए, आरएसए कठोरता परिणाम को देखते हुए, हम उम्मीद करेंगे कि सबसे छोटे सुसंगत डीएफए को खोजना सामान्य रूप से कठिन होगा!

एक सकारात्मक सीखने के परिणाम को जोड़ने के लिए, एंग्लुइन ने दिखाया कि यदि आप अपने स्वयं के उदाहरण बनाने के लिए उठते हैं तो आप डीएफए सीख सकते हैं, लेकिन इसके लिए अतिरिक्त शक्ति की आवश्यकता होती है जो यह पूछ सके कि "क्या मेरी वर्तमान परिकल्पना सही है?" यह सीखने में एक मौलिक पेपर भी था।

आपके अन्य प्रश्न का उत्तर देने के लिए, यह सब वास्तव में कोलमोगोरोव जटिलता से संबंधित है, क्योंकि सीखने की समस्या आसान हो जाती है, जब लक्ष्य डीएफए के जटिल प्रतिनिधित्व में कम जटिलता होती है।


3
आपने मुझे और अधिक हाल ही में, मजबूत परिणाम के साथ हराया! आप एक बेहतर उत्तर पोस्ट करना चाहिए बाद में !! 1 !!
२o पर त्सुयोशी इतो

अरे! माफ़ करना! मैं DFA सीखने पर काफी समय बिताया है कि मैं इस :) पर कूद करने के लिए किया था
लेव Reyzin

1
बस के मामले में, मैं अपनी पिछली टिप्पणी में मजाक कर रहा था। बेशक मैं एक बेहतर जवाब देखकर खुश हूं!
त्सुयोशी इतो

1
इसलिए दूसरे शब्दों में, इस समस्या के बीच महत्वपूर्ण अंतर और डीएफए के नियमित रूप से कम से कम होना नकारात्मक उदाहरणों की उपस्थिति है, हां?
सुरेश वेंकट

1
मुझे समझ नहीं आया नकारात्मक उदाहरण के बिना, सबसे छोटी संगत DFA सिर्फ 1 राज्य है - स्वीकार राज्य है जो अपने आप को अंक ...
लेव Reyzin

13

मैं सवाल के सीखने से संबंधित पहलुओं का जवाब देता हूं।

इस समस्या को साहित्य में "डीएफए अधिगम" कहा जाता है।

गोल्ड [गोल78] ने दिखाया कि यह तय करने के लिए एनपी-पूर्ण है, k ∈ℕ और दो परिमित सेट P और N तार के होते हैं, चाहे कोई भी परिमित परिमित राज्य ऑटोमेटन (DFA) सबसे अधिक k राज्यों में मौजूद हो, जो आपके तार को स्वीकार करता है P और N में कोई भी तार नहीं है । कागज [PH01] इस प्रेरणा से संबंधित समस्याओं पर चर्चा करता है (इसमें और भी बहुत कुछ हो सकता है; यह तब सामने आया जब मैंने Google के साथ प्रासंगिक पत्र खोजने की कोशिश की)।

संदर्भ

[गोल78] ई मार्क गोल्ड। दिए गए डेटा से ऑटोमेटन पहचान की जटिलता। सूचना और नियंत्रण , 37 (3): 302–320, जून 1978. http://dx.doi.org/10.1016/S0019-9958(78)90562-4

[PH01] राजेश पारेख और वसंत होनवर। सरल उदाहरणों से डीएफए सीखना। मशीन लर्निंग , 44 (1-2): 9–35, जुलाई 2001. http://www.springerlink.com/content/kr2501h2442l8mk1/ http://www.cs.iastate.edu/~honavar/Papers-parekh- dfa.pdf


1
प्रतिक्रिया के लिए धन्यवाद, मैं संदर्भों को देख रहा हूं। क्या मैं इस साइट पर एक से अधिक सर्वश्रेष्ठ उत्तर दे सकता हूं? :) फिर से, मैं शर्मिंदा हूं कि मैंने पूरे "डीएफए सीखने" उपक्षेत्र को याद किया, भले ही मैंने वर्षों तक मशीन सीखने का अध्ययन किया।
लेज़्ज़्लो कोज़मा

@steve: आप कर सकते हैं स्वीकार केवल एक ही जवाब है, लेकिन आप कर सकते हैं वोट के रूप में आप चाहते हैं कई जवाब के रूप में।
जुल्का सुमेला

2
ध्यान दें कि [Gold78] यह भी बताता है कि DFA को बहुपद समय (सीमा में पहचान के सीखने की रूपरेखा के अंदर) में सीखा जा सकता है। एक अवलोकन के लिए व्याकरण संबंधी आविष्कार ( Pagesperso.lina.univ-nantes.fr/~cdlh/book_webpage.html ) पर हाल की पुस्तक भी देखें ।
एमजीलेट

@mgalle: अतिरिक्त जानकारी के लिए धन्यवाद।
अक्टूबर को त्सुयोशी इतो

8

इस चर्चा के दौरान, यह माना गया है कि भाषा को मान्यता देने वाले न्यूनतम एफएसएम को खोजने के लिए एक न्यूनतम नियमित अभिव्यक्ति मात्रा का पता लगाना, लेकिन ये दोनों अलग-अलग चीजें हैं। अगर मुझे सही तरीके से याद है, तो एक डीएफए को बहुपद समय में कम से कम किया जा सकता है, जबकि एक न्यूनतम नियमित अभिव्यक्ति ढूंढना जो किसी दिए गए नियमित भाषा का प्रतिनिधित्व करता है, PSPACE- हार्ड है। उत्तरार्द्ध उन परिणामों में से एक है जो ऑटोमेटा सिद्धांत के लोककथाओं से संबंधित हैं, लेकिन जिसका प्रमाण कहीं भी नहीं मिल सकता है। मुझे लगता है कि इसे पापाडीमिट्रू की पुस्तक में एक अभ्यास के रूप में कहा गया है।


1
यह सही है कि नियमित अभिव्यक्ति की लंबाई और डीएफए में राज्यों की संख्या अलग-अलग उद्देश्य हैं। मैंने डीएफए न्यूनतमकरण के बारे में उत्तर दिया क्योंकि इसमें एक अच्छा संपत्ति है (उदाहरण के लिए, राज्यों की न्यूनतम संख्या के साथ एक अद्वितीय डीएफए है) और जिस तरह से प्रश्न में कहा गया था कि मुझे यह धारणा मिली कि सटीक उद्देश्य फ़ंक्शन लचीला था।
त्सुशी जोतो

यादृच्छिक टिप्पणी: इस तथ्य को देखते हुए कि आकार एफ (एन) के एक नियमित अभिव्यक्ति को आकार ओ (एफ (एन)) के एनएफए द्वारा अनुकरण किया जा सकता है, नियमित अभिव्यक्ति को कम करना एनएफए को कम करना अधिक पसंद है, जो स्पष्ट रूप से कठिन है।
Hsien-Chih चांग 之 '

इस में से कुछ के लिए टिप्पणियों में संबोधित किया जाता है @ कीथ के जवाब
लेव Reyzin

2

इस स्टैक ओवरफ्लो पोस्ट को भी देखें जिस पुस्तक को आप देख रहे हैं, वह माइकल सिपर द्वारा कम्प्यूटेशन के सिद्धांत का परिचय है

आप कुछ अलग-अलग प्रश्नों को पूछ रहे हैं, इसलिए उन्हें एक बार में एक:

Is finding a minimal Finite State Machine for a language L NP-complete?

नहीं, यह नहीं है। स्टैक ओवरफ्लो पोस्ट एक FSM को कम से कम आकार के लिए कम करने के लिए एक भोली n ^ 2 एल्गोरिथ्म पर चर्चा करता है। (स्टॉप स्टेट्स से बैकवर्ड काम करना, एक सटीक अर्थ में "समान" हैं राज्यों को मिलाएं।)

जाहिरा तौर पर (मैंने लिंक का पालन नहीं किया), ऐसा करने के लिए एक एन लॉग एन एल्गोरिथ्म है।

I have a training set of strings, how do I find the minimal FSM 
that separates the good examples from the bad?

जैसा कि आपने इसे अभिव्यक्त किया है, आपका प्रशिक्षण सेट एक परिमित भाषा का वर्णन करता है । एफएसएम के लिए भाषाओं का तुच्छ रूप से नक़्शा बनाना - अपनी भाषा में प्रत्येक स्ट्रिंग के लिए एक स्टॉप स्टेट में समाप्त होने वाले राज्यों का एक रैखिक सेट बनाएं, जिसमें कोई लूपिंग की आवश्यकता न हो। फिर, परिणामस्वरूप मशीन पर एफएसएम कम से कम एल्गोरिथम चलाएं।

Is this a good way to build a classifier?

मैं ऐसा नहीं कहूंगा। FSM को कम करने से इसकी विभेदकारी शक्ति नहीं बदलती है - यह इस प्रकार है। न्यूनतम एफएसएम किसी भी गैर-न्यूनतम एफएसएम के बराबर स्ट्रिंग्स के सेट को स्वीकार करता है।

सामान्य तौर पर, उपन्यास डेटा को वर्गीकृत करने के लिए नियमित रूप से अभिव्यक्त नहीं किए जाते हैं। किसी भी परिमित प्रशिक्षण सेट के लिए, आपको एक RE / FSM मिलेगा जो उस सेट में केवल सकारात्मक उदाहरणों से मेल खाता है, जिसमें नए डेटा को सामान्य करने की क्षमता नहीं है। मैंने कभी ऐसा दृष्टिकोण नहीं देखा है जो एक अनंत नियमित भाषा को खोजने का प्रयास करता है जो कुछ प्रशिक्षण कॉर्पस से मेल खाता है।

मशीन लर्निंग के लिए, आप एक भोले बेय्स क्लासिफायर, डिसीजन ट्री, न्यूरल नेटवर्क या कुछ अधिक विदेशी चीज़ों की तलाश में होंगे। रसेल और नॉरविग आर्टिफिशियल इंटेलिजेंस: एक आधुनिक दृष्टिकोण मशीन सीखने की तकनीक (और बहुत कुछ, बहुत अधिक) का अवलोकन खोजने के लिए किसी भी जगह के रूप में अच्छा है।


2
मैं इस जवाब से सहमत नहीं हूं। यदि आप केवल सभी सकारात्मक उदाहरण लेते हैं और एक FSM का निर्माण करते हैं जो केवल उन उदाहरणों को स्वीकार करता है और कुछ नहीं, तो आपका FSM बहुत बड़ा हो सकता है। दूसरी ओर, सबसे छोटा FSM जो सभी सकारात्मक उदाहरणों को स्वीकार करता है और कोई भी नकारात्मक उदाहरण बहुत छोटा नहीं हो सकता है
जुका सुओमेला

3
मुझे लगता है कि मूल प्रश्न ने इसे बहुत स्पष्ट कर दिया है: "एक अभिव्यक्ति जो + से मेल खाती है, - को अस्वीकार करती है और कुछ अच्छी तरह से परिभाषित अर्थों में न्यूनतम है"।
जुक्का सुकोला

5
@ आपके उत्तर और मेरे बीच का अंतर काफी सूक्ष्म है। जब आप अपने dfa का निर्माण करते हैं, तो नमूने में प्रत्येक स्ट्रिंग के लिए नए राज्य बनाकर, आप अपने आप को सकारात्मक और नकारात्मक उदाहरणों को अलग करने वाले न्यूनतम dfa द्वारा प्रस्तुत की तुलना में संभवतः भिन्न भाषा के लिए प्रतिबद्ध करते हैं। इसलिए एक dfa उत्पन्न करने और फिर इसे कम से कम करने के लिए एल्गोरिथ्म दुर्भाग्य से ऐसा नहीं करता है!
लेव Reyzin

1
मुझे यकीन नहीं है कि मैं इस अंतर को समझता हूं। यदि हमारे पास सकारात्मक और नकारात्मक उदाहरणों का एक सेट है, तो हमारे पास भाषाओं का एक परिवार है जो सभी इन बाधाओं को पूरा करते हैं। प्रत्येक के लिए एक (सेट का) न्यूनतम डीएफए है। जब तक मैं एक डीएफए लौटाता हूं जो न्यूनतम आकार है, तो यह कैसे मायने रखता है कि मैं इनमें से कौन सी भाषा चुनता हूं।
सुरेश वेंकट

1
सीखने के लिए, आप सबसे छोटी डीएफए चुनना चाहते हैं क्योंकि इसमें सबसे अच्छा सामान्यीकरण की क्षमता है। @ kieth की प्रक्रिया इन सभी भाषाओं पर मिनिमियम DFA नहीं चुनेगी, केवल उस भाषा के लिए सबसे छोटी एक जो अपनी प्रक्रिया का उपयोग करने के लिए प्रतिबद्ध है।
लेव Reyzin
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.