मेरे पास बहुत सारे पते हैं:
1600 Pennsylvania Ave, Washington, DC 20500 USA
मैं उन्हें अपने घटकों में पार्स करना चाहता हूं:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
लेकिन निश्चित रूप से डेटा गंदा है: यह कई देशों से कई भाषाओं में आता है, जो अलग-अलग तरीकों से लिखे गए हैं, जिसमें गलत वर्तनी शामिल हैं, लापता टुकड़े हैं, अतिरिक्त कबाड़ है, आदि।
अभी हमारा दृष्टिकोण फजी गेजेटर मिलान के साथ संयुक्त नियमों का उपयोग करना है, लेकिन हम मशीन लर्निंग तकनीक का पता लगाना चाहते हैं। हमने पर्यवेक्षित शिक्षण के लिए प्रशिक्षण डेटा को लेबल किया है। सवाल यह है कि यह मशीन सीखने की किस तरह की समस्या है? यह वास्तव में क्लस्टरिंग, या वर्गीकरण, या प्रतिगमन नहीं लगता ...।
निकटतम मैं प्रत्येक टोकन को वर्गीकृत कर सकता हूं, लेकिन फिर आप वास्तव में उन सभी को एक साथ वर्गीकृत करना चाहते हैं, जैसे कि "अधिकांश एक देश में होना चाहिए;" और वास्तव में एक स्ट्रिंग को टोकन देने के कई तरीके हैं, और आप प्रत्येक को आज़माना चाहते हैं और सर्वश्रेष्ठ चुनना चाहते हैं .... मुझे पता है कि सांख्यिकीय पार्सिंग नामक एक चीज मौजूद है, लेकिन इसके बारे में कुछ भी नहीं जानते हैं।
तो: क्या मशीन सीखने की तकनीक मैं पता लगाने के लिए पता लगा सकता है?