User1282637 पूछता है कि क्या इस कार्य को पूरा करने का कोई तरीका है और ऐसा करने में किसी भी मदद का अनुरोध करता है। यह मुद्दा एक्सेल यांत्रिकी नहीं है कि डेटा में अस्पष्टता से कैसे निपटें। ज़िप कोड को पार्स करना और विवरण सीधा होना (जब तक कि आपके पास 5 अंकों और 9 अंकों के ज़िप का मिश्रण न हो)। मुश्किल समस्या शहर से सड़क को अलग करना है, इसलिए मैं उस पर ध्यान केंद्रित करूंगा। यह कदम-दर-चरण के रूप में अभिप्रेत नहीं है कि यह एक्सेल फ़ार्मुलों के साथ कैसे करें। यह समस्या में कुछ अंतर्दृष्टि साझा कर रहा है और कठिन भाग के परिणाम के लिए एक दृष्टिकोण का वर्णन कर रहा है।
समस्या यह है कि विभिन्न क्षेत्रों के बीच कोई सीमांकक नहीं हैं। यह विवरण या ज़िप को छीलने के लिए एक मुद्दा नहीं है क्योंकि वे आसानी से पहचाने जाने योग्य हैं। समस्या यह निर्धारित करती है कि स्ट्रीट कहां समाप्त होती है और शहर शुरू होता है। स्ट्रीट भाग की इन विविधताओं पर विचार करें (एक विस्तृत सूची से दूर):
120 Lemon Street
120 Lemon Drop Street
120 Lemon Street NW
120 East Lemon Street
120 Lemon Street Apt 3
गली में "शब्द" की संख्या 1 या 2 से कम, 7 या 8 तक हो सकती है, इसलिए यह पार्सिंग के लिए उपयोगी नहीं है। सड़क "प्रकार" भी विशेष रूप से उपयोगी नहीं है। सड़क के "टाइप" (सड़क, एवेन्यू, बुलेवार्ड, रास्ता, शलजम, लेन, कोर्ट, सर्कल, छत, आदि) के लिए इस्तेमाल किए गए 50-100 शब्दों के आदेश पर हैं। गठबंधन करें कि सड़क के प्रकार के लिए संक्षिप्त और गलत दोनों तरह के उपयोग के साथ, और सूची सैकड़ों में है। इसके अलावा, यह पदनाम हमेशा सड़क क्षेत्र में अंतिम शब्द नहीं है। गली सबसे कठिन हिस्सा है, इसलिए तार्किक दृष्टिकोण बाकी की पहचान करना है और फिर शेष सड़क है।
शहर कई शब्द हो सकते हैं। वाशिंगटन कोर्ट हाउस, ओएच तीन शब्द हैं। फिर सेंट मेरीज, ओह जैसी स्थितियों पर विचार करें। "सेंट" शहर के नाम या सड़क के प्रकार का एक हिस्सा है; यह किस क्षेत्र में जाता है? या दक्षिण यूक्लिड, ओह - शहर के नाम का "दक्षिण" हिस्सा है या एक दिशात्मक है जो सड़क के पते का हिस्सा है? शहर की अपनी समस्याएं हैं लेकिन उनसे निपटने का एक तरीका है।
यहां तक कि शहर की पहचान करने के लिए ज़िप कोड का उपयोग करने में समस्याएं हैं। शहर के नाम और जिप के बीच हमेशा 1: 1 का मैच नहीं होता है।
समस्या पर हमला करने का सबसे व्यावहारिक तरीका "शब्दकोशों" का उपयोग करना है: शहरों की एक सूची, और एक ज़िप कोड निर्देशिका। ये पते का सबसे नायाब हिस्सा हैं। इन्हें ऑनलाइन या पोस्टल सर्विस से पाया जा सकता है। तुलना करने के लिए, आपको अपने डेटा या लिस्टिंग को साफ़ करने की आवश्यकता हो सकती है। उन्हें समान पूंजीकरण शैली की आवश्यकता होगी और आपके डेटा में कोई भी अतिरिक्त स्थान सटीक मिलान को रोक देगा।
यदि आपका डेटा या लिस्टिंग संक्षिप्त रूप का उपयोग करता है, तो आपको उससे निपटना होगा। या तो बिना मानक वाले संक्षिप्त शब्दों का अनुवाद करें या उन अंतर पाए जाने पर संक्षिप्तिकरण शब्दकोश (जो ऑनलाइन या डाक सेवा से भी उपलब्ध हैं) के खिलाफ एक माध्यमिक मिलान करें।
ज़िप को आसानी से पार्स किया जा सकता है, और यह एक अच्छी जगह है। ज़िप कोड निर्देशिका के खिलाफ एक ज़िप कोड देखो। यदि परिणाम बिल्कुल शब्दों के एक तार से मेल खाता है, तो तुरंत ज़िप से पहले, यह पहचान लेता है कि रिकॉर्ड का कौन सा हिस्सा शहर का क्षेत्र है।
यदि कोई सटीक या असंदिग्ध मैच नहीं है, तो शहर के नामों की तुलना करें। शहर के नामों की सूची के माध्यम से सूचना दें। प्रत्येक नाम के लिए, उसमें शामिल शब्दों की संख्या निर्धारित करें और इसकी तुलना उस शब्द की संख्या से करें जो तुरंत ज़िप से पहले हो।
यदि आपको या तो प्रक्रिया के माध्यम से एक मैच मिलता है, तो शहर के बाईं ओर शेष सब कुछ सड़क का पता है।
स्प्रेडशीट की तुलना में इस तरह के एप्लिकेशन को डेटाबेस एप्लिकेशन के साथ करना बहुत आसान है। किसी भी तरह से, आप देख सकते हैं कि स्वचालित तरीके से ऐसा करने की कोशिश करना आसान काम नहीं है। आप इसे कुछ स्प्रेडशीट फ़ार्मुलों के साथ नहीं कर सकते।
कोई फर्क नहीं पड़ता कि आपकी प्रोग्रामिंग कितनी कठोर है, आप अभी भी रिकॉर्ड करने की संभावना रखते हैं जो आपको हाथ से पार्स करने की आवश्यकता है, और त्रुटियों को हाथ से ठीक करने की आवश्यकता है। आप इंगित नहीं करते हैं कि आपके पास कितने रिकॉर्ड हैं। यह केवल मैन्युअल रूप से करने के लिए कम काम हो सकता है।
यदि संख्या बड़ी है और मुझे यह करना है, तो मैं सूची को रद्द कर दूंगा। उन रिकॉर्डों से मिलान करें जो आसान हैं, जैसे अस्पष्ट ज़िप मैच। फिर डेटा की मात्रा को नियंत्रित करने दें कि आप स्वचालित मैचों की प्रोग्रामिंग कितनी दूर तक जाते हैं।
जो रिकॉर्ड बचे हैं, उनके लिए आप पहले ही जिप और विवरण छील चुके हैं, यहां मैनुअल प्रक्रिया को तेज करने का एक तरीका है। रिकॉर्ड को देखो और नेत्रहीन शहर में "शब्दों" की संख्या की पहचान करें, जो एक तेज मानसिक कार्य है। एक निर्धारित सेल में दर्ज करें और स्पेस ब्रेक की संख्या के आधार पर शहर से सड़क को विभाजित करने के लिए एक सूत्र का उपयोग करें (Nth स्थान पर अलग जहां N = कुल रिक्त स्थान + 1 - शहर के नाम में शब्दों की संख्या)।