मैं "a" और "a" के साथ किसी शब्द को सही ढंग से कैसे कर सकता हूँ?


93

मेरे पास एक .NET एप्लिकेशन है, जहां एक संज्ञा दी गई है, मैं चाहता हूं कि वह "ए" या "ए" के साथ उस शब्द को सही ढंग से उपसर्ग करे। मुझे यह कैसे करना है?

इससे पहले कि आपको लगता है कि उत्तर केवल यह जांचना है कि क्या पहला अक्षर एक स्वर है, जैसे वाक्यांशों पर विचार करें:

  • एक ईमानदार गलती
  • एक प्रयुक्त कार

4
आपको उन संक्षिप्ताक्षों पर भी विचार करना होगा जो tha पर कुछ भ्रम पैदा कर सकते हैं "a" या "a" जैसे "NHL" जो एक अक्षर की ध्वनि भी उत्पन्न करता है एक स्वर से शुरू होता है, हालांकि यदि संक्षिप्त नाम को शब्द के रूप में नहीं सुना जा सकता है। "एनएएस डिवाइस" या "एनएएससीएआर घटना" के रूप में
जेबी किंग

5
यह भी ध्यान रखें कि या का उपयोग अंग्रेजी के विभिन्न प्रकारों में विशेष उच्चारण पर निर्भर हो सकता है। जड़ी बूटी का ब्रिटिश और अमेरिकी उच्चारण एक ऐसा ही उदाहरण है।
एरिक

12
@ एरिक: वास्तव में, इस (nerdy भी) का मेरा पसंदीदा उदाहरण "एसक्यूएल" है। कुछ लोग अक्षर "एसक्यूएल" कहते हैं, कुछ लोग इसे "सीक्वल" शब्द की तरह उच्चारण करते हैं। प्रत्येक को एक अलग "ए" या "ए" मिलता है। उदाहरण के लिए, यह "सीक्वल स्टेटमेंट" छंद है "यह एक एसक्यूएल स्टेटमेंट है"
बाइनरी वॉरियर

इससे भी अधिक मुश्किल यह है कि अंग्रेजी की एक ही बोली के भीतर भी राय अलग-अलग है! उदाहरण के लिए, आधिकारिक (यूके) अंग्रेजी हमें बताती है कि "एक होटल" सही संरचना है, लेकिन ज्यादातर लोग रोजमर्रा की बातचीत में "एक होटल" का उपयोग करेंगे। यदि आप एक लिखते हैं तो यह हमारे लिए बहुत उपयोगी होगा!
h4xxr

आह ... "एस्पिरेंट एच"। मुझे विशद रूप से इसके साथ अपनी पहली मुठभेड़ याद है। औपनिवेशिक विलियम्सबर्ग की एक पुस्तक "एन हिस्टोरिकल सोसाइटी" नामक दूसरी श्रेणी का सामाजिक अध्ययन पुस्तक है।
बॉब कॉफमैन

जवाबों:


137
  1. विकिपीडिया डाउनलोड करें
  2. इसे अनज़िप करें और एक त्वरित फ़िल्टर प्रोग्राम लिखें जो केवल लेख पाठ को थूकता है (डाउनलोड आम तौर पर एक्सएमएल प्रारूप में है, साथ ही गैर-लेख मेटाडेटा भी)।
  3. (N) के सभी उदाहरणों को ढूंढें .... और निम्नलिखित शब्द और उसके सभी उपसर्गों पर एक इंडेक्स बनाएं (आप इसके लिए एक सरल प्रत्यय का उपयोग कर सकते हैं)। यह मामला संवेदनशील होना चाहिए, और आपको अधिकतम शब्द-लंबाई - 15 अक्षरों की आवश्यकता होगी?
  4. (वैकल्पिक) उन सभी उपसर्गों को त्यागें जो 5 बार से कम या जहां "" बनाम "ए" 2/3 बहुमत (या कुछ अन्य थ्रेसहोल्ड - यहां ट्वीक) से कम प्राप्त करते हैं। अधिमानतः कोने-मामलों से बचने के लिए खाली उपसर्ग रखें।
  5. आप उन सभी उपसर्गों को त्यागकर अपने उपसर्ग डेटाबेस को अनुकूलित कर सकते हैं जिनके माता-पिता एक ही "ए" या "ए" एनोटेशन साझा करते हैं।
  6. यह निर्धारित करते समय कि "ए" या "एएन" का उपयोग करना है या नहीं, सबसे लंबे मिलान उपसर्ग का पता लगाएं, और इसके लीड का पालन करें। यदि आपने चरण 4 में खाली उपसर्ग नहीं छोड़ा है, तो हमेशा एक मिलान उपसर्ग होगा (अर्थात रिक्त उपसर्ग), अन्यथा आपको पूरी तरह से गैर-मिलान स्ट्रिंग के लिए एक विशेष मामले की आवश्यकता हो सकती है (ऐसा इनपुट बहुत दुर्लभ होना चाहिए) ।

आप शायद इससे बहुत बेहतर नहीं कर सकते - और यह निश्चित रूप से अधिकांश नियम-आधारित प्रणालियों को हरा देगा।

संपादित करें: मैंने इसे JS / C # में लागू किया है । आप इसे अपने ब्राउज़र में आज़मा सकते हैं , या इसका उपयोग करने वाले छोटे, पुन: प्रयोज्य जावास्क्रिप्ट कार्यान्वयन को डाउनलोड कर सकते हैं । .NET कार्यान्वयन AvsAnनगेट पर पैकेज है । कार्यान्वयन तुच्छ हैं, इसलिए यदि आवश्यक हो तो किसी अन्य भाषा में पोर्ट करना आसान होना चाहिए।

मेरे विचार से "नियम" बहुत अधिक जटिल हैं:

  • यह एक अप्रत्याशित परिणाम है, लेकिन यह है एक सर्वसम्मत वोट
  • यह एक ईमानदार निर्णय है, लेकिन एक हनीसकल झाड़ी है
  • प्रतीक: यह एक 0800 नंबर, या एक अजवायन की पत्ती का ∞।
  • Acronyms: यह एक नासा वैज्ञानिक है, लेकिन एक एनएसए विश्लेषक; एक FIAT कार लेकिन एक एफएए नीति।

... जो सिर्फ इस बात को रेखांकित करता है कि एक नियम आधारित प्रणाली का निर्माण मुश्किल होगा!


और अगर कोई संज्ञा इस आउटपुट से गायब है, तो आप निश्चित रूप से सरल नियम इंजन में वापस आ सकते हैं।
जॉन फिशर

26
यह देखते हुए कि विकिपीडिया डाउनलोड (वर्तमान में) 2.8 टेराबाइट्स के लिए डिकम्प्रेस करता है, यह बहुत अच्छा होगा अगर कोई भी जो इस पद्धति का उपयोग करता है वह परिणामी डेटा को सार्वजनिक रूप से पोस्ट कर देगा ताकि प्रक्रिया को बार-बार दोहराया न जाए।
नाथन लॉन्ग

10
यह उत्तर पूरी तरह से गंभीर नहीं था, लेकिन मैंने ऐसा कुछ किया है, और wikipedia की .xml फ़ाइल कच्चे wikimarkup के साथ सिर्फ 40GB के क्रम पर है (सबसे नया हमेशा थोड़ा बड़ा होता है), 2.8TB नहीं - सभी एक फ़ाइल में - विस्तारित .html संस्करण या किसी भी चित्र को डाउनलोड न करें, हो सकता है कि यह संस्करण 2.8TB हो? किसी भी मामले में, यह वास्तव में पार्स करने के लिए काफी संभव है, जब तक आप मार्कअप के बारे में नहीं उठाते।
Eamon Nerbonne

1
यह सबसे बड़ी आसानी से उपलब्ध, अप टू डेट, प्राकृतिक भाषा डेटा सेट है जिसके बारे में मैं सोच सकता था। हालांकि, कोई भी अतिरिक्त डेटा स्रोत ठीक है, ज़ाहिर है - एल्गोरिथ्म विकिपीडिया पर निर्भर नहीं करता है, आखिरकार। आप home.nerbonne.org/A-vs-An या मेरे ब्लॉग
Eamon Nerbonne

1
मैं इस समाधान से प्रभावित था । मैंने ईमानदारी से सोचा कि विकिपीडिया को उसकी संपूर्णता में डाउनलोड करने की तुलना में यह बहुत सरल होगा अच्छा हुआ, सर। +1
केहलान क्रुममे

15

आपको अपवादों की सूची का उपयोग करने की आवश्यकता है। मुझे नहीं लगता कि सभी अपवाद अच्छी तरह से परिभाषित हैं, क्योंकि यह कभी-कभी शब्द कहने वाले व्यक्ति के उच्चारण पर निर्भर करता है।

एक बेवकूफ तरीका यह है कि Google को दो संभावनाओं (खोज एपीआई में से एक का उपयोग करके) के लिए पूछें और सबसे लोकप्रिय का उपयोग करें:

या:

इसलिए "एक यूरोप" और "एक ईमानदार" सही संस्करण हैं।


6
क्या वास्तव में उपयोग की अनुमति है या यह प्रतिबंधित करने के लिए कह रहा है? नियमित रूप से ऐसा उपयोग निश्चित रूप से IIRC पर किया जाता है।
ईमोन नेरबोन

1
@ ईमॉन: दिलचस्प बिंदु। क्या होगा यदि एप्लिकेशन ने उन सभी शब्दों का रिकॉर्ड रखा है जो उसने पहले गुगुल कर दिया है, इसलिए उसे केवल एक बार प्रत्येक नए शब्द के लिए Google से सामना करना पड़ता है? क्या यह अभी भी Google का एक संदिग्ध उपयोग होगा?
gnovice

2
स्पष्ट तकनीकी कठिनाइयों के अलावा (जैसे स्वचालित तरीके से खोज इंजन उत्पादन का उपयोग करने की अनुमति नहीं है और इसे जल्दी से अवरुद्ध कर दिया जाएगा), इससे समस्या का सही तरीके से समाधान नहीं होता है - कम से कम यह आम दुरुपयोग की नकल करेगा वाक्य - विन्यास।
Guss

6
खराब से खराब? वहाँ एक बहुत मजबूत तर्क दिया जा रहा है कि "सामान्य दुरुपयोग" की नकल करना वास्तव में एक प्राकृतिक-भाषा प्रणाली के लिए प्रयास करना चाहिए। डेविड फोस्टर वालेस का निबंध "प्राधिकरण और अमेरिकी उपयोग" देखें, लॉबस्टर पर विचार करें । Google की तुलना में बेहतर कॉर्पोरा हैं, लेकिन यह एक अलग मुद्दा है।
रॉबर्ट रॉसनी

2
"एक होटल" और "एक नायिका" दोनों मुझे सही लगते हैं। मुझे लगता है कि आप थोड़ा कॉकटेल उच्चारण के दृष्टिकोण से आ रहे हैं। विभिन्न लहजे का मतलब है कि इनमें से कुछ शब्दों का सही उत्तर नहीं है।
rjmunro

15

यदि आपको शब्द उच्चारण के लिए शब्द वर्तनी का स्रोत मिल सकता है, जैसे:

"honest":"on-ist"
"horrible":"hawr-uh-buhl, hor-"

आप वर्तनी उच्चारण के पहले वर्ण पर अपने निर्णय को आधार बना सकते हैं। प्रदर्शन के लिए, शायद आप अपवाद सेट करने के लिए इस तरह के लुकअप का उपयोग कर सकते थे और निष्पादन के दौरान उन छोटे लुकअप सेट का उपयोग कर सकते थे।

जोड़ने के लिए संपादित:

!!! - मुझे लगता है कि आप अपने अपवाद उत्पन्न करने के लिए इसका इस्तेमाल कर सकते हैं: http://www.speech.cs.cmu.edu/cgi-bin-cmcict

सब कुछ शब्दकोश में नहीं होगा, निश्चित रूप से - जिसका अर्थ है कि हर संभव अपवाद आपके अपवाद सेटों में हवा नहीं देगा - लेकिन उस स्थिति में, आप केवल स्वरों के लिए डिफ़ॉल्ट रूप से / व्यंजन के लिए डिफ़ॉल्ट रूप से या बेहतर बाधाओं के साथ कुछ अन्य अनुमानक का उपयोग कर सकते हैं।

(सीएमयू शब्दकोश के माध्यम से देखते हुए, मुझे यह देखकर खुशी हुई कि इसमें देशों और कुछ अन्य स्थानों के लिए उचित संज्ञाएं शामिल हैं - इसलिए यह "एक यूक्रेनी", "यूएसए टुडे पेपर", "एक उरल्स-प्रेरित पेंटिंग" जैसे उदाहरणों को संभालेगा।)

एक बार और जोड़ने के लिए संपादन करना: CMU डिक्शनरी में सामान्य शब्दकोष नहीं हैं, और आपको s, f, l, m, n, u, और x से शुरू होने वाले लोगों के बारे में चिंता करनी होगी। लेकिन विकिपीडिया की तरह वहाँ भी बहुत सारी संक्षिप्त सूची हैं, जिनका उपयोग आप अपवादों को जोड़ने के लिए कर सकते हैं।


2
खुद की मदद नहीं कर सकता, लेकिन hawr-uh-buhlहमेशा मुझे हंसाता है।
IllidanS4

9

आपको मैन्युअल रूप से लागू करना होगा और अपवादों को जोड़ना होगा जो आप चाहते हैं उदाहरण के लिए यदि पहला अक्षर and H ’है और उसके बाद O O’ जैसे ईमानदार, घंटे… और इसके विपरीत यूरोप, विश्वविद्यालय, जैसे उपयोग किए गए हैं…


1
हाँ, सच्चा आदमी। मुझे लगता है कि मैं उसमें गलत था। इसका कोई नियम नहीं है
अहमद फरीद

8

चूंकि "ए" और "ए" ध्वन्यात्मक नियमों द्वारा निर्धारित किया गया है और सम्मेलनों की वर्तनी नहीं, मैं शायद इसे इस तरह से करूंगा:

  1. यदि शब्द का पहला अक्षर व्यंजन है -> 'a'
  2. यदि शब्द का पहला अक्षर स्वर है-> 'a'
  3. जैसा कि rjumnro कहते हैं , अपवादों (दिल, एक्स-रे, घर) की एक सूची रखें ।

5

आपको अनिश्चित लेखों के लिए व्याकरण के नियमों को देखने की आवश्यकता है (अंग्रेजी व्याकरण में केवल दो अनिश्चित लेख हैं - "a" और "a)। आप इन ध्वनियों को सही नहीं मान सकते हैं, लेकिन अंग्रेजी व्याकरण के नियम बहुत स्पष्ट हैं :

"शब्द और एक अनिश्चित लेख हैं। हम अनिश्चित लेख का उपयोग ऐसे शब्दों से पहले करते हैं जो एक स्वर से शुरू होते हैं (ए, ई, आई, ओ, यू) और अनिश्चित शब्द से पहले का शब्द जो एक व्यंजन ध्वनि के साथ शुरू होता है (सभी अन्य पत्र)। "

ध्यान दें कि इसका मतलब स्वर ध्वनि है , और स्वर अक्षर नहीं । उदाहरण के लिए, एक मौन "h" से शुरू होने वाले शब्द, जैसे "सम्मान" या "वारिस" को स्वर के रूप में माना जाता है, इसलिए "a" के साथ आगे बढ़ा जाता है - उदाहरण के लिए, "यह आपसे मिलने वाला सम्मान है"। व्यंजन ध्वनि के साथ शुरू होने वाले शब्द एक उपसर्ग हैं - यही कारण है कि आप "एक इस्तेमाल की गई कार" के बजाय "एक इस्तेमाल की गई कार" कहते हैं - क्योंकि "इस्तेमाल" में "उह" ध्वनि के बजाय "योज़" ध्वनि है।

तो, एक प्रोग्रामर के रूप में, ये पालन करने के नियम हैं। आपको केवल यह निर्धारित करने की आवश्यकता है कि किस अक्षर के बजाय किसी ध्वनि की शुरुआत होती है। मैंने इसके उदाहरण देखे हैं, जैसे कि Jaimie Sirovich के PHP में यह एक है :

function aOrAn($next_word) 
{ 
    $_an = array('hour', 'honest', 'heir', 'heirloom'); 
    $_a = array('use', 'useless', 'user'); 
    $_vowels = array('a','e','i','o','u'); 

    $_endings = array('ly', 'ness', 'less', 'lessly', 'ing', 'ally', 'ially'); 
    $_endings_regex = implode('|', $_endings); 

    $tmp = preg_match('#(.*?)(-| |$)#', $next_word, $captures); 
    $the_word = trim($captures[1]); 
    //$the_word = Format::trimString(Utils::pregGet('#(.*?)(-| |$)#', $next_word, 1)); 

    $_an_regex = implode('|', $_an); 
    if (preg_match("#($_an_regex)($_endings_regex)#i", $the_word)) { 
        return 'an'; 
    } 

    $_a_regex = implode('|', $_a); 
    if (preg_match("#($_a_regex)($_endings_regex)#i", $the_word)) { 
        return 'a'; 
    } 

    if (in_array(strtolower($the_word{0}), $_vowels)) { 
        return 'an';     
    } 

    return 'a'; 
}

शायद नियम बनाना सबसे आसान है और फिर अपवादों की एक सूची बनाएं और उसका उपयोग करें। मैं कल्पना नहीं करता कि वहाँ कई होंगे।


4

यार, मुझे पता है कि यह शायद एक सुलझा हुआ तर्क है, लेकिन मुझे लगता है कि विकिपीडिया से तदर्थ व्याकरण के नियमों का उपयोग करने की तुलना में इसे आसानी से निपटाया जा सकता है, जो कि श्रेष्ठ व्याकरण को प्राप्त करेगा।

ऐसा लगता है कि सबसे अच्छा समाधान, ऐसा लगता है कि या तो एक शब्द का उपयोग करना है या निम्नलिखित शब्द का एक फोन-आधारित मिलान है, कुछ निश्चित स्वर के साथ हमेशा "ए" और शेष "ए" से संबंधित होता है।

कार्नेगी मेलन यूनिवर्सिटी के पास इन प्रकार के चेक के लिए एक महान ऑनलाइन टूल है - http://www.speech.cs.cmu.edu/cgi-bin/cmudict - और मेल खाते 39 फोनीम्स के साथ 125k शब्द। एक शब्द को प्लग करना संपूर्ण ध्वनि-समूह सेट प्रदान करता है, जिनमें से केवल पहला महत्वपूर्ण है।

यदि शब्द शब्दकोश में प्रकट नहीं होता है, जैसे कि "एनएसए" और सभी पूंजीकृत हैं, तो सिस्टम मान सकता है कि शब्द एक एंग है और यह निर्धारित करने के लिए पहले अक्षर का उपयोग करें कि एक ही मूल नियम सेट के आधार पर किस अनिश्चितकालीन लेख का उपयोग करें।


1
संसाधन-अर्थव्यवस्था के संदर्भ में, यह सबसे अच्छा जवाब है, और मैं यह नहीं देखता कि यह प्रस्तावित अधिक डेटा-गहन तरीकों से किसी भी बदतर प्रदर्शन क्यों करेगा।
चॉनिक प्रोजेक्ट

3

@ नथन लॉन्ग: विकिपीडिया को डाउनलोड करना वास्तव में एक बुरा विचार नहीं है। सभी छवियों, वीडियो और अन्य मीडिया की जरूरत नहीं है।

मैंने php और javascript (!) में पूरे स्वीडिश विकिपीडिया (या कम से कम सभी आर्टिकल जिन्हें गणित के बारे में आर्टिकल से पहुँचा जा सकता था, को पढ़ने के लिए लिखा था, जो मेरे मकड़ी के लिए शुरुआत थी।)।

मैंने एक डेटाबेस में सभी शब्द और आंतरिक लिंक एकत्र किए, और हर शब्द की आवृत्ति का ट्रैक भी रखा। अब मैं विभिन्न कार्यों के लिए एक शब्द डेटाबेस के रूप में इसका उपयोग करता हूं: * सभी शब्दों को ढूँढना जो अक्षरों के दिए गए सेट (वाइल्डकार्ड सहित) से बनाए जा सकते हैं * स्वीडिश के लिए एक सरल वाक्यविन्यास फ़ाइल बनाई गई (डेटाबेस में सभी शब्द गलत नहीं माने जाते हैं)।

ओह, और पूरे विकी को डाउनलोड करने में लगभग एक सप्ताह का समय लगा, मेरे लैपटॉप का उपयोग करते हुए अधिकांश समय 10Mbit कनेक्शन के साथ चला।

जब आप इस पर हों, तो उन सभी घटनाओं को लॉग करें जो अंग्रेजी भाषा के साथ असंगत हैं और देखें कि उनमें से कुछ गलतियाँ हैं या नहीं। उन्हें ठीक करें और समुदाय को कुछ वापस दें।


2

ध्यान दें कि अमेरिकी और ब्रिटिश बोलियों के बीच मतभेद हैं, जैसा कि ग्रामर गर्ल ने अपने एपिसोड ए वर्सस एन में बताया ।

एक जटिलता है जब शब्दों का उच्चारण ब्रिटिश और अमेरिकी अंग्रेजी में अलग-अलग तरीके से किया जाता है। उदाहरण के लिए, एक निश्चित प्रकार के पौधे के लिए शब्द अमेरिकी अंग्रेजी में "एरब" और ब्रिटिश अंग्रेजी में "हर्ब" का उच्चारण किया जाता है। दुर्लभ मामलों में जहां यह एक समस्या है, उस फॉर्म का उपयोग करें जो आपके देश में या आपके अधिकांश पाठकों द्वारा अपेक्षित होगा।



2

मैंने पायथन से एक फ़ंक्शन (मूल रूप से CPAN पैकेज लिंगू-एन-इंफ़्लेक्ट से) पोर्ट किया है, जो सी # में स्वर ध्वनियों को सही ढंग से निर्धारित करता है और इसे प्रश्न के उत्तर के रूप में पोस्ट किया है । आप यहां कोड स्निपेट देख सकते हैं ।


1

क्या आप एक ऐसा अंग्रेज़ी शब्दकोश प्राप्त कर सकते हैं जो हमारे नियमित वर्णमाला और अंतर्राष्ट्रीय फ़ोनेटिक वर्णमाला में लिखे गए शब्दों को संग्रहीत करता है ?

फिर शब्द की शुरुआत ध्वनि का पता लगाने के लिए फोनेटिक्स का उपयोग करें, और इस प्रकार कि क्या "ए" या "ए" उपयुक्त है?

यकीन नहीं होता है कि यह वास्तव में सांख्यिकीय विकिपीडिया दृष्टिकोण की तुलना में (या जितना मज़ेदार) होगा उतना आसान होगा।


0

मैं एक नियम-आधारित एल्गोरिथ्म का उपयोग करने के लिए जितना संभव हो उतना कवर कर सकता हूं, फिर अपवादों की सूची का उपयोग कर सकता हूं। यदि आप कल्पना प्राप्त करना चाहते हैं, तो आप अपनी अपवाद सूची से कुछ नए "नियम" निर्धारित करने का प्रयास कर सकते हैं।


0

मैं सिर्फ हेयूरिस्टिक्स के एक सेट की तरह दिखता हूं। यह थोड़ा और अधिक जटिल हो सकता है और कुछ चीजों का जवाब देना चाहिए, जिनके लिए मुझे कभी कोई अच्छा जवाब नहीं मिला, उदाहरण के लिए आप कैसे संक्षिप्त ("एक आरपीएम" या "एक आरपीएम" का इलाज करते हैं? मैंने हमेशा सोचा था कि उत्तरार्द्ध अधिक समझ में आता है)।

एक त्वरित खोज भाषाई पुस्तकालयों पर निकलती है जो अंग्रेजी विलक्षण उपसर्ग को संभालने के तरीके के बारे में बात करती है, लेकिन यदि आप पर्याप्त खुदाई करते हैं तो आप शायद कुछ पा सकते हैं। और अगर नहीं - तो आप हमेशा अपनी खुद की इन्फ्लेक्शन लाइब्रेरी लिख सकते हैं और दुनिया भर में प्रसिद्धि पा सकते हैं :-)।


RPM जैसी संक्षिप्तता कोई समस्या नहीं है। जैसा कि आप कहते हैं कि उन्हें किसी भी तरह से इलाज किया जा सकता है। इसलिए समाधान स्पष्ट है: उन्हें अनदेखा करें।
एंड्रयू जे। ब्रेअम

मैं सहमत नहीं होऊंगा क्योंकि यह असंगत उपसर्ग का कारण बनता है। बस इसे अनदेखा करने से "आरपीएम" और "यूजीसी" उत्पन्न होगा जो स्पष्ट रूप से गलत है।
Guss

0

मुझे नहीं लगता कि आप बस एक कदम कवर-ऑल के रूप में 'ए' की तरह कुछ बॉयलर प्लेट सामान भर सकते हैं। अन्यथा आप अनुमानों की त्रुटियों को समाप्त कर देंगे, जैसे कि 'ओ' से आगे बढ़ने वाले सभी शब्द जैसे 'ओ' को 'घर' की तरह 'ए' मिलता है - (एक घर?)। मूल रूप से, आप अंग्रेजी भाषा के तर्क सहित समाप्त हो जाएंगे या कभी-कभी दुर्लभ मामलों को पाएंगे जो आपको मूर्खतापूर्ण लगेंगे।


0

इस बात की जाँच करें कि क्या कोई शब्द एक स्वर या एक व्यंजन से शुरू होता है। एक "यू" आम तौर पर एक व्यंजन और एक स्वर ("यू") है, इसलिए आपके उद्देश्यों के लिए व्यंजन समूह में है।

"एच" अक्षर फ्रेंच में और अंग्रेजी में प्रयुक्त फ्रांसीसी शब्दों में एक गोटल स्टॉप (एक व्यंजन) के लिए खड़ा है। आप उन लोगों की एक सूची बना सकते हैं (वास्तव में, "सम्मान", "सम्मान" और "घंटे" पर्याप्त हो सकते हैं) और उन्हें स्वरों से शुरू करने के रूप में गिना जाता है (क्योंकि अंग्रेजी एक ग्लॉटल स्टॉप को नहीं पहचानती है)।

"यूरोपीय" को एक व्यंजन आदि के रूप में भी गिनें।

यह बहुत मुश्किल नहीं है।


0

शब्द का उच्चारण करने के तरीके पर निर्भर करता है। इस शब्द को देखकर आप इसके सही उच्चारण को नहीं बता सकते हैं जैसे कि एक शब्दजाल या संक्षिप्त नाम आदि। इनमें से एक तरीका हो सकता है कि एक शब्द के लिए एक शब्द हो जो फ़ोनेम्स के समर्थन के साथ हो और शब्द से जुड़ी फ़ोने की जानकारी का उपयोग यह निर्धारित करने के लिए करें कि क्या "ए" "या" ए "का उपयोग किया जाना चाहिए।


0

मैं निश्चित नहीं हो सकता कि इसमें "ए" और "ए" को अलग करने के लिए इसकी उपयुक्त जानकारी है, लेकिन प्रिंसटन का वर्डनेट डेटाबेस समान प्रकार के कार्यों के उद्देश्य से मौजूद है, इसलिए मुझे लगता है कि यह संभव है कि डेटा इसमें है । इसमें उक्त शब्दों (IIRC के बीच कुछ हज़ारों शब्द और सैकड़ों हजारों रिश्ते हैं; मैं साइट पर वर्तमान आँकड़े नहीं ढूँढ सकता)। इसे एक रूप दें। यह स्वतंत्र रूप से डाउनलोड करने योग्य है।


0

कैसे? कब के बारे में? संलग्न लेख के साथ संज्ञा प्राप्त करें। इसके लिए एक विशिष्ट रूप में पूछें।

लेख के साथ संज्ञा के लिए पूछें। जानकारी के रूप में कई MUD कोडबेस स्टोर आइटम:

  • एक या अधिक कीवर्ड
  • एक संक्षिप्त रूप
  • एक लंबा रूप

कीवर्ड फ़ॉर्म "शॉर्ट तलवार रस्टी" हो सकता है। संक्षिप्त रूप "एक तलवार" होगा। लंबा रूप "जंग लगी छोटी तलवार" होगा।

क्या आप "एक बनाम एक" वेब सेवा लिख ​​रहे हैं? एक कदम पीछे ले जाएं और देखें कि क्या आप इस रिसाव को और ऊपर ले जा सकते हैं। आप एक बांध का निर्माण कर सकते हैं, लेकिन जब तक आप इसे बहने से नहीं रोकते, यह अंततः खत्म हो जाएगा।

यह निर्धारित करें कि यह कितना महत्वपूर्ण है, और जैसा कि दूसरों ने सुझाव दिया है, "त्वरित लेकिन क्रूड", या "महंगा लेकिन मजबूत" के लिए जाएं।


0

नियम बहुत सरल है। यदि अगला शब्द एक स्वर से शुरू होता है तो 'a' का उपयोग करें, यदि यह एक व्यंजन से शुरू होता है तो 'a' का उपयोग करें। कठिन बात यह है कि स्वर और व्यंजन का हमारे स्कूल का वर्गीकरण काम नहीं करता है। 'सम्मान' में 'ज' एक स्वर है, लेकिन 'अस्पताल' में 'ज' एक व्यंजन है।

इससे भी बदतर, 'ईमानदार' जैसे कुछ शब्द एक स्वर या व्यंजन के साथ शुरू होते हैं, जो इस बात पर निर्भर करता है कि उन्हें कौन कह रहा है। इससे भी बदतर, कुछ शब्द कुछ वक्ताओं के लिए उनके आसपास के शब्दों के आधार पर बदल जाते हैं।

समस्या केवल इस बात से बंधी हुई है कि आप उसमें कितना समय और प्रयास लगाना चाहते हैं। आप कुछ मिनटों में स्वर के रूप में 'ऐयौ' का उपयोग करते हुए कुछ लिख सकते हैं, या आप अपने लक्षित दर्शकों के भाषाई विश्लेषण करते हुए महीने बिता सकते हैं। उनके बीच बहुत बड़ी संख्याएँ हैं, जो कुछ वक्ताओं के लिए सही होंगी और दूसरों के लिए गलत - लेकिन क्योंकि अलग-अलग वक्ताओं का एक ही शब्द के लिए अलग-अलग निर्धारण होता है, इसलिए यह संभव नहीं है कि हर समय सही रहें, चाहे आप कुछ भी करें यह।


0

आदर्श दृष्टिकोण यह होगा कि आप किसी ऐसे स्थान को ऑनलाइन खोजें, जो आपको उत्तर दे सके, गतिशील रूप से क्वेरी कर सके और उत्तरों को कैश कर सके। आप शुरुआत के लिए कुछ सौ शब्दों के साथ सिस्टम को प्राइम कर सकते हैं।

(मैं इस तरह के ऑनलाइन स्रोत के बारे में नहीं जानता, लेकिन अगर कोई ऐसा है तो मुझे आश्चर्य नहीं होगा।)


0

तो, सभी इंटरनेट को डाउनलोड किए बिना एक उचित समाधान संभव है। यहाँ मैंने क्या किया है:

मुझे याद है गूगल गूगल बुक्स एन-ग्राम आवृत्तियों के लिए उनके कच्चे डेटा प्रकाशित कि यहाँ । इसलिए मैंने "a_" और "a" के लिए 2-ग्राम फ़ाइलों को डाउनलोड किया। अगर मैं सही ढंग से याद करूँ तो यह लगभग 26 गिग्स है। इससे मैंने उन तारों की एक सूची तैयार की, जहाँ वे विपरीत लेख से पहले की अपेक्षा कर रहे थे, यदि आप उम्मीद करेंगे (यदि हम उम्मीद करते हैं कि स्वर "a" लें)। शब्दों की वह अंतिम सूची जिसे मैं 7 किलोबाइट के अंतर्गत स्टोर करने में सक्षम था।


-2

आप "ए" का उपयोग करते हैं जब भी अगला शब्द एक स्वर नहीं होता है? और आप "ए" का उपयोग करते हैं जब भी कोई स्वर होता है?

इसके साथ ही, क्या आप "a \ _ a, e, i, o, u" *? "जैसी नियमित अभिव्यक्ति नहीं कर सकते थे?" और फिर इसे "ए" के साथ बदलें।


नहीं, क्योंकि नियम स्वर ध्वनियों के बारे में है , स्वर वर्ण नहीं । "उपयोगकर्ता" एक स्वर से शुरू होता है, लेकिन उच्चारण नहीं करता है।
जॉरिस ग्रूसमैन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.