मशीनी अनुवादों की वास्तविक गुणवत्ता क्या है?


27

आज तक मैं - एक एआई आम आदमी के रूप में - वादे से भ्रमित हूं और स्वचालित अनुवाद में सुधार हासिल किया है।

मेरी धारणा है: अभी भी बहुत, बहुत दूर जाना है। या फिर अन्य स्पष्टीकरण हैं कि क्यों काफी सरल विकिपीडिया लेखों के स्वचालित अनुवाद (Google द्वारा प्रदान किए गए और प्रदान किए गए) मुख्य रूप से मूर्खतापूर्ण रूप से पढ़े और ध्वनि करते हैं, शायद ही पठनीय हैं, और केवल बहुत आंशिक रूप से उपयोगी और उपयोगी हैं?

यह व्यक्तिगत प्राथमिकताओं पर निर्भर हो सकता है (पठनीयता, सहायकता और उपयोगिता के विषय में), लेकिन मेरी व्यक्तिगत अपेक्षाएँ बुरी तरह से निराश हैं।

इसके आसपास का अन्य तरीका: क्या Google के अनुवाद बहुधा उपयोगकर्ताओं के लिए पठनीय, सहायक और उपयोगी हैं ?

या क्या Google के पास अपनी उपलब्धियों को बनाए रखने का कारण है (और उपयोगकर्ताओं को वे नहीं दिखा सकते हैं जो वे दिखा सकते हैं)?


प्रारंभिक परिणाम: हम अभी भी समान स्तर पर कृत्रिम बुद्धि के साथ बात करने में सक्षम होने से दूर हैं - केवल स्ट्रिंग्स के स्तर पर। तो हमें क्यों डरना चाहिए? क्योंकि वे हमसे ज्यादा जानते हैं - लेकिन हम नहीं जानते?


2
मशीनी अनुवाद एक कठिन समस्या है, खासकर जब से आधुनिक तकनीक पाठ को अनुवादित करने के लिए समझने की कोशिश नहीं करती है। यह कई मामलों में कम या ज्यादा काम करता है, लेकिन शानदार रूप से विफल भी हो सकता है। मुझे व्यक्तिगत रूप से लगता है कि यह ध्यान में रखते हुए - अधिकांश अनुवाद सहायक हैं, और मुझे विश्वास नहीं है कि एमटी कंपनियां वापस पकड़ रही हैं। हो सकता है कि कुछ डोमेन-विशिष्ट अनुप्रयोग जो अधिक व्यावसायिक रूप से संवेदनशील हों, लेकिन व्यापक सामान्य एमटी नहीं।
ओलिवर मेसन

@ ओलीवरमासन: "आधुनिक तकनीकों का अनुवाद किए जाने वाले पाठ को समझने का प्रयास नहीं किया जाता है" - क्या यह सार बताया जाना है? मुझे एमटी के परिणामों को कैसे समझना है? काफी दुखी है। (एआई समुदाय के कुछ विरोधाभास बहुत स्वागत करेंगे!)
हंस-पीटर स्ट्रीकर

1
@ हंस-पीटरस्ट्राइकर: ठीक है, यह वास्तव में सभी ने शुरू किया जब फ्रेड जेलिनक ने देखा कि फायरिंग भाषाविदों ने उनकी भाषण पहचान को और अधिक सटीक बना दिया। तब से, मशीन लर्निंग के विभिन्न रूपों ने नियम-आधारित AI को पछाड़ दिया है, और अब हम शायद ही यह अंदाजा लगाते हैं कि ज्यादातर AI सिस्टम "वास्तव में काम करते हैं" - शायद स्टोचस्टिक स्तर पर।
केविन

2
@ हंस-पीटरस्ट्राइकर आधुनिक एआई प्रणाली को 'कुछ' समझने के रूप में सोचना वास्तव में उपयोगी नहीं है। इसे सिस्टम के रूप में अधिक सोचें जो इनपुट का एक सेट लेता है और आउटपुट का एक सेट बनाता है। इनपुट एक अंग्रेजी पाठ और आउटपुट एक स्पेनिश पाठ हो सकता है। इस प्रणाली ने अंग्रेजी ग्रंथों और उनके समकक्ष स्पेनिश ग्रंथों के एक पूरे समूह से 'सीखा' है। इसका मतलब यह है कि यह अंग्रेजी समझता है, या स्पेनिश समझता है? यह एक दर्शन प्रश्न है। व्यावहारिक रूप से क्या मायने रखता है कि यह कुछ हद तक विश्वसनीयता के साथ अंग्रेजी को स्पेनिश में बदल सकता है।
जोश एलर

इसका जवाब हलके में छुआ गया है, लेकिन मुझे लगता है कि इसकी कीमत इस बात की ओर इशारा करती है कि आप जिस भाषा के बारे में बात कर रहे हैं, उसका जवाब बहुत हद तक निर्भर करता है। अंग्रेजी में <-> स्पेनिश, कहने का गुण अंग्रेजी <-> जापानी से काफी अधिक है।
म्बिग

जवाबों:


21

किसने दावा किया कि मशीन अनुवाद मानव अनुवादक के रूप में अच्छा है? मेरे लिए, एक पेशेवर अनुवादक के रूप में, जो अब 35 वर्षों से अनुवाद पर अपना जीवन यापन करता है, एमटी का अर्थ है कि मानव गुणवत्ता अनुवाद का मेरा दैनिक उत्पादन स्रोत पाठ की जटिलता के आधार पर कारक 3 से 5 हो गया है।

मैं सहमत नहीं हो सकता कि एमटी की गुणवत्ता विदेशी भाषा इनपुट की लंबाई के साथ नीचे जाती है। यह शब्दार्थ और व्याकरणिक विश्लेषण के साथ पुरानी प्रणालियों के लिए सच हुआ करता था। मुझे नहीं लगता है कि मैं सभी पुराने सिस्टमों को जानता हूं (मैं सिमरन को जानता हूं, जो सीमेंस का एक कचरा उपकरण है जो एक कंपनी से दूसरी कंपनी को दानवीर के उपहार की तरह बेचा जाता है, XL8, व्यक्तिगत अनुवादक और अनुवाद), लेकिन यहां तक ​​कि एक पेशेवर प्रणाली भी जिसमें मैंने 28.000 DM (!!!!) का निवेश बुरी तरह से विफल किया।

उदाहरण के लिए, वाक्य:

इस गर्म गर्मी के दिन मुझे काम करना था और यह गधे में दर्द था।

जर्मन के लिए कई एमटी उपकरणों का उपयोग करके अनुवाद किया जा सकता है।

व्यक्तिगत अनुवादक 20 :

Auf diesem heißen Sommertag musste ich arbeiten, und es war ein Schmerz etel।

शीघ्र :

एक डीसम हेइमेन सोमेरटैग मस्तिक इच आर्बिटेन, अंडर एस वार ईन शार्मज़ इम एस्सेल।

गहरी :

एक डेसम हेइमेन सोमेरटैग मस्तिक इच आर्बिटेन अंडर एस वार ईइन क्वाल।

गूगल:

एक डेसम हेइमेन सोममेरटैग मस्तिक इच आर्बिटेन अंडर एस वार ईन श्मेरज़ इम अरस्च।

आज, Google आमतौर पर मुझे पढ़ने योग्य, लगभग सही अनुवाद के साथ प्रस्तुत करता है और डीपएल और भी बेहतर है। आज सुबह मैंने ३ घंटे में ३५०० शब्दों का अनुवाद किया और परिणाम निर्दोष है, हालांकि स्रोत पाठ गलतियों से भरा हुआ था (चीनी द्वारा लिखित)।


4
हम में से जो जर्मन में धाराप्रवाह नहीं हैं, यह स्पष्ट नहीं है कि इनमें से कौन सा विकल्प अच्छा और बुरा है। मुझे पता है कि "एसेल" का अर्थ है "गधा (जानवर)" और "आर्स्च" का अर्थ है "गधा (शरीर का हिस्सा)"। मुझे नहीं पता कि "क्वाल" का क्या अर्थ है, या अगर "ईन श्मर्ज़ इम अरस्च" स्वीकार्य है।
स्टिग हेमर

3
"Schmerz im Esel" हास्यपूर्ण (और गलत) है। "आर्च" एक सामान्य बोलचाल का शब्द है, जिसे आप लिखित जर्मन में उपयोग नहीं करेंगे। "Qual" "दर्द" है, इसलिए यह IMHO बेहतर विकल्प है, हालांकि यह बिल्कुल सटीक नहीं है, क्योंकि वाक्य वास्तविक दर्द के बजाय झुंझलाहट व्यक्त करता है।
ओलिवर मेसन

1
@OliverMason Qual एक अच्छा अनुवाद है: dict.leo.org/englisch-deutsch/qual
yunzen

4
@OliverMason मैं एक देशी जर्मन स्पीकर हूं और मैं इसे काफी अच्छी तरह से फिट करने के लिए मानता हूं
Yunzen

5
@ ओलिवर मैसन "गधे में दर्द" एक मुहावरा है। "Schmerz im Arsch" नहीं है: कोई भी ऐसा नहीं कहता है। "क्वाल" अंग्रेजी मुहावरे का एक सटीक अनुवाद है, जो आपने कहा के विपरीत, शायद ही कभी वास्तविक, शारीरिक दर्द को दर्शाता है (और, इसी तरह, "क्वाल" शाब्दिक और आलंकारिक दर्द दोनों हो सकता है)। अधिक संदर्भ के बिना डीपएल अनुवाद एकदम सही प्रतीत होता है।
कोनराड रुडोल्फ

7

Google के अनुवाद उपयोगी हो सकते हैं, खासकर यदि आप जानते हैं कि अनुवाद सही नहीं हैं और यदि आप केवल पाठ के अर्थ का प्रारंभिक विचार रखना चाहते हैं (जिसके Google के अनुवाद कभी-कभी काफी भ्रामक या गलत हो सकते हैं)। मैं गंभीर अनुवाद करने के लिए Google के अनुवाद (या किसी अन्य गैर-मानव अनुवादक) की सिफारिश नहीं करूंगा, जब तक कि यह संभवतः एक सामान्य वाक्य या शब्द नहीं है, इसमें बहुत लंबे पाठ और अनौपचारिक भाषा (या स्लैंग) शामिल नहीं है, अनुवाद शामिल हैं अंग्रेजी भाषा या आपके पास मानव अनुवादक तक पहुंच नहीं है।

Google अनुवाद वर्तमान में एक न्यूरल मशीन अनुवाद प्रणाली का उपयोग करता है । इस मॉडल (और इसी तरह के मॉडल) का मूल्यांकन करने के लिए, BLEU मैट्रिक ( 0 से 100 तक का पैमाना , जहां 100 मानव सोने के मानक अनुवाद से मेल खाती है) और साइड-बाय-साइड मूल्यांकन (अनुवादों का एक मानव दर) का उपयोग किया गया है। यदि आप केवल BLEU मीट्रिक का उपयोग करते हैं, तो मशीन के ट्रैस्लेशन काफी खराब हैं (लेकिन BLEU मीट्रिक भी एक सही मूल्यांकन मीट्रिक नहीं है, क्योंकि अक्सर दिए गए वाक्य के एक से अधिक अनुवाद होते हैं)। हालाँकि, GNMT वाक्यांश-आधारित मशीन अनुवाद (PBMT) की तुलना में अनुवाद त्रुटियों को कम करता है ।

पेपर मेकिंग एआई मीनिंगफुल अगेन में , लेखक अनुवाद के कार्य की कठिनाई (जिसे एआई-पूर्ण समस्या माना जाता है ) पर भी चर्चा करते हैं । वे ट्रांसफार्मर (एक और अत्याधुनिक मशीन अनुवाद मॉडल) का भी उल्लेख करते हैं , जो काफी खराब परिणाम प्राप्त करता है (BLEU मीट्रिक का उपयोग करके मूल्यांकन किया गया)।

निष्कर्ष निकालना, मशीनी अनुवाद एक कठिन समस्या है और वर्तमान मशीनी अनुवाद प्रणाली निश्चित रूप से एक पेशेवर मानव अनुवादक के रूप में अच्छा प्रदर्शन नहीं करती है।


100 BLEU स्कोर का मतलब मानव स्वर्ण-मानक अनुवाद नहीं है, इसका मतलब है कि यह संदर्भ अनुवाद से बिल्कुल मेल खाता है। जैसा कि आमतौर पर एक वाक्य का अनुवाद करने के कई तरीके होते हैं, यहां तक ​​कि मानव अनुवाद में आमतौर पर 100 BLEU नहीं होते हैं, लेकिन 50-60 से अधिक होते हैं।
21

@ अन्याय फिर से मेरा जवाब पढ़ें।
21

1
उत्तर के लिए धन्यवाद, और खेद है अगर मेरी पिछली टिप्पणी अशिष्ट दिखाई दी। मेरी पिछली टिप्पणी में मेरा कहना यह था कि यह गलत है कि मानव अनुवाद को 100 BLEU अंक मिलेंगे, जो कि आपका वर्तमान उत्तर लगता है।
सिर्फ

100

5

आपने बहुत सारे प्रश्न पूछे हैं, जिनमें से कुछ का उत्तर निश्चित रूप से नहीं दिया जा सकता है। मशीनी अनुवादों की गुणवत्ता (और इसके इतिहास) का विवरण देने के लिए मैं क्रिस्टोफर मैनिंग को उनके 'एक वाक्य बेंचमार्क' का उल्लेख करना पसंद करता हूं जैसा कि उनके व्याख्यान में प्रस्तुत किया गया है । इसमें एक चीनी से अंग्रेजी उदाहरण है, जिसकी तुलना Google अनुवाद आउटपुट से की जाती है। उदाहरण के लिए सही अनुवाद होगा:

1519 में, एज़्टेक साम्राज्य को कुछ मिलियन की आबादी के साथ जीतने के लिए छह सौ स्पेनियां मेक्सिको में उतरीं। उन्होंने पहली झड़प में अपने सैनिकों का दो तिहाई हिस्सा खो दिया।

Google अनुवाद ने निम्नलिखित अनुवाद लौटाए।

2009 1519 600 स्पेन में, एज़्टेक साम्राज्य को जीतने के लिए लाखों लोग स्पेन में उतरे, उनके नुकसान के खिलाफ सैनिकों के पहले दो-तिहाई।

2011 1519 600 स्पेन में मेक्सिको में उतरा, एज़्टेक साम्राज्य को जीतने के लिए लाखों लोग, सैनिकों का प्रारंभिक नुकसान, उनके दो तिहाई मुकाबले।

2013 1519 600 स्पेनियों ने एज़्टेक साम्राज्य को जीतने के लिए मेक्सिको में लाखों लोगों को उतारा, दो तिहाई सैनिकों का प्रारंभिक टकराव नुकसान।

2015 1519 600 स्पेनियों ने मेक्सिको में लैंडिंग की, एज़्टेक साम्राज्य को जीतने के लिए लाखों लोग, जिन सैनिकों से वे टकरा गए, उनके नुकसान का पहला दो-तिहाई हिस्सा।

2017 1519 में, 600 स्पैनिश मेक्सिको में उतरे, एज़्टेक साम्राज्य के लाखों लोगों को जीतने के लिए, पहला टकराव उन्होंने दो-तिहाई को मार दिया।

क्या Google अपने सर्वोत्तम परिणामों को बरकरार रखता है या 'छुपाता है': मुझे इसमें संदेह है। प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के क्षेत्र में कई उत्कृष्ट शोधकर्ता काम कर रहे हैं। यदि Google के पास अनुवाद के लिए एक 'सबसे बड़ी उपलब्धि' होगी, तो शोधकर्ता इसे जल्द या बाद में समझेंगे। (Google अपनी achievement सबसे बड़ी उपलब्धि ’को किसी भी तरह क्यों छिपाएगा? वे खुले स्रोत का लाभ देखते हैं, ट्रांसफार्मर [1] या BERT [2] देखें)

एनबी। एनएलपी में अत्याधुनिक एल्गोरिदम की एक अद्यतन सूची के लिए, SQuAD2.0 लीडरबोर्ड देखें

[१] वासवानी, आशीष, एट अल। "ध्यान आप सभी की जरूरत है।" न्यूरल इन्फर्मेशन प्रोसेसिंग सिस्टम्स में प्रगति। 2017।

[२] डेविन, जैकब, एट अल। "बर्ट: भाषा समझ के लिए गहरे द्विदिश ट्रांसफार्मर का पूर्व प्रशिक्षण।" arXiv प्रीप्रिंट arXiv: 1810.04805 (2018)।


"अच्छी तरह से मुआवजा शोधकर्ताओं" के लिए लिंक के लिए बहुत बहुत धन्यवाद। मन में क्षतिपूर्ति हमेशा चीजों को बेहतर ढंग से समझने में मदद करती है (हालांकि मुझे नहीं पता कि इस लिंक को सेट करते समय आपके मन में क्या था)।
हंस-पीटर स्ट्रीकर

तर्क बहुत ठोस भी नहीं था। लिंक को हटा दिया है और तर्क को बेहतर बनाने का प्रयास किया है। मैं एनएलपी के बहुत सारे पेपर पढ़ रहा हूं और अपने निष्कर्षों में काफी आश्वस्त हूं, लेकिन तर्क के लिए समर्थन पाने में मुश्किल है।
रिक्

कृपया मुझे अपने निष्कर्षों के बारे में बताएं (यदि आपको कोई आपत्ति नहीं है)। मेरा मेल पता मेरे प्रोफाइल पेज पर पाया जा सकता है।
हंस-पीटर स्ट्रीकर

1
2019 :In 1519, 600 Spaniards landed in Mexico to conquer the Aztec empire of millions of people, and they first met two-thirds of their soldiers.
दान एम।

4

यह वास्तव में भाषा की जोड़ी और सामग्री के विषय पर निर्भर करता है। अंग्रेजी से किसी अन्य भाषा में / से अनुवाद करना आमतौर पर सबसे अच्छा समर्थित है। उदाहरण के लिए और लोकप्रिय भाषाओं में अनुवाद करना बेहतर है, उदाहरण के लिए, अंग्रेजी से रोमानियाई में अनुवाद करना अंग्रेजी से रूसी की तुलना में खराब अनुवाद है। लेकिन अंग्रेजी से रूसी या रोमानियाई में अनुवाद करना रूसी से रोमानियाई में अनुवाद करने से बेहतर है। और रोमानियाई से अंग्रेजी का अनुवाद करने से बेहतर है अंग्रेजी का अनुवाद करना।

लेकिन अगर आपको अनुवादकों के साथ काम करने की आदत है और आप भाषाओं, अनुवाद की गलतियों और विषय से परिचित हैं, तो यह समझना आसान है कि वहाँ क्या होना चाहिए था। और, उस बिंदु पर, कभी-कभी अपनी मूल भाषा में अनुवादित किसी चीज़ को त्वरित स्कैनिंग के लिए पढ़ने की तुलना में इसे दूसरी भाषा में पढ़ना आसान होता है।

कम लोकप्रिय भाषाएं (बोलने वालों की संख्या में अनुवाद के लिए आवश्यक नहीं) केवल शाब्दिक अनुवादों के बहुत करीब हैं, जो आप व्यक्तिगत रूप से दो भाषाओं के लिए एक शब्दकोश का उपयोग करते हैं जो आप नहीं जानते हैं।


2

क्या मैं गलत हूं और अधिकांश उपयोगकर्ताओं के लिए Google के अनुवाद पठनीय, उपयोगी और उपयोगी हैं?

हां, वे कुछ हद तक सहायक हैं और आपको तेजी से अनुवाद करने की अनुमति देते हैं।

या क्या Google के पास अपनी सबसे बड़ी उपलब्धियों को बनाए रखने का कारण है (और उपयोगकर्ताओं को वह नहीं दिखा सकते हैं जो वे दिखा सकते हैं)?

शायद, मुझे नहीं पता। यदि आप जानकारी के लिए खोज करते हैं, तो Google वास्तव में बहुत ही भयानक बेवकूफ चीजें करता है, जैसे कि उपयोगकर्ता इंटरनेट पर जो कुछ भी सीखते हैं, वह अनुपयुक्त डेटा डेटा सेट के रूप में अनुपयुक्त डेटा लेते हैं।


2

अंग्रेजी में नहीं लिखने के लिए माफी। कृपया यहाँ अनुकूलित अनुवाद खोजें:

इच्छुक लोगों को एमटी (दीपएल) की गुणवत्ता का एक विचार देने के लिए कृपया इस उदाहरण को एक पाठ से देखें जो मैं आज सुबह काम कर रहा था (6,300 शब्द, सुबह 9 बजे शुरू हुआ, आज दोपहर 1 बजे के आसपास डिलीवरी हुई और अभी भी इस पोस्ट के लिए समय मिल गया)। जब मैं अपनी टिप्पणी पोस्ट कर रहा था तो मैं इस वाक्य (201 शब्दों) पर काम कर रहा था।

या जब आप इस वेबसाइट पर लॉग ऑन नहीं होते हैं या जो सक्रिय हैं, या जो सक्रिय हैं, या जो अन्यथा इस वेबसाइट के बुनियादी ढांचे पर अनुचित कार्य को रोकने या रखने के लिए सक्रिय हैं; या (ई) इस वेबसाइट के किसी भी पृष्ठ को "क्रॉल," "स्क्रैप", या "स्पाइडर" करने के लिए मैनुअल या स्वचालित सॉफ्टवेयर, उपकरणों या अन्य प्रक्रियाओं का उपयोग करें; या (एफ) डिकम्पाइल, रिवर्स इंजीनियर, या अन्यथा इस वेबसाइट के स्रोत कोड को प्राप्त करने का प्रयास करें। "

डीपएल ने इसे लौटाया:

सीइ वर्सिएरन, गेरंटिएरन अन वर्पफ्लिचेन सिच गेगेनबेरर एबीसी, डस सीइ डेस नीच ट्यून वेयरडेन: (ए) बीट्रुगेरिसे, मिसब्रुचेलिच ओडर और एंडरवेगिंग अवैध अटेविटैटेन डर्कजफुह्रैन, डाई अनलास फुर्र बेइंडिग इरिगैंग इरिगैंग इरिगैंग इरिगैंग oder (b) माइटिलुंगेन ओडर ऑफेरोडुंगेन, डाई डज़ु बेस्टिम्ट सिंड ओडर सिंड, पासवॉर्टर, कॉन्टेन ओडर प्राइवेट इन्फर्मेशन वॉन एंडरन न्यूटर्ज़ेन डाइसिस वेबसाइट ज़ू एर्ल्टेन, ज़ु पोस्टेन ओडर ज़ु यूबर्ट्रैगन ओडर पोस्टेन ओडेर ज़्यूरू ज़ेडू पोस्टिंग oder (c) डाई सिचेरिट ईन्स Computernetzwerks verletzen, Passwörter oder Sicherheitsverschlüsselungscodes नाकेन, गैरकानूनी सामग्री (einschlielichich सामग्री, das als bedrohlich oder obszön angesehen werden kannen)। ausdrücklich verboten sind; oder (d) Mailliste, Listucerver oder jede andere Form von Auto-Responder oder "Spam" auf dieser Website oder Prozesse, die ausgeführt werden'ser'ser aktiviert werden, während Sie nicht auf dieser Website angemeldvil sindeet sindeet sindeet बेलास्टुंग डेर इन्फ्रास्ट्रुक्टुर डाइसर वेबसाइट स्ट्रेन; oder (ई) मैनुअल ओडर ऑटोमैटिसरिटे सॉफ्टवेयर, गेरेट ओडर और तेरे प्रोज़ेसे वर्वेंडेन, उम ईइन सीइट डाइज़र वेबसाइट ज़ू "क्रॉलन", ज़ू क्रेटज़ेन, ज़ू स्पिननन ओडर ज़ू स्पिनन; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Website zu erhalten। डाई ausgeführt werden oder aktiviert werden, während Sie nicht auf dieser वेबसाइट angemeldet sind, oder die और anderweitig das ordnungsggäße फनकैटिएरिन oder eine unangemessene Belastung der Infrastruktur dieser वेबसाइट oder (ई) मैनुअल ओडर ऑटोमैटिसरिटे सॉफ्टवेयर, गेरेट ओडर और तेरे प्रोज़ेसे वर्वेंडेन, उम ईइन सीइट डाइज़र वेबसाइट ज़ू "क्रॉलन", ज़ू क्रेटज़ेन, ज़ू स्पिननन ओडर ज़ू स्पिनन; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Website zu erhalten। डाई ausgeführt werden oder aktiviert werden, während Sie nicht auf dieser वेबसाइट angemeldet sind, oder die और anderweitig das ordnungsggäße फनकैटिएरिन oder eine unangemessene Belastung der Infrastruktur dieser वेबसाइट oder (ई) मैनुअल ओडर ऑटोमैटिसरिटे सॉफ्टवेयर, गेरेट ओडर और तेरे प्रोज़ेसे वर्वेंडेन, उम ईइन सीइट डाइज़र वेबसाइट ज़ू "क्रॉलन", ज़ू क्रेटज़ेन, ज़ू स्पिननन ओडर ज़ू स्पिनन; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Website zu erhalten। zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Website zu erhalten। zu kratzen, zu spinnen oder zu spinnen; oder (f) dekompilieren, zurückzuentwickeln oder anderweitig zu versuchen, den Quellcode dieser Website zu erhalten।

इस अनुच्छेद को समायोजित करने में मुझे लगभग 5 से 10 मिनट का समय लगा।

एक अनुवादक के रूप में, मुझे पता है कि मैं मशीन अनुवाद पर भरोसा नहीं कर सकता, लेकिन मैंने समय के साथ विभिन्न प्रणालियों की बारीकियों और क्षमताओं को सीखा और मुझे पता है कि किस पर ध्यान देना है।

एमटी मुझे मेरे काम में बहुत मदद करता है।


2
ध्यान दें कि इस क्षेत्र में बहुभाषी ग्रंथों की एक बाल्टी होने के बाद से कानूनी ग्रंथ बेहतर स्वचालित अनुवाद पेश करते हैं।
क्वोरा फेंस

1

यह एक टिप्पणी के रूप में इतना जवाब नहीं होगा।

गुणवत्ता कई चीजों पर निर्भर करती है, जिसमें (जैसा कि हारून ने ऊपर कहा है) 1) भाषा जोड़ी और 2) विषय, लेकिन यह भी 3) जेनेरा और 4) मूल की शैली, और 5) समानांतर पाठ की मात्रा आपके पास है एमटी प्रणाली को प्रशिक्षित करने के लिए।

मंच को सेट करने के लिए, इन दिनों लगभग सभी एमटी समानांतर ग्रंथों पर आधारित है, जो कि दो अलग-अलग भाषाओं में एक पाठ है, जिसमें से एक संभवतः दूसरे का अनुवाद है (या दोनों किसी तीसरी भाषा का अनुवाद है); और संभावित रूप से विशेष शब्दों में समाहित नहीं होने पर बैकऑफ़ के रूप में शब्दकोशों (संभवतः रूपात्मक प्रक्रियाओं द्वारा सहायता प्राप्त) का उपयोग करना।

इसके अलावा, जैसा कि दूसरों ने कहा है, एक एमटी प्रणाली किसी भी तरह से उन ग्रंथों को नहीं समझती है जो यह अनुवाद कर रहा है; यह सिर्फ वर्णों के तारों को देखता है, और वर्णों से बने शब्दों का अनुक्रम करता है, और इससे पहले ग्रंथों में इसी तरह के तार और दृश्यों की तलाश होती है। (ठीक है, यह उससे थोड़ा अधिक जटिल है, और कम्प्यूटेशनल सिस्टम में शब्दार्थों को प्राप्त करने का प्रयास किया गया है, लेकिन अब यह ज्यादातर तार है।)

1) भाषाएं बदलती हैं। कुछ भाषाओं में बहुत सारी आकारिकी होती है, जिसका अर्थ है कि वे एक ही शब्द के साथ ऐसी चीजें करते हैं जो अन्य भाषाएं कई शब्दों के साथ करती हैं। एक सरल उदाहरण स्पेनिश 'कैंटेरमोस' = अंग्रेजी "हम गाएंगे" होगा। और एक भाषा ऐसी चीजें कर सकती है जो दूसरी भाषा के साथ भी परेशान नहीं करती है, जैसे कि स्पेनिश में अनौपचारिक / औपचारिक (ट्यू / usted) भेद, जो अंग्रेजी के बराबर नहीं है। या एक भाषा आकृति विज्ञान के साथ ऐसी चीजें कर सकती है जो दूसरी भाषा शब्द क्रम से करती है। या स्क्रिप्ट जो भाषा का उपयोग करती है वह शब्द सीमाएं (चीनी, और कुछ अन्य) को भी चिह्नित नहीं कर सकती है। दोनों भाषाओं में जितनी अधिक भिन्नता होगी, एमटी प्रणाली के लिए उनके बीच अनुवाद करना उतना ही कठिन होगा। सांख्यिकीय एमटी में पहला प्रयोग फ्रेंच और अंग्रेजी के बीच किया गया था,

2) विषय: यदि आपके पास बाइबिल में समानांतर पाठ हैं (जो लगभग किसी भी लिखित भाषाओं की जोड़ी के लिए सही है), और आप अपने एमटी सिस्टम को उन लोगों से दूर करते हैं, तो यह उम्मीद न करें कि यह इंजीनियरिंग ग्रंथों पर अच्छा काम करेगा। (खैर, बाइबल एमटी प्रणालियों के प्रशिक्षण के मानकों के अनुसार पाठ की अपेक्षाकृत छोटी मात्रा है, लेकिन :-) दिखावा करते हैं।) बाइबिल की शब्दावली इंजीनियरिंग ग्रंथों से बहुत अलग है, और इसलिए विभिन्न व्याकरणिक की आवृत्ति है निर्माण। (व्याकरण मूल रूप से समान है, लेकिन अंग्रेजी में, उदाहरण के लिए, आपको वैज्ञानिक और इंजीनियरिंग ग्रंथों में बहुत अधिक निष्क्रिय आवाज और अधिक यौगिक संज्ञाएं मिलती हैं।)

3) जेनेरा: यदि आपका समानांतर पाठ सभी घोषणात्मक है (जैसे ट्रैक्टर मैनुअल, कहते हैं), तो डायलॉग पर परिणामस्वरूप एमटी सिस्टम का उपयोग करने की कोशिश करने से आपको अच्छे परिणाम नहीं मिलेंगे।

4) स्टाइल: थिंक हिलेरी बनाम डोनाल्ड; erudite बनाम लोकप्रिय। एक पर प्रशिक्षण दूसरे पर अच्छा परिणाम नहीं मिलेगा। इसी तरह वयस्क स्तर के उपन्यासों पर एमटी प्रणाली का प्रशिक्षण और बच्चों की पुस्तकों पर इसका उपयोग करना।

5) भाषा युग्म: अंग्रेजी में बहुत सारे ग्रंथ हैं, और किसी अन्य भाषा में ग्रंथों को खोजने की संभावना है जो किसी दिए गए अंग्रेजी पाठ के समानांतर हैं, रूसी और इग्बो में समानांतर पाठ खोजने की संभावना से बहुत अधिक हैं। (कहा कि, भारत की भाषाओं की तरह इसके अपवाद भी हो सकते हैं।) सकल सामान्यीकरण के रूप में, इस तरह के समांतर ग्रंथों में आपको एमटी प्रणाली को प्रशिक्षित करना होगा, बेहतर परिणाम।

संक्षेप में, भाषा जटिल है (यही कारण है कि मैं इसे प्यार करता हूं - मैं एक भाषाविद् हूं)। तो यह कोई आश्चर्य की बात नहीं है कि एमटी सिस्टम हमेशा अच्छी तरह से काम नहीं करते हैं।

BTW, मानव अनुवादक हमेशा या तो इतनी अच्छी तरह से नहीं करते हैं। एक या दो दशक पहले, मुझे अंग्रेजी में मानव अनुवादकों के दस्तावेजों का अनुवाद मिल रहा था, एमटी सिस्टम के लिए प्रशिक्षण सामग्री के रूप में इस्तेमाल किया जाना था। अनुवादों में से कुछ को समझना मुश्किल था, और कुछ मामलों में जहां हमें दो (या अधिक) मानव अनुवादकों से अनुवाद मिला, यह विश्वास करना कठिन था कि अनुवादक उसी दस्तावेजों को पढ़ रहे थे।

और अंत में, वहाँ (लगभग) सिर्फ एक सही अनुवाद नहीं है; एक मार्ग का अनुवाद करने के कई तरीके हैं, जो कम या ज्यादा अच्छे हो सकते हैं, जो आप चाहते हैं कि सुविधाओं (व्याकरणिक शुद्धता, शैली, उपयोग की संगतता, ...) पर निर्भर करता है। "सटीकता" का कोई आसान उपाय नहीं है।


1

आश्चर्यजनक रूप से अन्य सभी उत्तर बहुत अस्पष्ट हैं और मानव अनुवादक POV से इस बारे में संपर्क करने की कोशिश करते हैं। चलो एमएल इंजीनियर पर स्विच करें।

अनुवाद टूल बनाते समय, पहले प्रश्नों में से एक जो हमें विचार करना चाहिए, "हम कैसे मापते हैं कि हमारा टूल काम करता है?"

जो अनिवार्य रूप से ओपी पूछ रहा है।

अब यह एक आसान काम नहीं है (कुछ अन्य उत्तर बताते हैं कि क्यों)। एक विकिपीडिया लेख है जिसमें मशीनी अनुवाद परिणामों के मूल्यांकन के विभिन्न तरीकों का उल्लेख किया गया है - दोनों मानव और स्वचालित स्कोर मौजूद हैं (जैसे कि BLEU , NIST , LEPOR )।

तंत्रिका नेटवर्क तकनीकों के उदय के साथ, उन अंकों में काफी सुधार हुआ।

अनुवाद एक जटिल समस्या है। कई चीजें हैं जो सही (या गलत) जा सकती हैं, और कंप्यूटर अनुवाद प्रणाली अक्सर कुछ सूक्ष्मताओं को अनदेखा करती है, जो मानव स्पीकर के लिए खड़ी होती है।

मुझे लगता है कि अगर हमें भविष्य के बारे में सोचना है, तो कुछ चीजें हैं जिन पर हम भरोसा कर सकते हैं:

  • हमारी तकनीकें बेहतर, व्यापक रूप से जानी और परखी जा रही हैं। यह लंबे समय में सटीकता में सुधार करने जा रहा है।
  • हम नई तकनीकों का विकास कर रहे हैं जो पहले अनदेखा किए गए वेरिएबल को ध्यान में रख सकते हैं या केवल एक बेहतर काम कर सकते हैं।
  • वर्तमान में कई मौजूदा अनुवाद मॉडल अक्सर अन्य भाषाओं का अनुवाद करने के लिए "पुन: उपयोग" किए जाते हैं (उदाहरण के लिए, पोलिश से चीनी (पारंपरिक) Google अनुवादक का उपयोग करके "JEDEN" का अनुवाद करने की कोशिश करें - आप "वन" के साथ समाप्त हो जाएंगे, जो एक सबूत है तथ्य यह है कि Google पोलिश का अंग्रेजी में अनुवाद करता है, और फिर चीनी से अंग्रेजी)। यह स्पष्ट रूप से एक अच्छा दृष्टिकोण नहीं है - आप इस प्रक्रिया में कुछ जानकारी खोने जा रहे हैं - लेकिन यह एक है जो अभी भी काम करेगा, इसलिए Google जैसी कंपनियां उन भाषाओं के लिए उपयोग करती हैं जहां उनके पास पर्याप्त कार्यशक्ति या डेटा नहीं है। समय के साथ, अधिक विशिष्ट मॉडल दिखाई देंगे, जो स्थिति में सुधार करेंगे।
  • इसके अलावा, जैसा कि पिछले बिंदु में कहा गया है, अधिक से अधिक डेटा केवल मशीन अनुवाद में सुधार करने में मदद करेगा।

संक्षेप में, यह जटिल समस्या, हालांकि हल नहीं हुई है, निश्चित रूप से एक अच्छे तरीके से है और अच्छी तरह से शोधित भाषा जोड़े के लिए कुछ प्रभावशाली परिणामों की अनुमति देती है।


"आश्चर्यजनक रूप से अन्य सभी उत्तर ...", अन्य सभी उत्तर नहीं। मैं कहूंगा "कुछ अन्य उत्तर" या "अधिकांश अन्य उत्तर"।
22

0

"या Google के पास अपनी उपलब्धियों को बनाए रखने के लिए कारण हैं (और उपयोगकर्ताओं को वे नहीं दिखा सकते हैं जो वे दिखा सकते हैं)"

यदि वे थे, तो वे जो पकड़ रहे हैं वह आश्चर्यजनक होगा । Google प्राकृतिक भाषा प्रसंस्करण में बहुत सारे मजबूत पत्र प्रकाशित करता है , जिनमें वे भी शामिल हैं जो कला परिणामों की स्थिति प्राप्त करते हैं या महत्वपूर्ण वैचारिक सफलताओं को बनाते हैं । उन्होंने बहुत उपयोगी डेटासेट और टूल भी जारी किए हैं । Google उन कुछ कंपनियों में से एक है जो न केवल वर्तमान शोध के अत्याधुनिक उपयोग कर रहा है, बल्कि साहित्य में सक्रिय रूप से योगदान दे रहा है।

मशीनी अनुवाद सिर्फ एक कठिन समस्या है। एक अच्छे मानव अनुवादक को कार्य को अच्छी तरह से करने के लिए दोनों भाषाओं में धाराप्रवाह होना चाहिए । प्रत्येक भाषा के अपने मुहावरे और गैर-शाब्दिक या संदर्भ-निर्भर अर्थ होंगे। बस एक दोहरे भाषा के शब्दकोश से काम करने से (मानव या कंप्यूटर के लिए) भयानक परिणाम मिलेंगे, इसलिए हमें मौजूदा कॉर्पोरा पर अपने मॉडल को प्रशिक्षित करने की आवश्यकता है जो कि कई भाषाओं में मौजूद हैं ताकि यह जानने के लिए कि वास्तव में शब्दों का उपयोग कैसे किया जाता है (नायब हाथ से संकलित वाक्यांश अनुवाद तालिकाओं को सुविधाओं के रूप में इस्तेमाल किया जा सकता है ; वे सिर्फ पूरी कहानी नहीं हो सकती हैं)। कुछ भाषा युग्मों के लिए, समानांतर कॉर्पोरा बहुतायत से हैं (जैसे यूरोपीय संघ की भाषाओं के लिए, हमारे पास यूरोपीय संसद की पूरी कार्यवाही है)। अन्य जोड़ों के लिए, प्रशिक्षण डेटा बहुत कम है। और यहां तक ​​कि अगर हमारे पास प्रशिक्षण डेटा है, तो भी कम इस्तेमाल किए जाने वाले शब्द और वाक्यांश मौजूद होंगे जो सीखने के लिए अक्सर पर्याप्त नहीं होते हैं।

यह एक और भी बड़ी समस्या हुआ करती थी, क्योंकि पर्यायवाची शब्दों के लिए कठिन थे। यदि हमारे प्रशिक्षण डेटा में "कुत्ते ने गेंद को पकड़ा" के वाक्य थे, लेकिन "पिल्ला ने गेंद को पकड़ा नहीं", तो हम दूसरे वाक्य के लिए कम संभावना के साथ समाप्त करेंगे। वास्तव में, इस तरह के कई मामलों में संभावना को शून्य होने से रोकने के लिए महत्वपूर्ण चौरसाई की आवश्यकता होगी ।

पिछले 15 वर्षों में तंत्रिका भाषा के मॉडल के उद्भव या तो इस समस्या के साथ बड़े पैमाने पर मदद की है, शब्दों के बीच संबंध सीखने से पहले एक वास्तविक मूल्यवान अर्थ स्थान पर मैप करने की अनुमति देकर । यह उन मॉडलों को सीखने की अनुमति देता है जिसमें अर्थ में एक साथ पास होने वाले शब्द भी शब्दार्थ स्थान में एक साथ करीब होते हैं, और इस तरह इसके पर्यायवाची के लिए एक शब्द को स्विच करने से युक्त वाक्य की संभावना को बहुत प्रभावित नहीं होगा। word2vecएक ऐसा मॉडल है जिसने इसे बहुत अच्छी तरह से चित्रित किया है; इससे पता चला कि आप "राजा" के लिए शब्दार्थ वेक्टर ले सकते हैं, "पुरुष" के लिए वेक्टर घटा सकते हैं, "महिला" के लिए वेक्टर जोड़ सकते हैं, और पा सकते हैं कि परिणामी वेक्टर का निकटतम शब्द "रानी" था। एक बार जब तंत्रिका भाषा के मॉडल का अनुसंधान बयाना में शुरू हुआ, तो हमने तत्काल (और प्राकृतिक पाठ द्वारा मॉडल को भ्रमित करने वाले) में तत्काल और बड़े पैमाने पर बूंदों को देखना शुरू कर दिया और हम अब BLEU स्कोर (अनुवाद की गुणवत्ता) में इसी वृद्धि को देख रहे हैं। भाषा के मॉडल को मशीनी अनुवाद प्रणालियों में एकीकृत किया जा रहा है।

मशीन अनुवाद अभी भी गुणवत्ता वाले मानव अनुवादों जितना अच्छा नहीं है, और संभवत: तब तक यह अच्छा नहीं होगा जब तक कि हम पूरी तरह से एआई क्रैक नहीं करते। लेकिन अच्छे मानव अनुवादक महंगे हैं, जबकि इंटरनेट एक्सेस वाले सभी के पास मशीन अनुवादक उपलब्ध हैं। सवाल यह नहीं है कि मानव अनुवाद बेहतर है, बल्कि मशीन गुणवत्ता के उस स्तर के कितने करीब पहुंचती है। वह अंतर सिकुड़ रहा है और सिकुड़ता जा रहा है।


मुझे यह तरीका पसंद नहीं है - लेकिन यह स्वाद और राय का मामला है। "सीखा / समझदार / समझदार" अनुवाद के बिना करना सिर्फ इसलिए कि "मानव अनुवादक महंगे हैं" मुझे दुखी करता है। फिर अनुवाद क्या है?
हंस-पीटर स्ट्रिकर

@ हंस-पीटरस्ट्राइकर अनुवाद उन लोगों के साथ संवाद करने में सक्षम होने के बारे में है जिनके साथ आप एक आम भाषा साझा नहीं करते हैं। मशीन अनुवाद वर्तमान में हमें कुछ हद तक अच्छा करने की अनुमति देने के लिए पर्याप्त है, हालांकि परिणामस्वरूप अनुवाद अक्सर गैर-देशी स्पीकर की तरह अनियमित या ध्वनि होते हैं। (जारी ...)
रे

"सीखा / समझदार / समझने" से आपका क्या मतलब है, इसके आधार पर, हम पहले से ही ऐसा कर रहे होंगे। सिमेंटिक वेक्टर की मैपिंग यही है; शब्द एक वेक्टर स्थान में अंतर्निहित हैं जो उनके अंतर्निहित अर्थ का प्रतिनिधित्व करता है। Sutskever पेपर I लिंक ("वैचारिक" के रूप में) वास्तव में एक अर्थ वेक्टर पर पूरे वाक्य को मैप करके अनुवाद करता है और फिर उस वेक्टर को लक्ष्य भाषा में एक वाक्य में परिवर्तित करता है। तो एक तरह की "समझ" निश्चित रूप से वहां हो रही है। (जारी ...)
रे

ऐसे मॉडल भी मौजूद हैं जो अंतर्निहित सिंटैक्स (यानी वाक्य संरचना) को सीखते हैं , और इसे तंत्रिका मॉडल में एकीकृत करने पर काम किया गया है , हालांकि इस समय, ऐसे मॉडल जो सीखते हैं कि किसी भी क्षण उन्हें वाक्य के किन हिस्सों पर ध्यान देना चाहिए। स्पष्ट वाक्य रचना मॉडल की तुलना में उस तरह की चीज़ को संभालने में अधिक प्रभावी होना। (जारी ...)
रे

अगर आपको नहीं लगता कि इस तरह की किसी भी "समझ" को ट्रू अंडरस्टैंडिंग के रूप में गिना जाता है, तो ट्यूरिंग टेस्ट पास करने वाले एआई के अलावा अन्य क्या गिना जाएगा , यानी पूरी तरह से एक? ध्यान दें कि मैंने कभी नहीं कहा कि हम एक पूरी तरह से AI नहीं बना सकते हैं (मैं यह नहीं कह सकता कि मुझे कितना समय लगेगा? यह मेरे क्षेत्र का नहीं है। लेकिन मुझे थोड़ा संदेह है कि हम अंततः वहां पहुंचेंगे)। लेकिन जिन मॉडलों का मैं यहां वर्णन कर रहा हूं , वे अब हम उपयोग कर रहे हैं , और वे लोगों को संवाद करने की अनुमति देने में काफी अच्छी तरह से काम करते हैं। एआई अनुसंधान सभी "अच्छा पर्याप्त" के क्रमिक रूप से बेहतर संस्करण प्राप्त करने के बारे में है
रे
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.