HTML5 लैंग विशेषता का भाषा + क्षेत्र मान


11

मैं एक वेबसाइट पर काम कर रहा हूं, जो language+regionइस W3.org पेज पर वर्णित दृष्टिकोण के अनुसार स्थानीयकृत सामग्री की पेशकश करेगा (उदाहरण के fr-CAलिए कनाडाई फ्रांसीसी सामग्री, और fr-FR"फ्रेंच फ्रेंच" सामग्री के लिए)। जैसा कि हम प्रत्येक के language+regionलिए सामग्री को विशिष्ट मानते हैं , हमारे लिए यह महत्वपूर्ण है कि खोज इंजन ठीक से सामग्री की पहचान करें और उसकी सेवा करें।

इंटरनेट पर देखने से (जैसे यह सवाल ), ऐसा प्रतीत होता है कि ज्यादातर लोग सामग्री की भाषा का वर्णन करने के लिए HTML विशेषता में ISO639 भाषा कोड के उपयोग की सलाह देते langहैं। इस सिफारिश के बाद, हम <html lang="fr">ऊपर दिए गए language+regionसंयोजनों के बीच भेदभाव को सक्षम नहीं करेंगे ।

एचटीएमएल 4 विनिर्देश की समीक्षा करते समय , ऐसा लगता है कि language+regionभाषा कोड के रूप में उपयोग करना पूरी तरह से ठीक होगा, क्योंकि en-USउदाहरण एक संभावित मूल्य के रूप में दिया गया है। हालाँकि मुझे एचटीएमएल 5 विनिर्देश में इसकी कोई पुष्टि नहीं मिली है जो कि संभावित अनुमत मानों के रूप में कोई उदाहरण प्रदान नहीं करता है।

वहाँ से मैंने वेब दिग्गज क्या कर रहे हैं, यह देखकर एक वास्तविक उत्तर पाने की कोशिश की। मैंने देखा कि फेसबुक क्या कर रहा है: वे अपनी वेबसाइटों के कैंडियन फ्रेंच और फ्रेंच फ्रेंच संस्करणों की पेशकश करते हैं (थोड़ी) अलग सामग्री के साथ, जबकि HTML langमूल्य समान रहता है:

fr-CA
URL: http://fr-ca.facebook.com
HTML लैंग विशेषता: <html lang="fr">
'ईमेल' शब्द का अनुवाद:courriel

fr-FR
URL: http://fr-fr.facebook.com/
HTML लैंग विशेषता: <html lang="fr">
'ईमेल' शब्द का अनुवाद:Adresse électronique

language+regionHTML5 में दृष्टिकोण का उपयोग करके स्थानीयकृत सामग्री का वर्णन करने का अनुशंसित / मानक तरीका क्या है ?

जवाबों:


5

W3C भाषा के टैग / सबटैग चुनने पर यह बहुत लंबा गाइड प्रदान करता है ।

महत्वपूर्ण बिट्स:

भाषा टैग सिंटैक्स IETF के BCP 47 द्वारा परिभाषित किया गया है । अतीत में सही उपटैग खोजने के लिए विभिन्न आईएसओ मानकों में कोडों की सूचियों से परामर्श करना आवश्यक था, लेकिन अब आपको केवल IANA भाषा उपशीर्षक रजिस्ट्री में देखने की जरूरत है । हम नीचे नई रजिस्ट्री का वर्णन करेंगे।

यह लेख भाषा टैग के घटकों को चुनने के बारे में सलाह देता है। BCP 47 में परिभाषित अवधारणाओं के अवलोकन के लिए, HTML और XML में भाषा टैग देखें ।

...

ऐसे उपकरण उपलब्ध हैं जो रजिस्ट्री की खोज करते समय अतिरिक्त सहायता प्रदान करते हैं, जैसे कि रिचर्ड इशिदा का लैंग्वेज सबटैग लुकअप टूल

...

सुनिश्चित करें कि आपके पास सही भाषा है। कभी-कभी, यह कुछ विकल्पों की जांच करने के लिए भुगतान करता है। BCP47 के सह-लेखक मार्क डेविस लिखते हैं, "अक्सर यह स्पष्ट नहीं होता है कि किस भाषा के पहचानकर्ता का उपयोग करना है। उदाहरण के लिए, पाकिस्तान में ज्यादातर लोग पंजाबी को क्या कहते हैं, वास्तव में कोड 'लाह' है, और औपचारिक नाम 'लाहंडा' है। कई हैं। अन्य मामले जहां अलग-अलग भाषाओं के लिए एक ही नाम का उपयोग किया जाता है, या जहां वह नाम है जिसे लोग खोजते हैं वह IANA रजिस्ट्री में सूचीबद्ध नहीं है। "

आप एसआईएल एथनोलॉग में भाषा की जानकारी देख सकते हैं और विकिपीडिया के साथ उस संदर्भ को पार कर सकते हैं । Ethnologue BCP47 के समान तीन-अक्षर कोड का उपयोग करता है, लेकिन आपको BCP47 2-अक्षर कोड को अपने ISO 639-3 समकक्ष में कोड द्वारा भाषा देखने के लिए परिवर्तित करना होगा । ( रिचर्ड इशिदा का टूल आपके लिए ऐसा करता है)

ऐसे मामलों की एक छोटी संख्या है जहां विभिन्न भाषा कोड उपलब्ध हैं, जो कई लोगों को एक ही भाषा के रूप में मानते हैं, जैसे। फिलिपिनो और तागालोग, या ट्वी और अकान। रजिस्ट्री में ऐसा कोई संकेत नहीं है जिसके रूप में आपको उपयोग करना चाहिए, लेकिन आपको यह सुनिश्चित करने का प्रयास करना चाहिए कि एक भी आवेदन या संदर्भ में आप सुसंगत हैं।

(जोर मेरा)

यह ध्यान दिया जाना चाहिए कि IANA भाषा सबटैग रजिस्ट्री उपयोग करने के लिए कठिन है। दादाजी के टैग (जैसे en-GB-oed) के अपवाद के साथ , आपको भाषा परिवार का टैग और क्षेत्र / संस्करण अलग से देखना होगा। और टैग / सबटैग पदानुक्रम के बजाय टाइप द्वारा आयोजित किए जाते हैं। तो बस अपने आप को समय और परेशानी से बचाएं और रिचर्ड इशिदा के भयानक लुकअप टूल का उपयोग करें ।


2

यदि वे वास्तविक सामग्री के अनुरूप हैं, तो उपयोग करना <html lang="fr-FR">और <html lang="fr-CA">ठीक है। लेकिन उन्हें खोज इंजन द्वारा अनदेखा किया जाता <html lang="fr">है , जैसा कि है।

एचटीएमएल 5 का मतलब भाषा कोड के उपयोग को बदलना नहीं है। बीसीपी 47 में परिभाषित कोड की प्रणाली और इसके विस्तार के बारे में बहुत विस्तृत है और आपको दर्दनाक विलोम पर एक भाषा संस्करण निर्दिष्ट करने देता है। कला की स्थिति बहुत अधिक सरल स्तरों पर है, और fr-FR और fr-CA सर्वश्रेष्ठ दानेदारी का प्रतिनिधित्व करते हैं जो आप सॉफ्टवेयर में इन दिनों प्राप्त कर सकते हैं; अक्सर, बस मुख्य कोड (यहां, fr) मायने रखता है।

खोज इंजन का कोई सबूत नहीं है, जो वास्तव में भाषा कोड की किसी भी घोषणाओं पर ध्यान दे रहा है, जैसे कि langविशेषताएँ। अन्य सॉफ़्टवेयर, जैसे कि हाइफ़नेटर, स्पेलिंग चेकर्स, स्पीच सिंथेसाइज़र और डिफ़ॉल्ट फॉन्ट सिलेक्शन एल्गोरिदम, langविशेषताओं को ध्यान में रख सकते हैं । लेकिन खोज इंजन वास्तविक सामग्री के आधार पर अपने अनुमानी विश्लेषण करते हैं।

इसके लिए उन्हें दोष देना मुश्किल है, क्योंकि यह langविशेषताओं पर भरोसा करने से बेहतर परिणाम पैदा करता है । उदाहरण के लिए, कई संलेखन उपकरण स्वचालित रूप lang="en"से वास्तविक सामग्री की परवाह किए बिना लेखक को बताए बिना उत्पन्न करते हैं।


2

[यह मेरा सबसे मजबूत क्षेत्र नहीं है, इसलिए मैं यहां सिर्फ प्रलेखन का हवाला दे रहा हूं, लेकिन ऐसा लगता है कि आपने कुछ अनदेखी की है।]

HTML5 कल्पना के लिए आवश्यक है कि langमान एक मान्य BCP 47 टैग हो । उस दस्तावेज़ में, संबंधित बिट धारा 3.4 में लगता है:

उदाहरण के लिए, एक कार्यान्वयन विस्तारित भाषा श्रेणियों को मूल श्रेणियों में मैप कर सकता है। एएससीआईआई-क्रम में पहली बार मिलान टैग वापस करने के लिए कार्यान्वयन के लिए एक और संभावना होगी। यदि भाषा श्रेणी "* -CH" ('CH' स्विट्जरलैंड का प्रतिनिधित्व करती है) और टैग के सेट में "de-CH" (जर्मन जैसा कि स्विट्जरलैंड में इस्तेमाल किया गया), "fr-CH" (फ्रेंच, स्विट्जरलैंड), और "यह शामिल है -सीएच "(इतालवी, स्विट्जरलैंड), फिर" डी-सीएच "टैग वापस आ जाएगा।

... जो कि जब आप इसे देखते हैं तो मूल रूप से आपको RFC1766 का हवाला देते हुए HTML 4 कल्पना से मिला है, बस बहुत अधिक विस्तार से।


मुझे आपके द्वारा उद्धृत पैराग्राफ का पता लगाने में कठिनाई हो रही है (मैंने इसके लिंक और अनुभाग 3.4 में कुछ कीवर्ड खोजे और कुछ भी नहीं पा सका)। क्या आप कृपया मुझे इसका लिंक प्रदान कर सकते हैं? (यदि संभव हो तो हैश टैग के साथ आदर्श रूप से)।
मैक्स

HTML 5 युक्ति केवल आवश्यक प्रारूप को संदर्भित करता है। उद्धृत बिट BCP 47 लिंक से है, जिसमें वह प्रारूप वास्तव में परिभाषित है।
सु '
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.