मैं कैसे एक हो सकता है के रूप में उत्सुक हूँ बहुत दृढ़तापूर्वक एक मनमाना के डोमेन सेक आईडीएन होस्ट नाम (के रूप में द्वारा परिभाषित RFC5890 ) और इस पर शक एक दिलचस्प चुनौती बन सकता है। यूनिकोड होस्ट या डोमेन नाम (यू-लेबल) में यूनिकोड वर्णों की एक स्ट्रिंग होती है, जो आमतौर पर शीर्ष-स्तरीय डोमेन (उदाहरण के लिए ग्रीक अक्षर .gr
) के आधार पर एक भाषा के लिए विवश होती है, जो कि ASCII स्ट्रिंग के साथ शुरू होता है xn--
(संगत) एक लेबल)।
न केवल औपचारिक आवश्यकताओं से डेटा मॉडल का निर्माण कर सकते हैं
प्रत्येक गैर-यूनिकोड लेबल एक स्ट्रिंग मिलान हो
^[a-z\d]([a-z\d\-]{0,61}[a-z\d])?$
;प्रत्येक ए-लेबल एक स्ट्रिंग मिलान हो
^xn--[a-z\d]([a-z\d\-]{0,57}[a-z\d])?$
; तथासंपूर्ण डोमेन की कुल लंबाई (ए-लेबल और गैर-आईडीएन लेबल के साथ ''। 'सीमांकक) अधिक वर्णों से अधिक है।
लेकिन विभिन्न उत्तराधिकारियों से भी, जिनमें शामिल हैं:
निचले क्रम के यू-लेबल अक्सर कुछ प्राकृतिक भाषा में उचित संज्ञा और अंक (अंक के अलावा अप्रकाशित, हाइफ़न को छोड़कर, व्हाट्सएप से छीन लिया जाता है और प्रति नामप्रेप से मुड़ा हुआ होता है ), छोटे वाक्यांशों के लिए प्राथमिकता के साथ लेक्सिकली , वाक्यविन्यास और शब्दार्थ रूप से मान्य वाक्यांश होते हैं; तथा
उच्च-क्रम वाले लेबल SLDs और TLD के शब्दकोश से तैयार किए गए हैं और यह अनुमान लगाने के लिए संदर्भ प्रदान करते हैं कि निचले क्रम के लेबल में किस प्राकृतिक भाषा का उपयोग किया जाता है।
मुझे डर है कि डेटा की इन विशिष्ट विशेषताओं पर विचार किए बिना इस तरह के छोटे तारों का अच्छा संपीड़न प्राप्त करना मुश्किल होगा और इसके अलावा, मौजूदा पुस्तकालय अपने सामान्य उपयोग के मामलों को व्यवस्थित करने के लिए अनावश्यक ओवरहेड का उत्पादन करेंगे।
मैट महनी की ऑनलाइन पुस्तक डेटा संपीड़न को पढ़ना , यह स्पष्ट है कि उपरोक्त मौजूदा (और / या अन्य) मॉडलिंग मान्यताओं का लाभ उठाने के लिए कई मौजूदा तकनीकों को नियोजित किया जा सकता है, जिसके परिणामस्वरूप कम बेहतर उपकरण बनाम कम विशिष्ट उपकरणों के परिणामस्वरूप होना चाहिए।
संदर्भ के अनुसार, यह सवाल एसओ पर पिछले एक से एक ऑफशूट है ।
प्रारंभिक विचार
यह बताता है कि यह समस्या ऑफ़लाइन प्रशिक्षण के लिए एक उत्कृष्ट उम्मीदवार है और मैं निम्नलिखित लाइनों के साथ एक संकुचित डेटा प्रारूप की परिकल्पना करता हूं:
" पब्लिक प्रत्यय " का एक हफ़मैन कोडिंग , डोमेन पंजीकरण या ट्रैफ़िक वॉल्यूम के कुछ प्रकाशित स्रोत से खींची गई संभावनाओं के साथ;
शेष यू-लेबल के लिए हफ़मैन कोडिंग (प्राकृतिक भाषा) मॉडल का उपयोग किया जाता है, जिसमें डोमेन पंजीकरण के कुछ प्रकाशित स्रोत या ट्रैफ़िक वॉल्यूम के संदर्भ में दिए गए प्रायिकता के साथ डोमेन प्रत्यय का संदर्भ दिया जाता है;
निर्दिष्ट प्राकृतिक भाषा मॉडल से कुछ शब्दकोश-आधारित परिवर्तन लागू करें; तथा
यू-लेबल में प्रत्येक चरित्र का एक अंकगणितीय कोडिंग, ऑफ़लाइन प्रशिक्षण से प्राप्त प्रासंगिक अनुकूली प्राकृतिक भाषा मॉडल से खींची गई संभावनाओं के साथ (और शायद ऑनलाइन भी है, हालांकि मुझे संदेह है कि डेटा किसी भी सार्थक अंतर्दृष्टि प्रदान करने के लिए बहुत कम हो सकता है?)।
.in-addr.arpa
; आईपी कभी बदलता है तो भी टूट जाता है।