चरित्र एन्कोडिंग मुद्दों के परीक्षण के लिए "लोरम इप्सम" फाइलों का एक सेट है?

Question 1

लेआउट के लिए हमारे पास हमारे प्रसिद्ध "लोरम इप्सम" पाठ है कि यह कैसा दिखता है।

मैं जिस चीज़ की तलाश कर रहा हूँ, वह कई अलग-अलग एन्कोडिंग्स के साथ पाठ एन्कोडेड फ़ाइलों का एक सेट है, जिसे मैं अपने JUnit परीक्षणों में कुछ तरीकों का परीक्षण करने के लिए उपयोग कर सकता हूं जो पाठ फ़ाइलों को पढ़ते समय चरित्र एन्कोडिंग के साथ काम कर रहे हैं।

उदाहरण:

एक के बाद ISO 8859-1इनकोडिंग परीक्षण फाइल और एक Windows-1252इनकोडिंग परीक्षण फ़ाइल। विंडोज -1252 को क्षेत्र में अंतर _{16 16} - 9 एफ ₁₆ को ट्रिगर करना होगा । दूसरे शब्दों में इसे आईएसओ 8859-1 से अलग करने के लिए इस क्षेत्र का कम से कम एक वर्ण होना चाहिए।

हो सकता है कि परीक्षण-फाइलों का सबसे अच्छा सेट वह हो, जहां प्रत्येक एन्कोडिंग के लिए परीक्षण-फ़ाइल में एक बार उसके सभी अक्षर शामिल हों। लेकिन शायद मैं sth के बारे में पता नहीं कर रहा हूँ - हम सभी को यह एन्कोडिंग सामान पसंद है, है ना? :-)

वहाँ बाहर चरित्र-एन्कोडिंग मुद्दों के लिए परीक्षण-फ़ाइलों का ऐसा सेट है?

Question 2

कैसे ICU परीक्षण सूट फ़ाइलों का उपयोग करने की कोशिश कर रहा है ? मुझे नहीं पता कि वे आपके परीक्षण के लिए क्या चाहते हैं, लेकिन वे कम से कम / यूटीएफ मैपिंग फ़ाइलों को पूरा करने के लिए बहुत अच्छे लगते हैं: आईसीयू परीक्षण फ़ाइलों के लिए रेपो से लिंक करें

Question 3

पर विकिपीडिया लेख विशेषक बहुत व्यापक है, दुर्भाग्य से आप मैन्युअल रूप से इन पात्रों को निकालने के लिए है। इसके अलावा प्रत्येक भाषा के लिए कुछ शब्दावलियाँ मौजूद हो सकती हैं। उदाहरण के लिए पोलिश में हम उपयोग करते हैं:

ज़ाओलुक gęślą jaż

जिसमें एक सही वाक्य में सभी 9 पोलिश डायकिटिक्स शामिल हैं। एक अन्य उपयोगी खोज संकेत हैं pangrams : एक बार कम से कम वर्णमाला के हर पत्र का उपयोग कर वाक्य :

स्पैनिश में, " एल वल्ज़ो मर्सिएलागो हिंडू कोमिया फैलिज़ कार्डिलो वाई कीवी। ला सिगुएना टोकाबा एल सैक्सोफ़ान डेल्रेसे डेल पैलेक डे पाज़ा। " (सभी 27 अक्षर और विकटिक्स )।

रूसी में, " С Russianешь же е м хтих мягких французских булок, да выпей чаю " (सभी 33 रूसी सिरिलिक वर्णमाला पत्र)।

पैंग्राम की सूची में एक संपूर्ण सारांश है। किसी को भी इसे एक सरल में लपेटने की देखभाल:

public interface NationalCharacters {
  String spanish();
  String russian();
  //...
}

पुस्तकालय?

Question 4

मुझे किसी पूर्ण पाठ दस्तावेज़ का पता नहीं है, लेकिन यदि आप सभी वर्ण सेटों के एक साधारण अवलोकन के साथ शुरू कर सकते हैं, तो ftp.unicode.org सर्वर पर कुछ फाइलें उपलब्ध हैं

यहाँ उदाहरण के लिए विन्डोज़ -1252 है। पहला स्तंभ हेक्साडेसिमल वर्ण मान है, और दूसरा यूनिकोड मान है।

ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT

Question 5

खैर, मैंने लोरम इप्सम से अपने टेक्स्ट चार सेट बनाने के लिए एक ऑनलाइन टूल का इस्तेमाल किया था। मेरा मानना है कि यह आपकी मदद कर सकता है। मेरे पास एक भी ऐसा नहीं है, जिसमें एक ही पृष्ठ पर सभी अलग-अलग चारसेट हों।

http://generator.lorem-ipsum.info /