चरित्र एन्कोडिंग मुद्दों के परीक्षण के लिए "लोरम इप्सम" फाइलों का एक सेट है?


85

लेआउट के लिए हमारे पास हमारे प्रसिद्ध "लोरम इप्सम" पाठ है कि यह कैसा दिखता है।

मैं जिस चीज़ की तलाश कर रहा हूँ, वह कई अलग-अलग एन्कोडिंग्स के साथ पाठ एन्कोडेड फ़ाइलों का एक सेट है, जिसे मैं अपने JUnit परीक्षणों में कुछ तरीकों का परीक्षण करने के लिए उपयोग कर सकता हूं जो पाठ फ़ाइलों को पढ़ते समय चरित्र एन्कोडिंग के साथ काम कर रहे हैं।

उदाहरण:

एक के बाद ISO 8859-1इनकोडिंग परीक्षण फाइल और एक Windows-1252इनकोडिंग परीक्षण फ़ाइल। विंडोज -1252 को क्षेत्र में अंतर 16 16 - 9 एफ 16 को ट्रिगर करना होगा । दूसरे शब्दों में इसे आईएसओ 8859-1 से अलग करने के लिए इस क्षेत्र का कम से कम एक वर्ण होना चाहिए।

हो सकता है कि परीक्षण-फाइलों का सबसे अच्छा सेट वह हो, जहां प्रत्येक एन्कोडिंग के लिए परीक्षण-फ़ाइल में एक बार उसके सभी अक्षर शामिल हों। लेकिन शायद मैं sth के बारे में पता नहीं कर रहा हूँ - हम सभी को यह एन्कोडिंग सामान पसंद है, है ना? :-)

वहाँ बाहर चरित्र-एन्कोडिंग मुद्दों के लिए परीक्षण-फ़ाइलों का ऐसा सेट है?


1
+1: मैंने यूटीएफ -8 डिकोडर को लागू करने में अभी काफी समय बिताया है। सभी कोने के मामलों को संभालने से अधिक यूनिट परीक्षणों की आवश्यकता होती है जो आप सोच सकते हैं।
राधवल्द

4
"पाठ कई अलग-अलग एन्कोडिंग के साथ एन्कोडेड": अच्छे कवरेज के लिए आप नमूना बाइट अनुक्रम भी चाहते हैं जिसमें अमान्य बाइट्स होते हैं। UTF-8 विकिपीडिया पृष्ठ के अनुसार, उन मामलों को गलत बताते हुए कुछ उच्च प्रोफ़ाइल उत्पादों में सुरक्षा कमजोरियों को पेश किया गया है।
राधावल्द

@Raedwald बेशक, यह एक अच्छा बिंदु है। मुझे इस बारे में नहीं पता था। मेरी राय में एन्कोडिंग मुद्दों के लिए एक परिपक्व परीक्षण-सूट के लिए सिर्फ एक और कारण। इसमें फाइलों का एक सेट होना जरूरी नहीं है। यह एक पुस्तकालय भी हो सकता है जो परीक्षण डेटा प्रदान करता है जिसका उपयोग JUnit परीक्षणों में किया जा सकता है। उदाहरण के लिए, यह नमूना चार्ट बाइट अनुक्रमों को डिकोड करने के बाद तुलना के लिए सामान्य वर्ण और संदर्भ स्ट्रिंग्स के लिए महत्वपूर्ण / अमान्य बाइट अनुक्रम प्रदान कर सकता है। बस कुछ विचार और मुझे आश्चर्य है कि कैसे इस एन्कोडिंग सामान के आसपास के सभी कामों में परीक्षण किया गया ...
फेबियन बरनी

जवाबों:


26

कैसे ICU परीक्षण सूट फ़ाइलों का उपयोग करने की कोशिश कर रहा है ? मुझे नहीं पता कि वे आपके परीक्षण के लिए क्या चाहते हैं, लेकिन वे कम से कम / यूटीएफ मैपिंग फ़ाइलों को पूरा करने के लिए बहुत अच्छे लगते हैं: आईसीयू परीक्षण फ़ाइलों के लिए रेपो से लिंक करें


+1 मेरा पसंदीदा अब तक। मैं 1 घंटे के लिए दस्तावेज़ीकरण में पढ़ा था और मुझे वह सब कुछ प्रदान करने की आवश्यकता प्रतीत होती है - कम से कम यूनिकोड से संबंधित सामान के लिए।
फाबियन बार्नी

मुझे लगता है कि यह वास्तव में अब तक का सबसे अच्छा जवाब है। मैंने इसे स्वीकार किया और आशा है कि आपको इसके लिए कुछ प्रतिष्ठा मिलेगी। यदि एक सप्ताह पहले उत्तर दिया गया तो मुझे यकीन है कि यहां अन्य उत्तरों की तुलना में यह बेहतर प्रदर्शन करेगा। कोई बात नहीं धन्यवाद!
फेबियन बार्नी

41

पर विकिपीडिया लेख विशेषक बहुत व्यापक है, दुर्भाग्य से आप मैन्युअल रूप से इन पात्रों को निकालने के लिए है। इसके अलावा प्रत्येक भाषा के लिए कुछ शब्दावलियाँ मौजूद हो सकती हैं। उदाहरण के लिए पोलिश में हम उपयोग करते हैं:

ज़ाओलुक gęślą jaż

जिसमें एक सही वाक्य में सभी 9 पोलिश डायकिटिक्स शामिल हैं। एक अन्य उपयोगी खोज संकेत हैं pangrams : एक बार कम से कम वर्णमाला के हर पत्र का उपयोग कर वाक्य :

  • स्पैनिश में, " एल वल्ज़ो मर्सिएलागो हिंडू कोमिया फैलिज़ कार्डिलो वाई कीवी। ला सिगुएना टोकाबा एल सैक्सोफ़ान डेल्रेसे डेल पैलेक डे पाज़ा। " (सभी 27 अक्षर और विकटिक्स )।

  • रूसी में, " С Russianешь же е м хтих мягких французских булок, да выпей чаю " (सभी 33 रूसी सिरिलिक वर्णमाला पत्र)।

पैंग्राम की सूची में एक संपूर्ण सारांश है। किसी को भी इसे एक सरल में लपेटने की देखभाल:

public interface NationalCharacters {
  String spanish();
  String russian();
  //...
}

पुस्तकालय?


1
निश्चित रूप से यह एक +1 जवाब है। मैं इस उम्मीद में थोड़ा इंतजार करूँगा कि वहाँ वास्तव में परीक्षण-फाइलों का एक सुविचारित सेट है। क्योंकि दूसरों के शीर्ष पर एन्कोडिंग का निर्माण होता है, मुझे लगता है कि यह अंतर को ट्रिगर करने वाले प्रत्येक एन्कोडिंग के लिए परीक्षण फ़ाइलों को रखने के लिए बहुत अच्छा होगा। लेकिन शायद मैं गलत हूं और ऐसे अच्छे कारण हैं कि वे मौजूद नहीं हैं।
फेबियन बार्नी

8

मुझे किसी पूर्ण पाठ दस्तावेज़ का पता नहीं है, लेकिन यदि आप सभी वर्ण सेटों के एक साधारण अवलोकन के साथ शुरू कर सकते हैं, तो ftp.unicode.org सर्वर पर कुछ फाइलें उपलब्ध हैं

यहाँ उदाहरण के लिए विन्डोज़ -1252 है। पहला स्तंभ हेक्साडेसिमल वर्ण मान है, और दूसरा यूनिकोड मान है।

ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT


+1 आपके प्रयास के लिए धन्यवाद। फ़ाइलों का बहुत दिलचस्प संसाधन।
फेबियन बार्नी

1

खैर, मैंने लोरम इप्सम से अपने टेक्स्ट चार सेट बनाने के लिए एक ऑनलाइन टूल का इस्तेमाल किया था। मेरा मानना ​​है कि यह आपकी मदद कर सकता है। मेरे पास एक भी ऐसा नहीं है, जिसमें एक ही पृष्ठ पर सभी अलग-अलग चारसेट हों।

http://generator.lorem-ipsum.info /


4
लोरम इप्सम में केवल लैटिन अक्षर होते हैं, जैसा कि लैटिन में है। यह वह नहीं है जो यहां पूछा जा रहा है। BTW: repo1.maven.org/maven2/org/codeswarm/lipsum/1.0
टॉमाज़ नर्कविक्ज़
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.