किस पुस्तकालय का उपयोग करें?
इस लेखन के रूप में, वे तीन पुस्तकालय हैं जो उभरते हैं:
मैं अपाचे Any23 को शामिल नहीं करता हूं क्योंकि यह हुड के तहत ICU4j 3.4 का उपयोग करता है।
कैसे बताएं कि किसने सही चारसेट का पता लगाया है (या जितना संभव हो उतना करीब)?
प्रत्येक उपर्युक्त पुस्तकालयों द्वारा पता लगाए गए वर्ण को प्रमाणित करना असंभव है। हालांकि, बदले में उनसे पूछना संभव है और लौटी प्रतिक्रिया को स्कोर कर सकते हैं।
लौटी प्रतिक्रिया को कैसे स्कोर करें?
प्रत्येक प्रतिक्रिया को एक बिंदु सौंपा जा सकता है। एक प्रतिक्रिया के जितने अधिक बिंदु होते हैं, उतने अधिक आत्मविश्वास का पता चला चारसेट में होता है। यह एक साधारण स्कोरिंग विधि है। आप दूसरों को विस्तृत कर सकते हैं।
क्या कोई नमूना कोड है?
यहां पिछली पंक्तियों में वर्णित रणनीति को लागू करने वाला एक पूरा स्निपेट है।
public static String guessEncoding(InputStream input) throws IOException {
// Load input data
long count = 0;
int n = 0, EOF = -1;
byte[] buffer = new byte[4096];
ByteArrayOutputStream output = new ByteArrayOutputStream();
while ((EOF != (n = input.read(buffer))) && (count <= Integer.MAX_VALUE)) {
output.write(buffer, 0, n);
count += n;
}
if (count > Integer.MAX_VALUE) {
throw new RuntimeException("Inputstream too large.");
}
byte[] data = output.toByteArray();
// Detect encoding
Map<String, int[]> encodingsScores = new HashMap<>();
// * GuessEncoding
updateEncodingsScores(encodingsScores, new CharsetToolkit(data).guessEncoding().displayName());
// * ICU4j
CharsetDetector charsetDetector = new CharsetDetector();
charsetDetector.setText(data);
charsetDetector.enableInputFilter(true);
CharsetMatch cm = charsetDetector.detect();
if (cm != null) {
updateEncodingsScores(encodingsScores, cm.getName());
}
// * juniversalchardset
UniversalDetector universalDetector = new UniversalDetector(null);
universalDetector.handleData(data, 0, data.length);
universalDetector.dataEnd();
String encodingName = universalDetector.getDetectedCharset();
if (encodingName != null) {
updateEncodingsScores(encodingsScores, encodingName);
}
// Find winning encoding
Map.Entry<String, int[]> maxEntry = null;
for (Map.Entry<String, int[]> e : encodingsScores.entrySet()) {
if (maxEntry == null || (e.getValue()[0] > maxEntry.getValue()[0])) {
maxEntry = e;
}
}
String winningEncoding = maxEntry.getKey();
//dumpEncodingsScores(encodingsScores);
return winningEncoding;
}
private static void updateEncodingsScores(Map<String, int[]> encodingsScores, String encoding) {
String encodingName = encoding.toLowerCase();
int[] encodingScore = encodingsScores.get(encodingName);
if (encodingScore == null) {
encodingsScores.put(encodingName, new int[] { 1 });
} else {
encodingScore[0]++;
}
}
private static void dumpEncodingsScores(Map<String, int[]> encodingsScores) {
System.out.println(toString(encodingsScores));
}
private static String toString(Map<String, int[]> encodingsScores) {
String GLUE = ", ";
StringBuilder sb = new StringBuilder();
for (Map.Entry<String, int[]> e : encodingsScores.entrySet()) {
sb.append(e.getKey() + ":" + e.getValue()[0] + GLUE);
}
int len = sb.length();
sb.delete(len - GLUE.length(), len);
return "{ " + sb.toString() + " }";
}
सुधार:guessEncoding
विधि InputStream पूरी तरह पढ़ता है। बड़ी इनपुटस्ट्रीम के लिए यह एक चिंता का विषय हो सकता है। इन सभी पुस्तकालयों में पूरी इनपुटस्ट्रीम पढ़ी जाएगी। यह चारसेट का पता लगाने के लिए एक बड़े समय की खपत होगी।
प्रारंभिक डेटा लोडिंग को कुछ बाइट्स तक सीमित करना और केवल कुछ बाइट्स पर चारसेट का पता लगाना संभव है।