"Java.nio.charset.MalformedInputException: इनपुट लंबाई = 1" से बचने के लिए सभी समावेशी चारसेट?

Question 1

मैं जावा में एक सरल वर्डकाउंट प्रोग्राम बना रहा हूं जो निर्देशिका की पाठ-आधारित फ़ाइलों के माध्यम से पढ़ता है।

हालाँकि, मैं त्रुटि प्राप्त करता रहता हूँ:

java.nio.charset.MalformedInputException: Input length = 1

कोड की इस पंक्ति से:

BufferedReader reader = Files.newBufferedReader(file,Charset.forName("UTF-8"));

मुझे पता है कि मुझे शायद यह मिल गया है क्योंकि मैंने एक का उपयोग किया है Charsetजिसमें पाठ फ़ाइलों में कुछ वर्ण शामिल नहीं थे, जिनमें से कुछ में अन्य भाषाओं के वर्ण शामिल थे। लेकिन मैं उन किरदारों को शामिल करना चाहता हूं।

मैंने बाद में JavaDocs में सीखा कि Charsetवैकल्पिक है और केवल फाइलों के अधिक कुशल पढ़ने के लिए उपयोग किया जाता है, इसलिए मैंने कोड बदल दिया:

BufferedReader reader = Files.newBufferedReader(file);

लेकिन कुछ फाइलें अभी भी फेंकती हैं MalformedInputException। मुझे पता नहीं क्यों।

मैं सोच रहा था कि क्या कोई सर्व-समावेशी है Charsetजो मुझे कई अलग-अलग प्रकार के पात्रों के साथ पाठ फ़ाइलों को पढ़ने की अनुमति देगा ?

धन्यवाद।

Question 2

आप शायद समर्थित एन्कोडिंग की एक सूची रखना चाहते हैं। प्रत्येक फ़ाइल के लिए, प्रत्येक एन्कोडिंग को ट्राई करें, शायद UTF-8 से शुरू हो। हर बार जब आप पकड़ते हैं MalformedInputException, तो अगले एन्कोडिंग का प्रयास करें।

Question 3

Files.newBufferedReader से बफर बनाना

Files.newBufferedReader(Paths.get("a.txt"), StandardCharsets.UTF_8);

एप्लिकेशन को चलाते समय वह निम्न अपवाद को फेंक सकता है:

java.nio.charset.MalformedInputException: Input length = 1

परंतु

new BufferedReader(new InputStreamReader(new FileInputStream("a.txt"),"utf-8"));

अच्छा काम करता है।

अलग यह है कि, पूर्व चारसेटडेकोडर डिफ़ॉल्ट क्रिया का उपयोग करता है।

विकृत-इनपुट और अयोग्य-वर्ण त्रुटियों के लिए डिफ़ॉल्ट कार्रवाई उन्हें रिपोर्ट करना है।

जबकि बाद में उत्तर कार्रवाई का उपयोग करता है।

cs.newDecoder().onMalformedInput(CodingErrorAction.REPLACE).onUnmappableCharacter(CodingErrorAction.REPLACE)

Question 4

ISO-8859-1 एक सर्व-समावेशी चारसेट है, इस अर्थ में कि यह MalformedInputException को न फेंकने की गारंटी है। तो यह डिबगिंग के लिए अच्छा है, भले ही आपका इनपुट इस चारसेट में न हो। इसलिए:-

req.setCharacterEncoding("ISO-8859-1");

मेरे इनपुट में कुछ डबल-राइट-कोट / डबल-लेफ्ट-क्वैच कैरेक्टर थे, और US-ASCII और UTF-8 दोनों ने उन पर MalformedInputException फेंकी, लेकिन ISO-8859-1 ने काम किया।

Question 5

मुझे भी त्रुटि संदेश के साथ इस अपवाद का सामना करना पड़ा,

java.nio.charset.MalformedInputException: Input length = 1
at java.nio.charset.CoderResult.throwException(Unknown Source)
at sun.nio.cs.StreamEncoder.implWrite(Unknown Source)
at sun.nio.cs.StreamEncoder.write(Unknown Source)
at java.io.OutputStreamWriter.write(Unknown Source)
at java.io.BufferedWriter.flushBuffer(Unknown Source)
at java.io.BufferedWriter.write(Unknown Source)
at java.io.Writer.write(Unknown Source)

और पाया कि कुछ अजीब बग तब होता है जब उपयोग करने की कोशिश की जाती है

BufferedWriter writer = Files.newBufferedWriter(Paths.get(filePath));

एक कक्षा में एक सामान्य प्रकार से एक स्ट्रिंग "orazg 54" कास्ट लिखने के लिए।

//key is of generic type <Key extends Comparable<Key>>
writer.write(item.getKey() + "\t" + item.getValue() + "\n");

यह स्ट्रिंग लंबाई 9 की है जिसमें निम्नलिखित कोड बिंदुओं के साथ वर्ण हैं:

111 114 97 122 103 9 53 52 10

हालाँकि, यदि वर्ग में बफ़रड्राइवर को प्रतिस्थापित किया जाता है:

FileOutputStream outputStream = new FileOutputStream(filePath);
BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(outputStream));

यह अपवाद के बिना इस स्ट्रिंग को सफलतापूर्वक लिख सकता है। इसके अलावा, अगर मैं एक ही स्ट्रिंग लिखता हूं तो यह अभी भी ठीक काम करने वाले पात्रों से बनाता है।

String string = new String(new char[] {111, 114, 97, 122, 103, 9, 53, 52, 10});
BufferedWriter writer = Files.newBufferedWriter(Paths.get("a.txt"));
writer.write(string);
writer.close();

पहले मैं किसी भी अपवाद का सामना नहीं किया है जब किसी भी स्ट्रिंग्स को लिखने के लिए पहले बफ़रविटर का उपयोग कर रहा हूं। यह एक अजीब बग है जो java.nio.file.Files.newBufferedWriter (पथ, विकल्प) से निर्मित बफ़रविटर को होता है।

Question 6

ISO_8859_1 मेरे लिए काम करता है! मैं अल्पविराम से अलग मूल्यों के साथ पाठ फ़ाइल पढ़ रहा था

Question 7

मैंने उपलब्ध वर्णों के आधार पर परिणामों की सूची प्रिंट करने के लिए निम्नलिखित लिखा है। ध्यान दें कि यह आपको यह भी बताता है कि किसी समस्या के कारण चरित्र किस समस्या का निवारण कर रहा है, यह 0 आधारित पंक्ति संख्या से पंक्ति विफल हो जाती है।

public static void testCharset(String fileName) {
    SortedMap<String, Charset> charsets = Charset.availableCharsets();
    for (String k : charsets.keySet()) {
        int line = 0;
        boolean success = true;
        try (BufferedReader b = Files.newBufferedReader(Paths.get(fileName),charsets.get(k))) {
            while (b.ready()) {
                b.readLine();
                line++;
            }
        } catch (IOException e) {
            success = false;
            System.out.println(k+" failed on line "+line);
        }
        if (success) 
            System.out.println("*************************  Successs "+k);
    }
}

Question 8

यह कोशिश करो .. मैं एक ही मुद्दा था, नीचे कार्यान्वयन मेरे लिए काम किया

Reader reader = Files.newBufferedReader(Paths.get(<yourfilewithpath>), StandardCharsets.ISO_8859_1);

फिर रीडर का उपयोग करें जहाँ आप कभी भी चाहते हैं।

foreg:

CsvToBean<anyPojo> csvToBean = null;
    try {
        Reader reader = Files.newBufferedReader(Paths.get(csvFilePath), 
                        StandardCharsets.ISO_8859_1);
        csvToBean = new CsvToBeanBuilder(reader)
                .withType(anyPojo.class)
                .withIgnoreLeadingWhiteSpace(true)
                .withSkipLines(1)
                .build();

    } catch (IOException e) {
        e.printStackTrace();
    }

Question 9

खैर, समस्या यह है कि Files.newBufferedReader(Path path)इस तरह से लागू किया जाता है:

public static BufferedReader newBufferedReader(Path path) throws IOException {
    return newBufferedReader(path, StandardCharsets.UTF_8);
}

इसलिए मूल रूप से निर्दिष्ट करने का कोई मतलब नहीं है UTF-8जब तक आप अपने कोड में वर्णनात्मक नहीं होना चाहते। यदि आप एक "व्यापक" चारसेट की कोशिश करना चाहते हैं StandardCharsets.UTF_16, जिसके साथ आप कोशिश कर सकते हैं, लेकिन आप हर संभव चरित्र को वैसे भी प्राप्त करने के लिए 100% सुनिश्चित नहीं हो सकते।

Question 10

आप कुछ इस तरह की कोशिश कर सकते हैं, या बस नीचे और पिछले टुकड़े को कॉपी कर सकते हैं।

boolean exception = true;
Charset charset = Charset.defaultCharset(); //Try the default one first.        
int index = 0;

while(exception) {
    try {
        lines = Files.readAllLines(f.toPath(),charset);
          for (String line: lines) {
              line= line.trim();
              if(line.contains(keyword))
                  values.add(line);
              }           
        //No exception, just returns
        exception = false; 
    } catch (IOException e) {
        exception = true;
        //Try the next charset
        if(index<Charset.availableCharsets().values().size())
            charset = (Charset) Charset.availableCharsets().values().toArray()[index];
        index ++;
    }
}

Question 11

UTF-8 मेरे लिए पोलिश पात्रों के साथ काम करता है