एक URL से InputStream


117

मुझे URL से InputStream कैसे मिलता है?

उदाहरण के लिए, मैं फ़ाइल को url पर लेना चाहता हूं wwww.somewebsite.com/a.txtऔर इसे एक सर्वलेट के माध्यम से जावा में एक इनपुटस्ट्रीम के रूप में पढ़ना चाहता हूं ।

मैंने कोशिश की

InputStream is = new FileInputStream("wwww.somewebsite.com/a.txt");

लेकिन मुझे जो मिला वह एक त्रुटि थी:

java.io.FileNotFoundException

1
आपने servletsटैग हटाने का रोलबैक क्यों किया ? यहां कोई javax.servlet.*एपीआई शामिल नहीं है। एक main()विधि के साथ एक सादे वेनिला जावा वर्ग में ऐसा करने पर आपको बिल्कुल वही समस्या होगी ।
बालुसक

1
शायद आपको अपने आप से परिचित होना चाहिए कि URL क्या है: docs.oracle.com/javase/tutorial/networking/urls/definition.html
b1nary.atr0phy

जवाबों:


228

java.net.URL#openStream()एक उचित URL (प्रोटोकॉल सहित!) के साथ उपयोग करें । उदाहरण के लिए

InputStream input = new URL("http://www.somewebsite.com/a.txt").openStream();
// ...

यह सभी देखें:


2
क्या आप जानते हैं कि यदि यह इनपुटस्ट्रीम के प्रत्येक रीड पर नेटवर्क अनुरोध करता है या क्या यह एक ही बार में पूरी फाइल को पढ़ता है तो क्या इसे रीड पर नेटवर्क अनुरोध नहीं करना है?
gsingh2011

एंड्रॉइड में यूआई थ्रेड में इस पद्धति को कॉल करना एक अपवाद को बढ़ाएगा। इसे एक बैकग्राउंड थ्रेड में करें। बोल्ट्स-एंड्रॉइड
बेह्रोज़ का


10

(ए) wwww.somewebsite.com/a.txt'फाइल URL' नहीं है। यह एक URL नहीं है। यदि आप http://इसे सामने रखते हैं, तो यह एक HTTP URL होगा, जो स्पष्ट रूप से आप यहाँ पर इरादा रखते हैं।

(b) FileInputStreamफ़ाइलों के लिए है, URL के लिए नहीं।

(c) किसी भी URL से इनपुट स्ट्रीम प्राप्त करने का तरीका है URL.openStream(),या URL.getConnection().getInputStream(),जो समकक्ष है, लेकिन आपके पास URLConnectionइसे प्राप्त करने और इसे पहले खेलने के लिए अन्य कारण हो सकते हैं ।


4

आपका मूल कोड FileInputStream का उपयोग करता है, जो फ़ाइल सिस्टम होस्ट की गई फ़ाइल तक पहुँचने के लिए है।

आपके द्वारा उपयोग किया गया निर्माणकर्ता वर्तमान वर्किंग डायरेक्टरी (सिस्टम प्रॉपर्टी user.dir का मान) के www.somewebsite.com सबफ़ोल्डर में a.txt नामक एक फ़ाइल का पता लगाने का प्रयास करेगा। आपके द्वारा प्रदान किया गया नाम फ़ाइल वर्ग का उपयोग करके फ़ाइल में हल किया जाता है।

URL ऑब्जेक्ट्स इसे हल करने का सामान्य तरीका है। आप स्थानीय फ़ाइलों का उपयोग करने के लिए URL का उपयोग कर सकते हैं, लेकिन नेटवर्क होस्ट किए गए संसाधन भी। URL वर्ग फ़ाइल का समर्थन करता है: // प्रोटोकॉल के अलावा http: // या https: // ताकि आप जाने के लिए अच्छा हो।


2

शुद्ध जावा:

 urlToInputStream(url,httpHeaders);

कुछ सफलता के साथ मैं इस विधि का उपयोग करता हूं। यह रीडायरेक्ट संभालती है और एक के परिवर्तनशील पारित कर सकते हैं HTTP हेडर के रूप में Map<String,String>। यह HTTP से HTTPS तक रीडायरेक्ट भी करता है

private InputStream urlToInputStream(URL url, Map<String, String> args) {
    HttpURLConnection con = null;
    InputStream inputStream = null;
    try {
        con = (HttpURLConnection) url.openConnection();
        con.setConnectTimeout(15000);
        con.setReadTimeout(15000);
        if (args != null) {
            for (Entry<String, String> e : args.entrySet()) {
                con.setRequestProperty(e.getKey(), e.getValue());
            }
        }
        con.connect();
        int responseCode = con.getResponseCode();
        /* By default the connection will follow redirects. The following
         * block is only entered if the implementation of HttpURLConnection
         * does not perform the redirect. The exact behavior depends to 
         * the actual implementation (e.g. sun.net).
         * !!! Attention: This block allows the connection to 
         * switch protocols (e.g. HTTP to HTTPS), which is <b>not</b> 
         * default behavior. See: /programming/1884230 
         * for more info!!!
         */
        if (responseCode < 400 && responseCode > 299) {
            String redirectUrl = con.getHeaderField("Location");
            try {
                URL newUrl = new URL(redirectUrl);
                return urlToInputStream(newUrl, args);
            } catch (MalformedURLException e) {
                URL newUrl = new URL(url.getProtocol() + "://" + url.getHost() + redirectUrl);
                return urlToInputStream(newUrl, args);
            }
        }
        /*!!!!!*/

        inputStream = con.getInputStream();
        return inputStream;
    } catch (Exception e) {
        throw new RuntimeException(e);
    }
}

पूर्ण उदाहरण कॉल

private InputStream getInputStreamFromUrl(URL url, String user, String passwd) throws IOException {
        String encoded = Base64.getEncoder().encodeToString((user + ":" + passwd).getBytes(StandardCharsets.UTF_8));
        Map<String,String> httpHeaders=new Map<>();
        httpHeaders.put("Accept", "application/json");
        httpHeaders.put("User-Agent", "myApplication");
        httpHeaders.put("Authorization", "Basic " + encoded);
        return urlToInputStream(url,httpHeaders);
    }

HttpURLConnectionजब तक आप इसे नहीं बताते हैं, जो आपने नहीं किया है, तब तक पहले से ही अनुप्रेषित का पालन करेंगे।
लोर्ने का

1
मुझे पता है कि ओपी ने हेडर का उल्लेख नहीं किया था, लेकिन मैं सक्सेज (अच्छी तरह से, यह जावा के उदाहरण को देखते हुए) की सराहना करता हूं।
chbrown

@EJP मैंने इनलाइन टिप्पणी के रूप में कुछ स्पष्टीकरण जोड़ा। मुझे लगता है, मैंने मुख्य रूप से इस मामले के लिए पुनर्निर्देशित ब्लॉक की शुरुआत की जब HTTP 301 एक HTTP पते को HTTPS पते पर पुनर्निर्देशित करता है। बेशक, यह मूल प्रश्न से परे है, लेकिन एक सामान्य उपयोग मामला है जिसे डिफ़ॉल्ट कार्यान्वयन द्वारा नियंत्रित नहीं किया जाता है। देखें: stackoverflow.com/questions/1884230/…
jschnasse

आपका कोड रीडायरेक्ट ब्लॉक के बिना समान रूप से अच्छी तरह से काम करता है, जैसा कि HttpURLConnectionपहले से ही डिफ़ॉल्ट रूप से रीडायरेक्ट करता है, जैसा कि मैंने पहले ही कहा था।
लोर्न

@ user207421 यह आंशिक रूप से सही है। पुनर्निर्देशन ब्लॉक http-> https जैसे प्रोटोकॉल स्विच के लिए है जो डिफ़ॉल्ट रूप से समर्थित नहीं है। मैंने उस इन-कोड टिप्पणी को व्यक्त करने की कोशिश की। Stackoverflow.com/questions/1884230/… देखें ।
jschnasse

-1

यहां एक पूर्ण उदाहरण दिया गया है जो दिए गए वेब पेज की सामग्री को पढ़ता है। वेब पेज एक HTML फॉर्म से पढ़ा जाता है। हम मानक InputStreamकक्षाओं का उपयोग करते हैं, लेकिन इसे JSoup लाइब्रेरी के साथ अधिक आसानी से किया जा सकता है।

<dependency>
    <groupId>javax.servlet</groupId>
    <artifactId>javax.servlet-api</artifactId>
    <version>3.1.0</version>
    <scope>provided</scope>

</dependency>

<dependency>
    <groupId>commons-validator</groupId>
    <artifactId>commons-validator</artifactId>
    <version>1.6</version>
</dependency>  

ये मावेन निर्भरता हैं। URL स्ट्रिंग्स को मान्य करने के लिए हम Apache Commons लाइब्रेरी का उपयोग करते हैं।

package com.zetcode.web;

import com.zetcode.service.WebPageReader;
import java.io.IOException;
import java.nio.charset.StandardCharsets;
import javax.servlet.ServletException;
import javax.servlet.ServletOutputStream;
import javax.servlet.annotation.WebServlet;
import javax.servlet.http.HttpServlet;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;

@WebServlet(name = "ReadWebPage", urlPatterns = {"/ReadWebPage"})
public class ReadWebpage extends HttpServlet {

    @Override
    protected void doGet(HttpServletRequest request, HttpServletResponse response)
            throws ServletException, IOException {

        response.setContentType("text/plain;charset=UTF-8");

        String page = request.getParameter("webpage");

        String content = new WebPageReader().setWebPageName(page).getWebPageContent();

        ServletOutputStream os = response.getOutputStream();
        os.write(content.getBytes(StandardCharsets.UTF_8));
    }
}

ReadWebPageसर्वलेट दिए गए वेब पेज की सामग्री को पढ़ता है और इसे वापस ग्राहक के लिए साधारण टेक्स्ट फ़ॉर्मेट में भेजता है। पृष्ठ को पढ़ने का कार्य सौंपा गया है WebPageReader

package com.zetcode.service;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.nio.charset.StandardCharsets;
import java.util.logging.Level;
import java.util.logging.Logger;
import java.util.stream.Collectors;
import org.apache.commons.validator.routines.UrlValidator;

public class WebPageReader {

    private String webpage;
    private String content;

    public WebPageReader setWebPageName(String name) {

        webpage = name;
        return this;
    }

    public String getWebPageContent() {

        try {

            boolean valid = validateUrl(webpage);

            if (!valid) {

                content = "Invalid URL; use http(s)://www.example.com format";
                return content;
            }

            URL url = new URL(webpage);

            try (InputStream is = url.openStream();
                    BufferedReader br = new BufferedReader(
                            new InputStreamReader(is, StandardCharsets.UTF_8))) {

                content = br.lines().collect(
                      Collectors.joining(System.lineSeparator()));
            }

        } catch (IOException ex) {

            content = String.format("Cannot read webpage %s", ex);
            Logger.getLogger(WebPageReader.class.getName()).log(Level.SEVERE, null, ex);
        }

        return content;
    }

    private boolean validateUrl(String webpage) {

        UrlValidator urlValidator = new UrlValidator();

        return urlValidator.isValid(webpage);
    }
}

WebPageReaderURL को मान्य करता है और वेब पेज की सामग्री को पढ़ता है। यह पृष्ठ के HTML कोड वाली स्ट्रिंग लौटाता है।

<!DOCTYPE html>
<html>
    <head>
        <title>Home page</title>
        <meta charset="UTF-8">
    </head>
    <body>
        <form action="ReadWebPage">

            <label for="page">Enter a web page name:</label>
            <input  type="text" id="page" name="webpage">

            <button type="submit">Submit</button>

        </form>
    </body>
</html>

अंत में, यह HTML फॉर्म वाला होम पेज है। यह इस विषय में मेरे ट्यूटोरियल से लिया गया है ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.