자바 웹페이지 다운로드

de.vogella.web.html이라는 Java 프로젝트를 만듭니다. 다음 코드는 URL에서 HTML 페이지를 읽고 콘솔에 결과를 작성합니다. 다음 예제에서는 인터넷의 웹 페이지 URL() 생성자 읽기 및 다운로드 방법을 보여 주며 있습니다. URL 클래스입니다. Java에는 웹 페이지를 읽고 다운로드할 수 있는 기본 제공 도구와 타사 라이브러리가 있습니다. 예제에서는 URL, JSoup, HtmlCleaner, 아파치 HttpClient, 부두 HttpClient 및 HtmlUnit을 사용합니다. API는 비교적 간단합니다. 예를 들어 웹 페이지를 검색하려면 다음 예제를 사용할 수 www.vogella.com. 이 문서에서는 URL, JSoup, HtmlCleaner, 아파치 HttpClient, 제티 HttpClient 및 HtmlUnit을 포함한 다양한 도구를 사용하여 Java의 웹 페이지를 스크랩했습니다. HtmlCleaner는 자바로 작성된 오픈 소스 HTML 파서입니다. HttpURLConnection의 자바 독은 HttpURLConnection의 인스턴스를 재사용하지 않는 것이 좋습니다.

이 방법을 사용하면 HttpURLConnection에는 다른 스레드 간에 공유되지 않기 때문에 스레딩 문제가 없습니다. 우리는 자바에서 URL을 사용하여 웹 페이지를 다운로드 할 수 있습니다. 다음은 필요한 단계입니다. 자바 튜토리얼의 웹 페이지 읽기에서 나는 URL, JSoup, HtmlCleaner, 아파치 Http클라이언트, 부두 HttpClient 및 HtmlUnit을 사용하여 자바에서 프로그래밍 방식으로 웹 페이지를 다우로딩의 여섯 예를 작성했습니다. HtmlUnit은 웹 기반 응용 프로그램을 테스트하기 위한 Java 단위 테스트 프레임워크입니다. Java는 HTTP 또는 HTTPS 프로토콜을 통해 리소스에 액세스하는 HTTP 클라이언트 API를 제공합니다. 인터넷에 액세스하는 주요 클래스는 java.net.URL 클래스와 java.net.HttpURLConnection 클래스입니다. 다음은 웹 페이지를 읽고 다운로드하는 또 다른 예입니다. 다음은 Java의 URL 클래스를 사용하여 테스트된 코드입니다.

그러나 예외를 처리하거나 호출 스택을 전달하는 것보다 더 나은 작업을 수행하는 것이 좋습니다. 여러 웹 사이트는 Http를 통해 서비스를 제공합니다. 예를 들어 get 요청을 “http://tinyurl” 또는 http://tr.im”으로 보내고 매개 변수로 전달하는 URL의 짧은 버전을 받을 수 있습니다. 다음은 Java를 통해 “http://TinyUrl” 또는 “http://tr.im”에서 get 서비스를 호출하는 방법을 보여 줍니다. Java 프로젝트 “de.vogella.web.get”을 만들고 getService를 호출하고 결과를 반환하는 다음 클래스를 만듭니다. Java에서 웹 페이지를 읽는 것은 Java에서 웹 페이지를 읽는 여러 가지 방법을 제시하는 자습서입니다. 그것은 작은 웹 페이지에서 HTTP 소스를 다운로드의 여섯 예가 포함되어 있습니다. HTML 반환 코드는 특정 상황이 발생한 경우 웹 서버가 반환하는 표준화된 코드입니다. 예를 들어 반환 코드 “200”은 HTML 요청이 정상임을 의미하며 서버는 웹 페이지 제공과 같은 요구 작업을 수행합니다. 보안 웹 페이지(https 프로토콜)에서 코드를 추출해야 할 가능성이 큽니다. 다음 예제에서는 html 파일이 c:tempfilename.html에 저장됩니다.

이 클래스에서 코드를 얻고 일부 정보를 필터링하십시오. 다음 코드는 웹 페이지에 액세스하고 HTML 액세스에 대한 반환 코드를 인쇄합니다. openStream() 메서드는 지정된 URL에 대한 연결을 열고 해당 연결에서 읽기 위해 InputStream을 반환합니다. InputStreamReader는 바이트 스트림에서 문자 스트림으로의 브리지입니다. 바이트를 읽고 지정된 charset을 사용하여 문자로 디코딩합니다. 또한 버퍼드리더는 더 나은 성능을 위해 사용됩니다. 이 예제에서는 Jetty HTTP 클라이언트가 있는 웹 페이지의 HTML 소스를 가져옵니다. 코드에서 System.setProperty를 통해 프록시를 설정할 수 있습니다. 예를 들어 프록시를 프록시라고 부르고 포트 “8080”에서 실행되는 경우 다음 코드는 프록시를 설정합니다. 이 예제에서는 HtmlCleaner를 사용하여 웹 페이지를 다운로드합니다.