이 글은 Java에서 Jsoup를 이용해서 XML파일(HTML)을 다루는 방법에 대한 글입니다.

 

 

Java에서 XML를 다루는 방법에 대해서는 XMLStream을 이용하는 방법XPath를 이용하는 방법 그리고 CSSSelector를 통해 데이터를 취득해 오는 방법이 있습니다.

CSSSelector로 가져오는 방법에 대해서는 Jquery에서 sizzle 엔증으로 DOM을 취득해 오는 방법과 비슷한 형식입니다.

 

 

먼저 Jsoup을 사용하기 위해서는 maven을 통해서 라이브러리를 다운 받아야 합니다.

 

Repository - https://mvnrepository.com/artifact/org.jsoup/jsoup/1.12.1

 

 

 

 

 

rss 란 -

RSS(Rich Site Summary)는 뉴스나 블로그 사이트에서 주로 사용하는 콘텐츠 표현 방식이다. 

 

 

 

 

 

그리고 예제로는 제 티스토리 블로그의 rss로 확인하겠습니다.

 

 

위 예제에서 저는 channel -> item -> title를 콘솔로 출력하겠습니다.

 

 

 

 

rss 파일에서 item의 title만 출력이 되었습니다.

 

사실 이 Jsoup 라이브러리는 Html parse 라이브러리입니다.

 

그러나 html은 곧 xml형식이기 때문에 xml도 파싱이 가능합니다.

XML의 경우는 Xpath를 통해 데이터를 취득하는 게 보통입니다만 Jsoup로도 데이터를 취득할 수 있습니다.