groovy CharsetToolkit 으로 구현했던 스크립트에 약간 문제가 있어 그거 보충하느라 …
******
1. groovy CharsetToolkit
얼마 전 groovy의 CharsetToolkit 을 이용한 방법을 소개해드렸는데 이걸로 테스트해보던 어떤 분이 문제점을 하나 발견하고 원인까지 찾아내주셨습니다.
http://groovy.codehaus.org/api/groovy/util/CharsetToolkit.html
Uicode files encoded in UTF-16 (low or big endian) or UTF-8 files with a Byte Order Marker are correctly discovered. For UTF-8 files with no BOM, if the buffer is wide enough, the charset should also be discovered.
A byte buffer of 4KB is used to be able to guess the encoding.
이 문서에 언급된 저 설명에 비추어보면 4KB 이내에 파일 charset 을 정확히 판단할 수 있는 문자가 포함되어 있지 않은 경우는 제대로 추정 못할 수 있을 수 있음을 알 수 있습니다.
그 분이 발견해서 지적해 준 문제가 이에 해당하는 거였는데
- 파일 앞 부분에 영문만 있다가 나중에야 한글 문자가 포함되어 있는 어떤 파일에서 charset 을 제대로 찾아내지 못함.
- 파일 내용 앞 부분에 한글 문자를 임의로 하나 삽입해보니 제대로 charset 감지함.
문제 피드백 받고 좀 더 찾아본 과정에서 몇가지 알게된 점을 간단히 정리해봅니다.
- BOM 이 있는 UTF 문서는 잘 처리된다. 하지만 BOM 이 없는 파일은 파일에 들어있는 문자로 charset 을 추정한다.
- CharsetToolkit 구현 소스 내용 보면 byte[] bytes = new byte[4096]; 라고 되어 있다. 즉, 문서에 언급되어 있듯 4KB 의 문자열로만 추정하게끔 애초에 구현되어있다.
결국은 용량이 4K 가 넘지 않는 텍스트 파일에 대해서는 groovy 의 CharsetToolkit 을 쓰면 쉽게 처리 가능하지만 그렇지 않은 경우에 대해서는 좀 더 고민이 필요할 것 같습니다.
2. java 의 encoding detector
이왕 이렇게 된거 조금 더 진행해보기록 했습니다.
java에서 charset 을 알아내는 것을 편하게 해주는 오픈소스 라이브러리로 몇 가지를 찾을 수 있었습니다.
언급된 라이브러리 중에서 juniversalchardet을 이용해서 간단히 테스트를 해보았습니다.
import groovy.io.FileType
import org.mozilla.universalchardet.UniversalDetector
folder = “E:\\encoding_test\\data”
def guessEncoding(byte[] bytes) {
def DEFAULT_ENCODING = “UTF-8″
detector = new UniversalDetector(null)
detector.handleData(bytes, 0, bytes.length)
detector.dataEnd()
encoding = detector.getDetectedCharset()
detector.reset()
if (encoding == null) {
encoding = DEFAULT_ENCODING
}
return encoding
}
def detectCharset() {
new File(folder).traverse(type:FileType.FILES, nameFilter:~/.*\.java|.*\.xml/) {
charSet = guessEncoding(it.getBytes())
println “$it.name : $charSet”
}
}
detectCharset()
지난 번 짰던 소스를 그대로 이용하느라 groovy 에서 테스트해보긴 했으나 guessEncoding 메서드 부분에서 키워드 몇 개만 바꾸면 당연히 자바에서 그대로 사용 가능합니다.
테스트해본 바로는 위 1번에서 문제가 되었던 파일도 제대로 charset 을 찾아내네요.
다양한 charset 형태 파일로 테스트해보진 않았는데 관심있는 분들 있다면 한 번 테스트해보고 피드백 부탁드립니다.
그리고 universalchardet, jchardet, cpdetector, ICU4J 외에 괜찮은 다른 오픈 소스 추천해주셔도 고맙구요.
3. groovy 스크립트를 자바에서 사용하는 방법
*** GroovyCharSetTest.groovy
import groovy.io.FileType
import groovy.util.CharsetToolkit
public class GroovyCharSetTest {
def getCharSet() {
def folder = “D:\\charSetTest”
def charSet = [:]
new File(folder).traverse(type:FileType.FILES) {
charSet[it.name] = new CharsetToolkit(it).getCharset().toString()
}
return charSet
}
}
import java.util.Iterator;
import java.util.Map;
public class TestCharSet {
public static void main(String args[]) {
GroovyCharSetTest gcst = new GroovyCharSetTest();
Map map = (Map)gcst.getCharSet();
Iterator iterator = map.keySet().iterator();
while (iterator.hasNext()) {
String key = (String) iterator.next();
System.out.println(key + ” : ” + map.get(key));
}
}
}
지난 번 글에 올렸던 샘플을 자바에서 호출해서 사용해보려고 하신 분이 있어서 간단히 샘플을 만들어 보았습니다.
그 샘플을 직접 이용하는 경우 약간의 문제가 있어서 그에 대한 부분 ( def 키워드 관련 )에 대해서 답변 메일로 보냈던 내용을 그대로 옮겨 봅니다.
- No such property: folder for class: groovy.GroovyCharSetTest
- groovy 에는 def 라는 변수나 함수 선언 시 사용하는 타입명을 대체해주는 키워드가 있는데 이걸 붙여주지 않아도 보통 때(?)는 상관 없습니다.
- 이렇게 구문의 편리성을 제공하는 걸 Syntatic sugar 라고들 합니다. 특히 ruby, python 등의 스크립트 언어들에서 Syntatic sugar 가 많이 제공됩니다.
- 일반 스크립트 구문에서는 def 붙이는 것과 그렇지 않은 것이 차이 없으나 변수를 class 안에서 사용할 때는 달라집니다.
- 이건 groovy 에서의 closure 등과 관련되는 문제인데 … 일단 여기서는 간단하게 변수의 통용 범위 문제라고 이해하셔도 될 것 같네요.
- 핵심은 이번 처럼 Class 안에서 사용하는 변수에는 명시적으로 def 를 붙여주셔야 합니다.
- 자바에서 소스 수정한 부분
- groovy에서 제공하는 Map 이라는 타입( def charSet = [:] 부분 ) 으로 처리값 리턴하게 해주고 java 에서는 이걸 역시 java.util.Map 으로 받아 처리해주도록 했습니다.
추가로 groovy 로 만든 프로그램을 일반 자바 프로젝트에서 사용하는 방법은 몇 가지가 있는데 그 중 간단한 방법은 다음과 같습니다.
- groovy 설치 후 bin 디렉토리에 보면 groovyc 라는게 있습니다. groovyc 이용해서 그루비 스크립트를 자바 클래스 파일로 컴파일.
- 가령 groovyc GroovyCharSetTest.groovy 와 같이 해주면 패키지명에 맞추어 알아서 클래스 파일 생성해줍니다.
- groovy 설치 디렉토리 아래 embeddable 에 있는 groovy-all-***.jar 파일을 자바 프로젝트의 클래스패스에 추가해주면 1에서 컴파일한 클래스 파일을 사용 가능합니다.
p.s : 충분한 예는 아니나 groovy 에서 java 라이브러리를 이용하는 방법은 2번을, java 에서 groovy 스크립트 이용하는 방법은 3번을 참고해볼 수 있을겁니다.
Advertisement
Like this:
Be the first to like this post.