blah blah

groovy CharsetToolkit 보충

groovy CharsetToolkit 으로 구현했던 스크립트에 약간 문제가 있어 그거 보충하느라 …

******

1. groovy CharsetToolkit

얼마 전 groovy의 CharsetToolkit 을 이용한 방법을 소개해드렸는데 이걸로 테스트해보던 어떤 분이 문제점을 하나 발견하고 원인까지 찾아내주셨습니다.

http://groovy.codehaus.org/api/groovy/util/CharsetToolkit.html

Uicode files encoded in UTF-16 (low or big endian) or UTF-8 files with a Byte Order Marker are correctly discovered. For UTF-8 files with no BOM, if the buffer is wide enough, the charset should also be discovered.

A byte buffer of 4KB is used to be able to guess the encoding.

이 문서에 언급된 저 설명에 비추어보면 4KB 이내에 파일 charset 을 정확히 판단할 수 있는 문자가 포함되어 있지 않은 경우는 제대로 추정 못할 수 있을 수 있음을 알 수 있습니다.

그 분이 발견해서 지적해 준 문제가 이에 해당하는 거였는데

  • 파일 앞 부분에 영문만 있다가 나중에야 한글 문자가 포함되어 있는 어떤 파일에서 charset 을 제대로 찾아내지 못함.
  • 파일 내용 앞 부분에 한글 문자를 임의로 하나 삽입해보니 제대로 charset 감지함.

문제 피드백 받고 좀 더 찾아본 과정에서 몇가지 알게된 점을 간단히 정리해봅니다.

결국은 용량이 4K 가 넘지 않는 텍스트 파일에 대해서는 groovy 의 CharsetToolkit 을 쓰면 쉽게 처리 가능하지만 그렇지 않은 경우에 대해서는 좀 더 고민이 필요할 것 같습니다.

2. java 의 encoding detector

이왕 이렇게 된거 조금 더 진행해보기록 했습니다.

java에서 charset 을 알아내는 것을 편하게 해주는 오픈소스 라이브러리로 몇 가지를 찾을 수 있었습니다.

언급된 라이브러리 중에서 juniversalchardet을 이용해서 간단히 테스트를 해보았습니다.

import groovy.io.FileType
import org.mozilla.universalchardet.UniversalDetector

folder = “E:\\encoding_test\\data”

def guessEncoding(byte[] bytes) {
        def DEFAULT_ENCODING = “UTF-8”
        detector = new UniversalDetector(null)
        detector.handleData(bytes, 0, bytes.length)
        detector.dataEnd()
        encoding = detector.getDetectedCharset()
        detector.reset()

        if (encoding == null) {
              encoding = DEFAULT_ENCODING
        }

         return encoding
}

def detectCharset() {
        new File(folder).traverse(type:FileType.FILES, nameFilter:~/.*\.java|.*\.xml/) {
                charSet = guessEncoding(it.getBytes())
                 println “$it.name : $charSet”
        }
}

detectCharset()

지난 번 짰던 소스를 그대로 이용하느라 groovy 에서 테스트해보긴 했으나 guessEncoding 메서드 부분에서 키워드 몇 개만 바꾸면 당연히 자바에서 그대로 사용 가능합니다.

테스트해본 바로는 위 1번에서 문제가 되었던 파일도 제대로 charset 을 찾아내네요.

다양한 charset 형태 파일로 테스트해보진 않았는데 관심있는 분들 있다면 한 번 테스트해보고 피드백 부탁드립니다.

그리고 universalchardet, jchardet, cpdetector, ICU4J  외에 괜찮은 다른 오픈 소스 추천해주셔도 고맙구요.

3. groovy 스크립트를 자바에서 사용하는 방법

*** GroovyCharSetTest.groovy

package groovy;

import groovy.io.FileType
import groovy.util.CharsetToolkit

public class GroovyCharSetTest {
         def getCharSet() {
               def folder = “D:\\charSetTest”

               def charSet = [:]

               new File(folder).traverse(type:FileType.FILES) {
                       charSet[it.name] = new CharsetToolkit(it).getCharset().toString()
               }

               return charSet
        }
}

 *** TestCharSet.java

package groovy;

import java.util.Iterator;
import java.util.Map;

public class TestCharSet {
        public static void main(String args[]) {
                GroovyCharSetTest gcst = new GroovyCharSetTest();

                Map map = (Map)gcst.getCharSet();
                Iterator iterator = map.keySet().iterator();
                while (iterator.hasNext()) {
                        String key = (String) iterator.next();
                        System.out.println(key + ” : ” + map.get(key));
                }
        }
}

지난 번 글에 올렸던 샘플을 자바에서 호출해서 사용해보려고 하신 분이 있어서 간단히 샘플을 만들어 보았습니다.
그 샘플을 직접 이용하는 경우 약간의 문제가 있어서 그에 대한 부분 (  def 키워드 관련 )에 대해서 답변 메일로 보냈던 내용을 그대로 옮겨 봅니다.
  1. No such property: folder for class: groovy.GroovyCharSetTest
    • groovy 에는 def 라는 변수나 함수 선언 시 사용하는 타입명을 대체해주는 키워드가 있는데 이걸 붙여주지 않아도 보통 때(?)는 상관 없습니다.
      • 이렇게 구문의 편리성을 제공하는 걸 Syntatic sugar 라고들 합니다. 특히 ruby, python 등의 스크립트 언어들에서 Syntatic sugar 가 많이 제공됩니다.
      • 일반 스크립트 구문에서는 def 붙이는 것과 그렇지 않은 것이 차이 없으나 변수를 class 안에서 사용할 때는 달라집니다.
    • 이건 groovy 에서의 closure 등과 관련되는 문제인데 … 일단 여기서는 간단하게 변수의 통용 범위 문제라고 이해하셔도 될 것 같네요.
    • 핵심은 이번 처럼 Class 안에서 사용하는 변수에는 명시적으로 def 를 붙여주셔야 합니다.
  2. 자바에서 소스 수정한 부분
    • groovy에서 제공하는 Map 이라는 타입( def charSet = [:] 부분 ) 으로 처리값 리턴하게 해주고 java 에서는 이걸 역시 java.util.Map 으로 받아 처리해주도록 했습니다.

추가로  groovy 로 만든 프로그램을 일반 자바 프로젝트에서 사용하는 방법은 몇 가지가 있는데 그 중 간단한 방법은 다음과 같습니다.

  1. groovy 설치 후 bin 디렉토리에 보면 groovyc 라는게 있습니다. groovyc 이용해서 그루비 스크립트를 자바 클래스 파일로 컴파일.
    • 가령 groovyc GroovyCharSetTest.groovy 와 같이 해주면 패키지명에 맞추어 알아서 클래스 파일 생성해줍니다.
  1. groovy 설치 디렉토리 아래 embeddable 에 있는 groovy-all-***.jar 파일을 자바 프로젝트의 클래스패스에 추가해주면 1에서 컴파일한 클래스 파일을 사용 가능합니다.

p.s :  충분한 예는  아니나 groovy 에서 java 라이브러리를 이용하는 방법은 2번을, java 에서 groovy 스크립트 이용하는 방법은 3번을 참고해볼 수 있을겁니다.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s