blah blah

batch rename(python, go)

하위 디렉토리에 있는 파일까지 한번에 파일명 변경해야 되는 일은 자주 겪는 상황임에도 얼마나 정리 습관이 없는지 매번 스크립트 다시 짜곤 하는 것 같다 ㅜㅠ

우선 python 으로 짜보았고

import os
import re

pattern_str = "^test"
rename_str = "about"
ext_str = ".html"
work_dir = r"d:\Test\TEST\mren"

p = re.compile(pattern_str)
for (path, dir, files) in os.walk(work_dir):
    for filename in files:
        ext = os.path.splitext(filename)[-1]
        if ext == ext_str and p.match(filename):
            print("%s\%s => %s" % (path, filename, re.sub(pattern_str, rename_str, filename)))
            os.rename(os.path.join(path, filename), os.path.join(path, re.sub(pattern_str, rename_str, filename)))

공부 겸해서 go 로 엉성하게나마 짜보았다.

package main

import (
    "flag"
    "fmt"
    "os"
    "path/filepath"
    "regexp"
)

func renameFiles(path string, f os.FileInfo, err error) error {
    oldNameStr := "^test"
    newNameStr := "about"
    extStr := ".html"

    r, _ := regexp.Compile(oldNameStr)
    if fileName := f.Name(); !f.IsDir() && filepath.Ext(fileName) == extStr {
        if ok, _ := regexp.MatchString(oldNameStr, fileName); ok {
            r1 := regexp.MustCompile(fileName)
            newPath := r1.ReplaceAllString(path, r.ReplaceAllString(fileName, newNameStr))
            fmt.Println(newPath)
            err := os.Rename(path, newPath)

            if err != nil {
                fmt.Println(err)
                return err
            }

        }
    }

    return nil
}

func main() {
    flag.Parse()
    filepath.Walk(flag.Arg(0), renameFiles)
}

두 언어 다 기본 문법 겨우 아는 수준이라 뭔가 냄새가 나는데 어떻게 손댈지 엄두가 안나는 …

blah blah

yaml 을 spring 에서 사용하기

스프링 프레임워크 쪽에서는 공백 문자로 설정 분류하는 것이 모호하다며 지원할 계획이 없는듯, 하지만 spring-boot 에서는 yaml 포맷의 설정 파일을 이용하는 듯 해서 여기에서 구현해놓은걸 그대로 가져다 써보기로 했다.

참조 소스 : https://github.com/cloudfoundry/uaa/tree/master/common/src/main/java/org/cloudfoundry/identity/uaa/config

test1.yml

bill-to: &id001
   given : Chris
   family : Dumars
   address:
       city : Royal Oak
       state : MI
       postal : 48046
ship-to: *id001
product:
   - sku :
        item1: abc
        item2: efg
     quantity : 4
     description : Basketball
   - sku : BL4438H
     quantity : 1
     description : Super Hoop
 taxyn : false
 tax : 251.42
 total: 4443.52

applicationContext.xml

<bean id="ymlFactoryBean"
      class="org.cloudfoundry.identity.uaa.confi.YamlPropertiesFactoryBean">
   <property name="resources">
      <list>
         <value>classpath:test1.yml</value>
         <value>...</value>
      </list>
   </property>
 </bean>

테스트

ApplicationContext context = new ClassPathXmlApplicationContext(“applicationContext.xml”);

Properties yml = (Properties) context.getBean(“ymlFactoryBean”);
System.out.println(“# date : ” + yml.get(“date”));
System.out.println(“# bill-to.given : ” + yml.getProperty(“bill-to.given”));
System.out.println(“# product[0].sku.item1 : ” + yml.getProperty(“product[0].sku.item1”));
System.out.println(“# product[1].sku : ” + yml.getProperty(“product[1].sku”));
System.out.println(“# ship-to.give : ” + yml.getProperty(“ship-to.given”));

boolean taxYn = (Boolean) yml.get(“taxyn”);
if(taxYn) {
     System.out.println(“# tax : ” + yml.get(“tax”));
}

아직 전체적인 구조 이해를 못해서 그리 깔끔한 방법은 아니지만 일단 …

blah blah

UUID ByteArray

Java 에서 UUID 값을 바이트 배열로 변환. 바이트 배열값을 UUID 로 변환하는 기능을 stackoverflow 에 올라온 여러가지 글들을 참고해서 간단히 짜보았습니다.

 

import java.nio.ByteBuffer;
import java.util.UUID;

import com.google.common.primitives.Longs;

 

public class Uuids {
    public static byte[] toByteArray(UUID uuid) {
        ByteBuffer buff = ByteBuffer.wrap(new byte[16]);
        buff.putLong(uuid.getMostSignificantBits());
        buff.putLong(uuid.getLeastSignificantBits());

        return buff.array();
}

public static UUID fromByteArray(byte[] byteArray) {

        long mostSigBits = Longs.fromByteArray(byteArray);
        long leastSigBits = 0;
        for (int i = 8; i < 16; i++)
            leastSigBits = (leastSigBits << 8) | (byteArray[i] & 0xff);

 

        return new UUID(mostSigBits, leastSigBits);
}

 

테스트

@Test
public void testFromByteArray() {
    UUID u = UUID.randomUUID();

    byte[] bt = Uuids.toByteArray(u);

    assertEquals(u, Uuids.fromByteArray(bt));
}

blah blah

Scala – $tag method

참고 : 스칼라의 Class

1. age_$eq(int)

위 글에 설명되어 있듯 age_=()는 setter입니다.

즉, 실제 사용 시

outsider.age = 30

이라고 할 때 이것은 아래와 같이 호출하고 있다고 할 수 있습니다.

outsider.age_=(30)

그런데 왜 age_= 가 아니고 age_$eq 로 바뀌었냐면 JVM 에서는 ‘=’ 기호를 메서드명에 사용하는 것이 허용되지 않기 때문입니다.

2. $tag()

public int $tag() throws java.rmi.RemoteException;

뭐 하는 놈일까? … 이렇다는군요.

This(=$tag()) is a method defined within the ScalaObject trait designed to help optimize pattern matching. Unfortunately, it also means yet another abstract method which must be defined when implementing Scala traits which contain method definitions. ( via Interop Between Java and Scala )

blah blah

gpath 로 값 뽑을 때 포함된 tag 를 보존하려면

gpath 의 간편함에 감탄한지 채 얼마 안되어 예상치않은 문제에 직면.


<contenttitle>End of Grace Period</contenttitle>
<viewdate>2011-06-24 08</viewdate>
<contents>
<contentimg/>
<content>
<p><b>tag test</b></p>
</content>
</contents>

    def xml = new XmlSlurper().parse(xmlFile)
    assert “<p><b>tag test</b></p>” == xml.contents.content.text()
   

어찌나 간편하고 깔끔하던지 값에 포함된 태그들을 알아서 다 날려버리더군요.

결국 이번 같은 경우나 CDATA  값을 그대로 가져오려는 경우 gpath 사용 시 문제가 있네요.

XmlSlurper 대신 XmlParser 를 이용해도 쉽게 해결할 수 있을 것 같지 않고 결국 Xml 파서를 JDOM 이나 이런 것으로 바꿔야하나 갈등하다가 약간 꽁수를 써봤습니다.

    def xml = new XmlSlurper().parse(xmlFile)
    content = XmlUtil.serialize(xml.contents.content)
    def matches = content =~ /(?s)<content>(.*?)<\/content>/
    matches.each { assert “<p><b>tag test</b></p>” == it[1] }

핵심은 GPathResult 를 groovy.xml.XmlUtil.serialize 를 이용해서 XML string 으로 재변환한 뒤 정규식으로 값을 재추출하는거.

p.s. 기본 아이디어는 ‘Convert GPathResult to String without tag0‘에서 구했습니다.

blah blah

groovy CharsetToolkit 보충

groovy CharsetToolkit 으로 구현했던 스크립트에 약간 문제가 있어 그거 보충하느라 …

******

1. groovy CharsetToolkit

얼마 전 groovy의 CharsetToolkit 을 이용한 방법을 소개해드렸는데 이걸로 테스트해보던 어떤 분이 문제점을 하나 발견하고 원인까지 찾아내주셨습니다.

http://groovy.codehaus.org/api/groovy/util/CharsetToolkit.html

Uicode files encoded in UTF-16 (low or big endian) or UTF-8 files with a Byte Order Marker are correctly discovered. For UTF-8 files with no BOM, if the buffer is wide enough, the charset should also be discovered.

A byte buffer of 4KB is used to be able to guess the encoding.

이 문서에 언급된 저 설명에 비추어보면 4KB 이내에 파일 charset 을 정확히 판단할 수 있는 문자가 포함되어 있지 않은 경우는 제대로 추정 못할 수 있을 수 있음을 알 수 있습니다.

그 분이 발견해서 지적해 준 문제가 이에 해당하는 거였는데

  • 파일 앞 부분에 영문만 있다가 나중에야 한글 문자가 포함되어 있는 어떤 파일에서 charset 을 제대로 찾아내지 못함.
  • 파일 내용 앞 부분에 한글 문자를 임의로 하나 삽입해보니 제대로 charset 감지함.

문제 피드백 받고 좀 더 찾아본 과정에서 몇가지 알게된 점을 간단히 정리해봅니다.

결국은 용량이 4K 가 넘지 않는 텍스트 파일에 대해서는 groovy 의 CharsetToolkit 을 쓰면 쉽게 처리 가능하지만 그렇지 않은 경우에 대해서는 좀 더 고민이 필요할 것 같습니다.

2. java 의 encoding detector

이왕 이렇게 된거 조금 더 진행해보기록 했습니다.

java에서 charset 을 알아내는 것을 편하게 해주는 오픈소스 라이브러리로 몇 가지를 찾을 수 있었습니다.

언급된 라이브러리 중에서 juniversalchardet을 이용해서 간단히 테스트를 해보았습니다.

import groovy.io.FileType
import org.mozilla.universalchardet.UniversalDetector

folder = “E:\\encoding_test\\data”

def guessEncoding(byte[] bytes) {
        def DEFAULT_ENCODING = “UTF-8”
        detector = new UniversalDetector(null)
        detector.handleData(bytes, 0, bytes.length)
        detector.dataEnd()
        encoding = detector.getDetectedCharset()
        detector.reset()

        if (encoding == null) {
              encoding = DEFAULT_ENCODING
        }

         return encoding
}

def detectCharset() {
        new File(folder).traverse(type:FileType.FILES, nameFilter:~/.*\.java|.*\.xml/) {
                charSet = guessEncoding(it.getBytes())
                 println “$it.name : $charSet”
        }
}

detectCharset()

지난 번 짰던 소스를 그대로 이용하느라 groovy 에서 테스트해보긴 했으나 guessEncoding 메서드 부분에서 키워드 몇 개만 바꾸면 당연히 자바에서 그대로 사용 가능합니다.

테스트해본 바로는 위 1번에서 문제가 되었던 파일도 제대로 charset 을 찾아내네요.

다양한 charset 형태 파일로 테스트해보진 않았는데 관심있는 분들 있다면 한 번 테스트해보고 피드백 부탁드립니다.

그리고 universalchardet, jchardet, cpdetector, ICU4J  외에 괜찮은 다른 오픈 소스 추천해주셔도 고맙구요.

3. groovy 스크립트를 자바에서 사용하는 방법

*** GroovyCharSetTest.groovy

package groovy;

import groovy.io.FileType
import groovy.util.CharsetToolkit

public class GroovyCharSetTest {
         def getCharSet() {
               def folder = “D:\\charSetTest”

               def charSet = [:]

               new File(folder).traverse(type:FileType.FILES) {
                       charSet[it.name] = new CharsetToolkit(it).getCharset().toString()
               }

               return charSet
        }
}

 *** TestCharSet.java

package groovy;

import java.util.Iterator;
import java.util.Map;

public class TestCharSet {
        public static void main(String args[]) {
                GroovyCharSetTest gcst = new GroovyCharSetTest();

                Map map = (Map)gcst.getCharSet();
                Iterator iterator = map.keySet().iterator();
                while (iterator.hasNext()) {
                        String key = (String) iterator.next();
                        System.out.println(key + ” : ” + map.get(key));
                }
        }
}

지난 번 글에 올렸던 샘플을 자바에서 호출해서 사용해보려고 하신 분이 있어서 간단히 샘플을 만들어 보았습니다.
그 샘플을 직접 이용하는 경우 약간의 문제가 있어서 그에 대한 부분 (  def 키워드 관련 )에 대해서 답변 메일로 보냈던 내용을 그대로 옮겨 봅니다.
  1. No such property: folder for class: groovy.GroovyCharSetTest
    • groovy 에는 def 라는 변수나 함수 선언 시 사용하는 타입명을 대체해주는 키워드가 있는데 이걸 붙여주지 않아도 보통 때(?)는 상관 없습니다.
      • 이렇게 구문의 편리성을 제공하는 걸 Syntatic sugar 라고들 합니다. 특히 ruby, python 등의 스크립트 언어들에서 Syntatic sugar 가 많이 제공됩니다.
      • 일반 스크립트 구문에서는 def 붙이는 것과 그렇지 않은 것이 차이 없으나 변수를 class 안에서 사용할 때는 달라집니다.
    • 이건 groovy 에서의 closure 등과 관련되는 문제인데 … 일단 여기서는 간단하게 변수의 통용 범위 문제라고 이해하셔도 될 것 같네요.
    • 핵심은 이번 처럼 Class 안에서 사용하는 변수에는 명시적으로 def 를 붙여주셔야 합니다.
  2. 자바에서 소스 수정한 부분
    • groovy에서 제공하는 Map 이라는 타입( def charSet = [:] 부분 ) 으로 처리값 리턴하게 해주고 java 에서는 이걸 역시 java.util.Map 으로 받아 처리해주도록 했습니다.

추가로  groovy 로 만든 프로그램을 일반 자바 프로젝트에서 사용하는 방법은 몇 가지가 있는데 그 중 간단한 방법은 다음과 같습니다.

  1. groovy 설치 후 bin 디렉토리에 보면 groovyc 라는게 있습니다. groovyc 이용해서 그루비 스크립트를 자바 클래스 파일로 컴파일.
    • 가령 groovyc GroovyCharSetTest.groovy 와 같이 해주면 패키지명에 맞추어 알아서 클래스 파일 생성해줍니다.
  1. groovy 설치 디렉토리 아래 embeddable 에 있는 groovy-all-***.jar 파일을 자바 프로젝트의 클래스패스에 추가해주면 1에서 컴파일한 클래스 파일을 사용 가능합니다.

p.s :  충분한 예는  아니나 groovy 에서 java 라이브러리를 이용하는 방법은 2번을, java 에서 groovy 스크립트 이용하는 방법은 3번을 참고해볼 수 있을겁니다.