기본 콘텐츠로 건너뛰기

문자코드와 인코딩 변환 방법

문자코드란?

문자코드란 컴퓨터가 사람이 알아볼 수 있는 문자로 표시하기 위해 각 문자에 할당한 고유번호를 말합니다.
초창기 문자를 나타내기 위한 아스키(ASCII)코드는 알파벳, 숫자, 특수 문자 등.. 각 문자에 해당하는 고유번호를 2진수 8비트로 지정하여 표시하였습니다. 2진수 8비트란 2진수인 01을 나타내는 스위치 8개로 고유번호를 할당한 것을 말합니다. 예를 들면 01101100A, 01101101B... 이런식으로 2의 8제곱( 256 )가지의 문자를 표시 할 수 있습니다.

하지만 아스키코드로 영문 알파벳, 숫자, 특수 문자 등 256가지 이내의 문자는 커버가 가능했지만 다양한 국가의 다양한 언어를 처리하기에는 256가지로는 부족하기 때문에 더 발전된 문자코드의 개발이 필요했습니다. 게다가 아시아권의 언어같은 경우는 8비트(1바이트)로는 부족해서 16비트(2바이트) 이상을 사용해야 처리가 가능했습니다. 그래서 각 나라의 언어에 맞게 CP37, ISO 8859, Windows-1250 등... 수많은 문자코드세트가 만들어 졌습니다. 한국의 경우는 EUC-KRCP949를 주로 사용했었고 현재도 많이 사용하고 있습니다.

하지만 문자코드에도 표준화가 필요했기 때문에 근래에는 대부분 유니코드(UTF-8, UTF-16)로 사용하는 추세입니다. 유니코드는 대부분 국가의 언어를 포함하고 있어 현재 대부분의 운영체제와 javascript, HTML, node.js등 다양한 프로그램 언어에서 기본적으로 사용되어 지고 있습니다.

Node.js에서의 문자코드

Node.js에서도 기본적으로 문자코드를 유니코드인 UTF-8을 사용합니다. 그래서 Node.js에서 사용할 프로그램을 작성할때는 꼭 UTF-8로 작성을 해야 합니다.
최근에 인기리에 사용되고 있는 모던 에디터인 Atom이나 서브라임텍스트, Visual studio Code등에서 새로 만든 문서는 기본적으로 UTF-8로 문서를 생성해 줍니다.

하지만 Node.js에서 fs모듈로 .txt 파일을 읽어들일 경우 대부분은 ANSI로 되어 있는 경우가 많은데 이럴경우 ANSIUTF-8로 변환을 해서 사용해야 합니다.

ANSI : ANSI는 아스키코드(ASCII)를 말하며 한글 Windows에서는 EUC-KR의 확장버전인 CP949를 말합니다. 또한 EUC-KR은 아스키코드(ASCII)의 한글버전이라고 보면됩니다.

Node.js에서 문자코드 변환

Node.js에서 문자코드를 변경해 주는 모듈은 iconviconv-lite이 있습니다. iconv가 다양한 문자코드를 지원한다면 iconv-lite은 가볍고 간소화된 문자코드를 지원하고 있습니다. 그리고 jschardet 모듈은 현재 어떤 문자코드를 사용하고 있는지 모를때 알려주는 모듈 입니다.

  • iconv : 문자코드를 다른 문자코드로 변환
  • iconv-lite : 문자코드를 utf-8로 변환 또는 utf-8을 다른 문자로 변환
  • jschardet : 현재 문자코드가 어떤것인지 확인

설치

각 3개의 모듈은 아래와 같이 npm으로 설치가 가능 합니다.

# iconv 설치
$ npm install iconv

# iconv-lite 설치
$ npm install iconv-lite

# jschardet 설치
$ npm install jschardet

사용예제

iconv를 사용하여 문자코드 변경하기 입니다.

// iconv 사용 예제
var fs    = require('fs');
var Iconv = require('iconv').Iconv;

// euc-kr을 utf-8로 변환 설정
var encode = new Iconv('euc-kr', 'utf-8');

// euc-kr 파일 불러오기
var content = fs.readFileSync('test_euckr.txt');

// euc-kr을 UTF-8으로 변환
var content2 = encode.convert(content); 

// 버퍼를 문자열로 변환
var utf8Text = content2.toString('utf-8');

console.log(utf8Text);

// UTF-8으로 파일 저장
fs.writeFileSync('test_utf8.txt', utf8Text, 'utf-8');

iconv-lite를 사용하여 문자코드 변경하기 입니다.

var iconv = require('iconv-lite');
var fs    = require('fs');

// euc-kr 파일 불러오기
var content = fs.readFileSync('test_euckr.txt', "binary");

// euc-kr의 바이너리를 UTF-8로 변환
var utf8Text = iconv.decode(content, "euc-kr");

console.log(utf8Text);

// UTF-8으로 파일 저장
fs.writeFileSync('test2_utf8.txt', utf8Text, 'utf-8');

문자코드를 모를경우 jschardet 모듈로 확인하여 문자코드 변경하기 입니다.

var fs          = require('fs');
var Iconv       = require('iconv').Iconv;
var jschardet   = require('jschardet');

// 뮨자코드를 모르는 파일 불러오기
var content = fs.readFileSync('test_unknown.txt');

// 문자코드 확인
var content2 = jschardet.detect(content);
console.log(content2);

// Iconv 로 utf-8 로 변환하는 객체 생성
var iconv = new Iconv(content2.encoding, "utf-8");
var content3 = iconv.convert(content); // UTF-8 로 변환
var utf8Text = content3.toString('utf-8'); // 버퍼를 문자열로 변환 
console.log(utf8Text);

// UTF-8으로 파일 저장
fs.writeFileSync('test3_utf8.txt', utf8Text, 'utf-8');

댓글

이 블로그의 인기 게시물

CSS에서 ellipsis('...')를 처리하는 방법

이번에 ellipsis에 대해 정리해 보도록 하겠습니다. 보통 게시판 리스트의 제목부분이 길어질 경우 php나 jsp등의 프로그램단에서 일정 글자수 이상이 되는 것에 대해 '...'으로 마무리 하는 경우가 많은데요.. 이것을 프로그램이 아닌 CSS만 가지고도 처리할 수 가 있습니다. 한줄라인 글자수 제한 한줄 라인 글자수 를 제한하는 방법은 아래와 같습니다. <div class="txt_line">통영의 신흥보물 강구안의 동쪽벼랑인 동피랑의 벽화마을을 다녀왔다</div> .txt_line { width:70px; padding:0 5px; overflow:hidden; text-overflow:ellipsis; white-space:nowrap; } Block레벨 테그에서만 적용됨. overflow:hidden : 넓이가 70px를 넒어서는 내용에 대해서는 보이지 않게 처리함 text-overflow:ellipsis : 글자가 넓이 70px를 넘을 경우 생략부호를 표시함 white-space:nowrap : 공백문자가 있는 경우 줄바꿈하지 않고 한줄로 나오게 처리함 (\A로 줄바꿈가능) 멀티라인 글자수 제한 멀티라인에 대해서 글자수를 제한하는 방법은 아래와 같습니다. <p class="txt_post">통영의 신흥보물 강구안의 동쪽벼랑인 동피랑의 벽화마을을 다녀왔다.&nbsp; 비도 추적추적 내리고 일정상 늦으막해서 그런지 사람이 많지는 않았다. 덕분에 보통때는 한참을 기다려야 겨우 날개달린 사진을 찍을 수 있었을 텐데, 이번에는 바로 천사날개를 달고 사진을 찍을 수 있는 행운까지 얻었다. 이번이 동피랑 벽화마을 방문 3번째인데 예전에 왔을때에 비해서 벽화가 많이 바뀌어 있었다</p> .txt_post { overflow: hidden; text-ove...

Google 스프레드시트로 구글캘린더에 일정 연동하는 방법

저는 구글 제품을 많이 사용하는 편입니다. 제 주력 캘린더도 Google 캘린더 고요. 이번에 모임의 임원을 맡게 되면서 회원들의 생일을 캘린더에 등록해야 할 일이 생겼어요. 그냥 하나하나 등록을 하는 도중 "내가 지금 뭐하고 있나.." 라는 자괴감이 들기 시작했어요. 구글 시트에 있는 날짜 정보(생일)을 한 번에 쉽게 일괄 등록할 수는 없을까라는 생각이 뇌리를 스쳤습니다. 그래서 찾아봤더니.. 약간의 매크로 프로그램을 작성하면 가능할 것 같더라고요. 그래서 열심히 개발을 해봤습니다. 1시간이면 등록할 것을 8시간 걸려서 프로그램을 짜 봤어요. 결과적으로는 더 비효율적이었네요. ㅠㅠ 그러나... 나에게는 비효율 적이었지만 이코드를 공개하면 다른 사람에게는 큰 도움이 될 수 있겠구나 생각을 하고 코드를 공개해 보려고 합니다. 준비물 준비물은 Google 스프레드시트, Google 캘린더만 있으면 돼요. 당연히 무료고요. Google 캘린더 먼저 Google 캘린더를 만들거나 사용하고 있는 캘린더를 준비합니다. 적용하기 원하는 캘린더의 우측의 ... 를 클릭하고 설정 및 공유 를 선택합니다. 캘린더 ID를 잘 기억해 놓습니다. 나중에 이 ID를 활용할 예정입니다. Google 스프레드시트 회원생일 스프래드시트 공유 Google 스프레드시트로 명단과 생일을 작성합니다. ▲ 위와 같이 작성을 하면 되고 중요한 사항은.. 생년월일 이 구글 시트의 날짜 형식에 맞아야 합니다. 그리고 갤린더등록 , 캘린더상태 의 항목은 필수로 있어야 합니다. 캘린더등록 : 캘린더에 등록할지 제거할지를 표시 (ADD / DEL) 캘린더상태 : 현재 캘린더에 해당 항목이 적용되었는지 확인 (Y / ' ') 매크로 프로그램 작성하기 기본적인 준비는 끝났습니다. 이제부터 Apps Script를 제작하고 트리거를 등록하면 됩니다. Apps Script 작성하기 Apps Script 는 구글 제품에 대...

Google캘린더(달력)에 대한민국 휴일 표시하기

구글 캘린더에 대한민국 휴일을 표시하는 설정에 대해서 소개합니다. 네이버 달력이라면 그냥 기본으로 나오겠지만 구글캘린더의 경우는 별도의 설정을 해 주어야 합니다. 휴일의 표시는 각 나라의 휴일을 구글에서 미리 작성해 놓은 것을 내 캘린더에 불러와 적용하는 방식으로 되어 있습니다. 대한민국 공유일 표시하기 먼저 설정화면으로 이동합니다. 캘린더 화면의 우측상단의 설정 아이콘을 클릭합니다. 메뉴 중 설정 을 클릭합니다. 설정화면 중 좌측 메뉴에서 캘린더 추가 메뉴를 선택합니다. 관심분야와 관련된 캘린더를 선택합니다. 지역 공휴일의 모두 둘러보기 를 선택하면 각나라의 휴일을 선택할 수 있습니다. 우리는 대한민국의 휴일 을 선택합니다. 캘린더에서 공휴일 보기 대한민국 휴일에 대한 설정을 했다면 이제 보기 좋게 표시하면 됩니다. 설정을 정상적으로 했다면 좌측메뉴에 대한민국의 휴일 이라는 캘린더가 보입니다. 캘린더명의 우측끝에 더보기 아이콘 을 선택합니다. 색상을 빨간색으로 선택합니다. (보통 공휴일은 빨간색이므로.. ㅎ) 그러면 캘린더에 휴일의 명칭이 빨간색 으로 표시되게 됩니다. 감사합니다.