부루의 코드 갤러리: [2주차 1일] Character Set의 변천사

2013년 8월 5일 월요일

:미국에서 발표한 초기 ASCII코드는 영어만 포함되어 있다.

A ~ Z, a ~ z, 0 ~ 9, ?, !.....등등

: 영어(128자) + 플랑스어, 독어, 스페인어 등등 (128자)

: ISO-8859-1에 한글은 약 2700자 정의됨

ex> 가 --> 0xB0A1

똘 --> 0xB6CA

똥 --> 0xB6CB

똠 --> 정의 안됨

: 한글은 초성, 중성, 종성으로 되어 있다는 것에 착안해서 만듬.

3만자를 표현할수 있어서 왠만한 한글은 전부 표현 할수 있다.

:EUC-KR(2700자) + 알파 ==> 11172자의 한글 표현 가능

: 모든 문자를 2byte로 통일

: 기존에 사용하던 영어의 Character Set을 전부 바꿀수 없어서 영어는 1byte 나머지 언어는 2~4byte를 차지하도록 정의함

- Window는 Kernel은 UTF-16이고, Application은 MS949를 사용한다.

- JVM이 UTF-16을 사용하기 때문에 작성된 java문서를 UTF-16으로 변환한 다음 JVM이 실행시키기 때문에 Web프로그래밍등을 할때 인코딩에 주의 해야 한다.

부루의 코드 갤러리