2013년 8월 5일 월요일

[2주차 1일] Character Set의 변천사

ASCII(7bit)

:미국에서 발표한 초기 ASCII코드는 영어만 포함되어 있다.
A ~ Z, a ~ z, 0 ~ 9, ?, !.....등등






ISO-8859-1(ISO-Latin-1)

: 영어(128자) + 플랑스어, 독어, 스페인어 등등 (128자)






EUC-KR, EUC-JP(2byte)

: ISO-8859-1에 한글은 약 2700자 정의됨
ex> 가  -->  0xB0A1
       똘  -->  0xB6CA
       똥  -->  0xB6CB
       똠  -->  정의 안됨





조합형(국제표준 아님)

: 한글은 초성, 중성, 종성으로 되어 있다는 것에 착안해서 만듬.
3만자를 표현할수 있어서 왠만한 한글은 전부 표현 할수 있다.





MS949(국제표준 아님)

:EUC-KR(2700자) + 알파    ==> 11172자의 한글 표현 가능





Unicode(2byte) (UTF-16)

: 모든 문자를 2byte로 통일





Unicode 재정의(UTF-8) 국제표준

: 기존에 사용하던 영어의 Character Set을 전부 바꿀수 없어서 영어는 1byte 나머지 언어는 2~4byte를 차지하도록 정의함





*Tip> Window와 JVM

- Window는 Kernel은 UTF-16이고, Application은 MS949를 사용한다.

- JVM이 UTF-16을 사용하기 때문에 작성된 java문서를 UTF-16으로 변환한 다음 JVM이 실행시키기 때문에 Web프로그래밍등을 할때 인코딩에 주의 해야 한다.

댓글 없음:

댓글 쓰기