Unicode UTF

Unicodeは世界中の文字を1つの巨大な文字表に納めることを目的として作られたもの

UTF-8 (‘Unicode Transformation Format-8’)
ASCII文字と互換性を持たせるために、ASCIIと同じ部分は1バイト、その他の部分を2-6バイトで符号化する。
BOMは必要がないフォーマットであるが、UTF-8で明示する為に データの先頭に EF BB BF が付いている場合がある。

開発者向けUnicode FAQ--もう知らないではすまされない - page2 - builder by ZDNet Japan