UTF-8

UTF-8 (UCS Transformation Format 8) là bảng mã ký tự phổ biến nhất trên World Wide Web. Mỗi ký tự được biểu diễn bằng một đến bốn byte. UTF-8 tương thích ngược với ASCII và có thể biểu diễn bất kỳ ký tự Unicode chuẩn nào.

128 ký tự UTF-8 đầu tiên khớp chính xác với 128 ký tự ASCII đầu tiên (được đánh số 0–127), nghĩa là văn bản ASCII hiện có đã là UTF-8 hợp lệ. Tất cả các ký tự khác sử dụng hai đến bốn byte. Mỗi byte có một số bit dành riêng cho mục đích mã hóa. Vì các ký tự không phải ASCII đòi hỏi nhiều hơn một byte để lưu trữ, chúng có nguy cơ bị hỏng nếu các byte bị tách rời và không được ghép lại.