Was ist UTF-8?
UTF-8 steht für Unicode Transformation Format - 8 bits und ist ein Unicode-Zeichenkodierungssystem, das eine Kodierung mit variabler Länge in einem Format von einem bis vier Byte verwendet. Die "8" in UTF-8 bedeutet, dass 8-Bit-Blöcke (ein Byte entspricht 8 Bits) verwendet werden, um ein Zeichen darzustellen. Es ist das derzeit vorherrschende Kodierungssystem im Internet und wird hauptsächlich für die elektronische Kommunikation, einschließlich E-Mails und Webseiten, verwendet.
UTF-8 wurde von dem amerikanischen Pionier der Informatik, Ken Thompson, im September 1992 formuliert und hieß ursprünglich FSS-UTF. In UTF-8 entsprechen die ersten 128 englischen Zeichen denen des American Standard Code for Information Interchange (ASCII), so dass es mit ASCII abwärtskompatibel ist. Dies bedeutet, dass keine Konvertierung erforderlich ist, solange nur der ASCII-Zeichensatz verwendet wird. Darüber hinaus kann UTF-8 so kompakt wie ASCII sein und speichert die gängigsten Zeichen in nur einem Byte.