Unicode

TODO

Modell

Sprache:

Coded Character Set: TODO
Code Space: TODO
Code Point: eine abstrakte Zuordnung von Zeichen zu Zahlen. U+ + Hexadezimalzahl, z.B: U+0639.
Code Unit: TODO
Grapheme Cluster: TODO
U+FFFD REPLACEMENT CHARACTER (�)

das Encoding eines Textes muss vor dem Lesen bekannt sein
Byte Order Mark (BOM): U+FEFF definiert die Endianness
- (optional?) FE FF oder FF FE am Anfang des Strings
UTF-8:
- Größe eines Code Points: 1 bis 4 Bytes
- Endianness: unabhängig
- ASCII ist ein Subset
UTF-16:
- Größe eines Code Points: TODO
- Endianness: UTF-16LE, UTF-16BE
- basiert auf UCS-2
- Guter Kompromiss für interne Repräsentation (RAM, Verarbeitungsaufwand)
UTF-32:
- Größe eines Code Points: TODO
- Endianness: TODO
- Erlaubt Random Access.

TODO

NFD, NFC, NFKD, NFKC

Alle Angaben ohne Gewähr • Home • Kontakt