Unicode
TODO
Modell
Sprache:
- Grapheme: die kleinste Schrifteinheit in einer geschriebenen Sprache
- Character: TODO
- Character Set: TODO
- Glyph: TODO
Unicode:
- Coded Character Set: TODO
- Code Space: TODO
- Code Point: eine abstrakte Zuordnung von Zeichen zu Zahlen.
U+
+
Hexadezimalzahl, z.B: U+0639
.
- Code Unit: TODO
- Grapheme Cluster: TODO
U+FFFD
REPLACEMENT CHARACTER (�)
Encodings
- das Encoding eines Textes muss vor dem Lesen bekannt sein
- Byte Order Mark (BOM):
U+FEFF
definiert die Endianness
- (optional?)
FE FF
oder FF FE
am Anfang des Strings
- UTF-8:
- Größe eines Code Points: 1 bis 4 Bytes
- Endianness: unabhängig
- ASCII ist ein Subset
- UTF-16:
- Größe eines Code Points: TODO
- Endianness: UTF-16LE, UTF-16BE
- basiert auf UCS-2
- Guter Kompromiss für interne Repräsentation (RAM, Verarbeitungsaufwand)
- UTF-32:
- Größe eines Code Points: TODO
- Endianness: TODO
- Erlaubt Random Access.
Normalisierung
TODO
NFD, NFC, NFKD, NFKC
Alle Angaben ohne Gewähr
• Home
• Kontakt