Programme

NSI (Spé)Représentation des données

Représentation des textes

Résumé

Les caractères sont représentés en machine par des nombres, selon un encodage. La table ASCII (1963) code 128 caractères sur 7 bits : les lettres A-Z (65-90), a-z (97-122), les chiffres 0-9 (48-57) et des caractères spéciaux. Elle est limitée aux caractères anglais. Unicode est un standard universel qui attribue un numéro unique (code point) à plus de 140 000 caractères de toutes les langues. UTF-8 est l'encodage le plus utilisé sur le Web : il code les caractères ASCII sur 1 octet et les autres sur 2 à 4 octets, ce qui le rend compatible avec ASCII. En Python, ord('A') renvoie 65 et chr(65) renvoie 'A'. Les problèmes d'encodage (caractères bizarres) surviennent quand on lit un fichier avec un encodage différent de celui utilisé à l'écriture.