Pourquoi les caractères anglais ont-ils besoin de moins d'octets pour les représenter que les caractères des autres alphabets?

Vidéo: Pourquoi les caractères anglais ont-ils besoin de moins d'octets pour les représenter que les caractères des autres alphabets?

Vidéo: Graver des données sur un cd ou dvd - YouTube 2024, Avril

2024 Auteur: Geoffrey Carr | [email protected]. Dernière modifié: 2023-12-17 11:01

Bien que la plupart d’entre nous n’aient probablement jamais cessé d’y penser, les caractères alphabétiques n’ont pas tous la même taille en ce qui concerne le nombre d’octets nécessaires pour les représenter. Mais pourquoi ça? L’article d’aujourd’hui sur le SuperUser Q & R répond aux questions d’un lecteur curieux.

La séance de questions et réponses d’aujourd’hui nous est offerte par SuperUser, une sous-division de Stack Exchange, un groupe de sites Web de questions-réponses dirigé par la communauté.

Capture partielle de la carte ASCII avec la permission de Wikipedia.

La question

Le lecteur superutilisateur khajvah veut savoir pourquoi différents alphabets occupent différentes quantités d’espace disque lorsqu’ils sont enregistrés:


When I put ‘a’ in a text file and save it, it makes it 2 bytes in size. But when I put a character like ‘ա’ (a letter from the Armenian alphabet) in, it makes it 3 bytes in size.
What is the difference between alphabets on a computer? Why does English take up less space when saved?

Les lettres sont des lettres, non? Peut être pas! Quelle est la réponse à ce mystère alphabétique?

La réponse

Les contributeurs de SuperUser, Doktoro Reichard et Ernie, ont la solution pour nous. D'abord, Doktoro Reichard:


One of the first encoding schemes to be developed for use in mainstream computers is the ASCII (American Standard Code for Information Interchange) standard. It was developed in the 1960s in the United States.







The English alphabet uses part of the Latin alphabet (for instance, there are few accented words in English). There are 26 individual letters in that alphabet, not considering case. And there would also have to exist the individual numbers and punctuation marks in any scheme that pretends to encode the English alphabet.
The 1960s was also a time when computers did not have the amount of memory or disk space that we have now. ASCII was developed to be a standard representation of a functional alphabet across all American computers. At the time, the decision to make every ASCII character 8 bits (1 byte) long was made due to technical details of the time (the Wikipedia article mentions the fact that perforated tape held 8 bits in a position at a time). In fact, the original ASCII scheme can be transmitted using 7 bits, and the eighth could be used for parity checks. Later developments expanded the original ASCII scheme to include several accented, mathematical, and terminal characters.







With the recent increase of computer usage across the world, more and more people from different languages had access to a computer. That meant that, for each language, new encoding schemes had to be developed, independently from other schemes, which would conflict if read from different language terminals.
Unicode came into being as a solution to the existence of different terminals by merging all possible meaningful characters into a single abstract character set.
UTF-8 is one way to encode the Unicode character set. It is a variable-width encoding (i.e. different characters can have different sizes) and it was designed for backwards compatibility with the former ASCII scheme. As such, the ASCII character set will remain one byte in size whilst any other characters are two or more bytes in size. UTF-16 is another way to encode the Unicode character set. In comparison to UTF-8, characters are encoded as either a set of one or two 16-bit code units.
As stated in other comments, the ‘a’ character occupies a single byte while ‘ա’ occupies two bytes, denoting a UTF-8 encoding. The extra byte in the original question was due to the existence of a newline character at the end.

Suivi de la réponse d'ernie:


1 byte is 8 bits, and can thus represent up to 256 (2^8) different values.
For languages that require more possibilities than this, a simple 1 to 1 mapping can not be maintained, so more data is needed to store a character.
Note that generally, most encodings use the first 7 bits (128 values) for ASCII characters. That leaves the 8th bit, or 128 more values for more characters. Add in accented characters, Asian languages, Cyrillic, etc. and you can easily see why 1 byte is not sufficient for holding all characters.

Avez-vous quelque chose à ajouter à l'explication? Sound off dans les commentaires. Voulez-vous lire plus de réponses d'autres utilisateurs de Stack Exchange doués en technologie? Découvrez le fil de discussion complet ici.

Conseillé:

Pourquoi certaines prises réseau ont-elles des couvertures et d'autres sont-elles nues?

Traîner dans un bureau assez longtemps et vous verrez une tendance distincte dans le câblage réseau. Certains câbles ont une fiche couverte et d’autres sont nus. Quel est le but du petit cache-prise?

Pourquoi les disques durs Mac n’ont pas besoin de défragmenter

Sous Windows, les disques durs traditionnels (mais pas les disques à semi-conducteurs) nécessitent généralement une défragmentation, processus qui peut prendre un certain temps. Sur macOS (et Linux), vous n’avez pas besoin de vous en soucier. Pourquoi est-ce, et qu'est-ce que la défragmentation, de toute façon? Nous allons jeter un coup d'oeil.

Les endroits les moins chers pour pré-commander des jeux (maintenant que vous avez besoin de Prime pour les réductions Amazon)

La réduction de 20% offerte par Amazon sur les précommandes de jeux vidéo et le programme généreux Gamers Club Unlocked de Best Buy ont tous deux disparu. La concurrence se calme, mais vous pouvez toujours réaliser des économies sur les nouveaux jeux PC, PlayStation 4, Nintendo Switch et Xbox One.

Il faut se méfier! Deux autres extensions de logiciels malveillants pour Firefox ont été trouvées, avec des chevaux de Troie complets cette fois

En juillet dernier, nous avions signalé que l'extension Google Reader Notifier était devenue un crapware, que l'add-on NoScript détournait une autre extension et que même l'extension Fast Dial vous envoyait du courrier indésirable. Une extension n'était donc qu'une affaire. avec un cheval de Troie à part entière.

Tapez des caractères accentués et spéciaux à l'aide du clavier anglais

WizKey vous permet de créer des raccourcis clavier pour taper facilement des caractères accentués et spéciaux à l'aide du clavier anglais. Vous pouvez également créer des macros permettant de coller des paragraphes complets partout où vous en avez besoin. Il vient également avec le support Unicode.

Pourquoi les caractères anglais ont-ils besoin de moins d'octets pour les représenter que les caractères des autres alphabets?

Table des matières:

Vidéo: Pourquoi les caractères anglais ont-ils besoin de moins d'octets pour les représenter que les caractères des autres alphabets?

La question

La réponse

Conseillé:

Pourquoi certaines prises réseau ont-elles des couvertures et d'autres sont-elles nues?

Pourquoi les disques durs Mac n’ont pas besoin de défragmenter

Les endroits les moins chers pour pré-commander des jeux (maintenant que vous avez besoin de Prime pour les réductions Amazon)

Il faut se méfier! Deux autres extensions de logiciels malveillants pour Firefox ont été trouvées, avec des chevaux de Troie complets cette fois

Tapez des caractères accentués et spéciaux à l'aide du clavier anglais

Comment rendre votre compte Instagram privé

Comment optimiser Safari pour une confidentialité maximale

Pourquoi les commandes Windows PowerShell sont-elles appelées des applets de commande?

Comment modifier l'objet d'un message que vous avez été envoyé dans Outlook

Comment désactiver l’écran de votre Apple Watch avec le mode Cinéma

Personnalisez votre blog WordPress et créez un public

Planifier l'envoi et la réception automatiques dans Microsoft Outlook

Analysez votre clé USB à la recherche de virus dans la boîte de dialogue Exécution automatique

Améliorer les performances de Minecraft sur les anciens et les nouveaux ordinateurs

Sept des meilleures fonctionnalités cachées dans Android

Comment installer et configurer WordPress sur Microsoft Azure

Nouvelles fonctionnalités de Microsoft Office People Hub

Ce qu'il faut faire avant de télécharger la mise à jour de Windows 10 Fall Creators

Lenovo Yoga 920 est un ordinateur portable convertible ultra-mince et ultra-léger

Qu'est-ce que l'application Spooler SubSystem & pourquoi l'utilisation élevée du processeur?