Peut-on avoir des caractères composés dans un nom de domaine ?

28 avril 2020 - Par Stéphane Bortzmeyer

Dans le numéro de Charlie Hebdo n° 1446 du 8 avril 2020, l'article de Laure Daussy consacré à l’augmentation des violences contre les femmes pendant le confinement dû à l’épidémie de COVID-19, cite le site Web https://arretonslesviolences.gouv.fr/. Mais, malheureusement, ce site est cité avec une faute (arrêtonslesviolences.gouv.fr au lieu de arretonslesviolences.gouv.fr). Cette « erreur » (orthographe correcte mais pas le bon nom de domaine) est hélas fréquente. arrêtonslesviolences.gouv.fr n'existe pas et les visiteurs qui essaieraient l’adresse donnée dans l’article se heurteraient à un message d’erreur.

Ce n’est pas la première fois que ce problème peut être observé. Ainsi, pendant le débat sur la future loi « République numérique » en 2015, le journal Le Parisien avait commis la même erreur, écrivant l’adresse du site de débat avec un caractère composé, qu’il n’avait normalement pas. Plus ennuyeux, le nom de domaine avec le caractère composé avait alors été enregistré par un tiers, et un site Web critique du gouvernement avait été mis en place derrière ce nom. (Cela ne pourrait pas arriver pour arretonslesviolences.gouv.fr, qui est dans gouv.fr, sous-domaine à enregistrement restreint). Il est donc utile de revenir sur les noms de domaine et sur les caractères composés, et de donner quelques conseils, aussi bien aux gens qui enregistrent des noms de domaine pour un projet de présence en ligne, qu’à ceux qui mentionnent et publient ces noms.

D’abord, il faut préciser l’état actuel de la technique : contrairement à ce qu’on lit encore trop souvent, oui, il est parfaitement possible d’avoir des caractères composés, comme é, ÿ ou ç, dans un nom de domaine. (Vous verrez les caractères composés être parfois appelés « caractères diacritiques » ou bien « caractères Unicode »). La norme technique à ce sujet a été publiée il y a plus de treize ans, normalement une éternité en informatique. (On nomme ces noms comprenant des caractères composés les IDN, pour Internationalized Domain Names) Le domaine de premier niveau .fr autorise ces IDN, ces noms, depuis sept ans. L’Afnic communique d’ailleurs depuis des années avec un site Web https://réussir-en.fr/. Il est également possible d’avoir des noms de domaines utilisant les écritures arabe, chinoise, arménienne ou autre.

La personne qui a un projet de présence en ligne doit donc se demander : nom de domaine avec caractères composés ou sans ? Ou les deux ? Le choix est complexe. Mettons que votre projet se nomme « café bien serré ». Les porteurs du projet doivent-ils réserver le nom café-bien-serré.fr, ou cafe-bien-serre.fr ? Le premier nom a l’avantage d’être en français correct. Outre la satisfaction esthétique, cela permet d’éviter des plaisanteries lorsque le même mot, sans les caractères composés, a une autre signification (je vous laisse trouver des exemples).

Mais, d’un autre côté, il faut tenir compte des utilisateurs et utilisatrices. L’idée fausse « on ne peut pas mettre de caractères composés dans un nom de domaine » est encore répandue, et certains utilisateurs pourraient être surpris par ce nom et le « corriger » en supprimant les accents. En outre, même si la norme technique est ancienne, l’informatique mêle des nouveautés permanentes et une extrême inertie. On trouve encore des logiciels qui ne marcheront pas correctement avec des noms de domaine comportant des caractères composés. C’est d’autant plus vrai que le pays dominant sur l’Internet n’utilise pas de caractères composés pour écrire sa langue, et que les développeurs de ce pays ne sont donc pas forcément sensibilisés à cette question. On verra parfois des échecs à se connecter au site Web utilisant ces noms, ou bien le nom affiché en ce que les Japonais appellent du mojibake, des caractères incompréhensibles. Si, en utilisant le nom réussir-en.fr, vous voyez parfois apparaître du mojibake comme, par exemple, xn—russir-en-b4a.fr, c’est que vous utilisez un logiciel ayant ces anciennes erreurs. Et il n’y a pas que le Web : le courrier électronique, par exemple, ne gère pas toujours les adresses de courrier comportant ces noms. Là encore, une norme technique existe, mais cela ne veut pas dire qu’elle est déployée partout.

Face à ces problèmes, une solution possible est d’acheter les deux noms, avec ou sans caractères composés. Un des avantages de cette solution est d’empêcher un tiers de les déposer pour créer la confusion. Mais, outre la question budgétaire, il faudra encore se demander lequel privilégier, lequel annoncer, vers lequel rediriger les connexions Web. Bref, je suis désolé, il n’y a pas à l’heure actuelle de solution parfaite, chaque acteur ayant une présence en ligne doit faire un choix. Au moins, il serait souhaitable que ce soit un choix informé, et que les futurs webmestres qui hésitent sur un nom sachent que, non, les noms de domaine ne sont pas restreints aux caractères utilisés en anglais.

J’ai entendu parfois la suggestion de choisir le nom de son projet en fonction de cette question, et donc d’éviter les caractères composés complètement. Mais vous imaginez les contorsions intellectuelles qu’il faudrait faire pour arriver à faire rentrer tous les noms de projet dans ce lit de Procuste. Si arretonslesviolences.gouv.fr pourrait peut-être être remplacé par mettonsfinauxviolences.gouv.fr ou halteauxviolences.gouv.fr, cela sera plus difficile pour le cas du « café bien serré »… D’autant plus que, au moment où on commence à réfléchir à sa présence en ligne, le nom du projet ou de l’organisation existe peut-être depuis longtemps.

Comme il n’y a pas de choix évident de la part du titulaire du futur nom de domaine, certains choisiront d’enregistrer un IDN comme café-bien-serré.fr, d’autres un nom ancien comme cafe-bien-serre.fr. Cela entraîne donc une responsabilité pour les gens qui communiquent des noms de domaine, par exemple dans un article. Il faut veiller à respecter la façon dont le nom de domaine est écrit. Si c’était cafe-bien-serre.fr, ne le « corrigez » pas pour faire du français correct, il risquerait de ne plus marcher. Si c’était café-bien-serré.fr, ne le « corrigez » pas en croyant que les noms de domaine ne peuvent pas avoir d’accents, c’est faux.

Annexe historique : origine des IDN

En toute rigueur, les noms de domaine ont toujours pu comporter des caractères composés. Mais en pratique, cela n’était pas utilisable pour différentes raisons, certaines techniques (l’absence d’encodage standard, avec ses règles d’insensibilité à la casse) et d’autres politiques (règles d’enregistrement). Après plusieurs essais, et pas mal de polémiques (la question des langues et des écritures est toujours très sensible) , ce n’est qu’en mars 2003 qu’une norme technique a été développée. Ce fut le document « RFC 3490 » de l’IETF (Internet Engineering Task Force, organisme de normalisation), permettant d’avoir ces IDN (Internationalized Domain Names, noms de domaine internationalisés), et qu’ils marchent dans les logiciels existants, sans nécessiter de changer toute l’infrastructure de l’Internet.

Avoir la norme technique est une chose, son déploiement en est une autre. Il a fallu adapter certains logiciels (tâche qui, encore aujourd’hui, n’est pas complètement terminée), et que les divers registres de noms de domaine adaptent leurs politiques d’enregistrement. C’est ainsi que les domaines de premier niveau en caractères composés sont autorisés depuis mai 2010. Et la possibilité de les enregistrer dans .fr est offerte depuis mai 2012.

Notez que la norme technique a été révisée assez profondément en août 2010, dans le « RFC 5890 ». Nous utilisons donc aujourd’hui la « version 2 » d’IDN.

 

Read this page in English Haut de page