12 KiB
Système de fichier, Codage et découverte du terminal II/II
Éditeur et fichier texte
Qu'on programme ou qu'on prépare un mail, il faut éditer un fichier texte. Ce texte va transiter sur le réseau ou être stocké dans un fichier selon un code bien choisi.
Le code ASCII est inspiré de code pour le télégraphe, comme le code Baudot (1870) : c'est un standard américain initialement pour teleprinter (Bell lab 1961). Il comporte en plus des codes pour des caractères imprimables (chiffres, lettres minuscules et majuscules latines, etc) de nombreux codes pour des opérations spécifiques au mécanisme de communication d'un teleprinter maintenant obsolètes.
digression
L'ordre des charactères induit par la valeur de leur code ASCII est utilisé pour trier du texte ASCII.
ASCII-code order is also called ASCIIbetical order
Trier, stocker, indexer et chercher de l'information sont des tâches essentielles qu'on automatise dès la fin du XIXe siècle.
Pour automatiser le recensement américain (le census de 1880 a demandé 8 ans...), Herman Hollerith met au point une machine electro-mécanique manipulant des cartes perforées et flottant dans des bains de mercure. Son entreprise et 4 autres forment un conglomérat qui deviendra IBM en 1924.
Et si notre alphabet est plus grand?
Pour tester un clavier, ou exhiber une fonte, on peut en anglais écrire.
The quick brown fox jumps over the lazy dog
En français, on pourra utiliser
Dès Noël, où un zéphyr haï me vêt de glaçons würmiens, je dîne d’exquis rôtis de bœuf au kir, à l’aÿ d’âge mûr, &cætera.
De nombreux pays vont donc étendre/changer le code ASCII pour y introduire leurs symboles (par exemple les accents en français) avec un soucis d'internationalisation. En effet, le code ascii ne peut pas facilement accommoder tous les alphabets même si on se restreint aux alphabets latins ou grecs car nous avons seulement 7 bits soit 2^7=128 codes. On ajoute donc un bit de plus pour permettre d'échanger des données textuelles "internationales".
Il y a en fait 15 variantes selon les besoins de langues avec des besoins proches. Un des plus connu, adapté pour le français, est la version 1
Ces systèmes restent trop limités car ni vraiment adapté pour de la typographie, ni applicable pour tous les alphabets en usage. Depuis 2008, le standard est l'UTF-8 (sur le web initialement). C'est une abbréviation de
Unicode Transformation Format – 8-bit
où Unicode signifie
Universal Coded Character Set
Une idée intéressante de ce code est qu'on va utiliser un nombre variable de bytes (entre 1 et 4). Typiquement ce qu'on codait en ASCII prendra 1 byte, toutes les langues couvertes par la norme ISO 8859 pourront coder leurs caractères avec au plus 2 bytes, les caractères fréquents de CJK avec 3 bytes et le reste avec 4 permet de coder des symboles moins fréquents (de math, des emoji etc).
Discussion au tableau de UTF-8
Calcul du nombre de symboles qu'on peut coder. Perte de place pour les symboles codés par 1 bloc, 2 blocs, 3 blocs, 4 blocs.
évocation du changement de pratique autres systèmes de codage vs UTF-8 (graphiques sur wikipedia).
Détails techniques de WSL
Le système de fichier linux WSL est monté dans le système windows. On peut a priori transférer des fichiers vers windows mais pas l'inverse.
Linux ne permet a priori pas d'accéder au système de fichier windows.
Attention. si vous réinstallez WSL vous allez écraser votre home et tout le travail fait sous linux.
Vous pouvez lancer dans l'explorateur de fichier windows le home linux en saisissant dans votre terminal linux la commande suivante.
explorer.exe .
Si vous avez installé WSL sans créer de compte utilisateur, vous êtes l'administrateur système linux, connu sous le nom de root. L'invite du terminal indique un dièse #
Pas de danger vous ne pouvez rien casser dans le système windows.
Par contre par défaut vous êtes dans ... system32 le répertoire système de windows. Le système winos ne vous laisse pas écrire de fichier à cet endroit. Il faut vous placer ailleur, par exemple en saisissant la commande suivante.
cd
explication au tableau de la navigation
_ .. pour revenir en arrière _ . pour là où on est _ ~ pour votre home linux _ / pour la racine du système de fichier linux.
Question ontologique de l'oeuf ou la poule: qui est le .. de / ?
exercice
- Ouvrez un terminal.
- Créer un répertoire folderA (commande mkdir).
- Placez vous dans ce répertoire (commande cd, pour change directory).
- Créer un fichier vide grapevine.txt (commande touch).
- Ouvrez le avec un éditeur de texte (par exemple gedit ou emacs voir nano ou vim).
- Copiez dans ce fichier un texte de votre choix avec de nombreux caractères qui ne sont pas codable en ascii.
- Sauvez le.
- Envoyez un mail avec en pièce jointe ce fichier à votre voisine ou voisin de table.
- Ouvrez le fichier de votre voisin, sauvez le sous le nom grapevine2.txt et testez si vous pouvez lire le fichier correctement avec votre éditeur.
Parfois votre éditeur ne détectera pas correctement et automatiquement le codage. Vous pouvez dans certains cas forcer ce codage (e.g. dans emacs Options-Multilingual environment).
exercice
la commande suivante permet de revenir dans le répertoire parent.
cd ..
Complétez votre arborescence pour arriver à celle-ci.
folderA
grapevine.txt
grapevine2.txt
folderAA
toto.txt
titi.txt
folderB
toto.txt
folderC
tata.txt
NB. vous pouvez le faire sans utiliser un éditeur ni un logiciel de naviguation de fichier graphique. Seulement en ligne de commande.
La commande
man
permet d'avoir accès au manuel.
testez par exemple
man ls
lisez cette documentation pour chercher l'option qui permet un affichage récursif.
Correction Indicative
mkdir folderA
mkdir folderB
mkdir folderC
cd folderA/
touch grapevine.txt
mkdir folderAA
cd folderAA/
touch toto.txt
touch titi.txt
cd ../
cd ..
cd folderB
touch toto.txt
cd ..
cd folderC/
touch tata.txt
cd ..
ls -R
history | cut -c 8-
NB. la dernière commande permet d'enlever les numéros de l'historique. Le | (on dit pipe) permet d'envoyer le résultat de history dans la commande cut. La commande cut avec ces options permet d'enlever le numéro de l'historique. C'est d'ailleurs avec cette commande que j'ai fabriqué la correction indicative ci-dessus.
exercice
Dans un second temps vous pouvez créer un lien / ou créer un raccourci avec votre système de naviguation de fichier graphique (probablement nautilus sous ubuntu) de grapevine.txt dans le répertoire folderC.
Vous pouvez aussi vous placer vous dans folderC et écrire en ligne de commande
ln -s ../folderA/grapevine.txt
Selon votre configuration en revenant en arrière et en faisant à nouveau un ls avec l'option permettant l'affichage récursif vous allez voir le nom du grapevin.txt sous une couleur différente de l'original.
Nous allons d'abord chercher dans le manuel ce que fait l'option -l de ls
man ls
puis nous allons tester sur notre lien en faisant
ls -l
Je n'ai pas traité en cours les parties ci-dessous. Vous pouvez ouvrir chaque section en cliquant sur le triangle.
Zoom sur les briques élémentaires du système de fichier
exercice
L'arbre de notre système de fichier est fabriqué à partir de 2 éléments. 1. une feuille de l'arbre = des données stockées à une certaine adresse dans la mémoire 2. un noeud interne de l'arbre = des données stockées à une certaine adresse dans la mémoire qui associe un nom (de fichier ou de répertoire) à un élément de type 1. ou 2. identifiable par le système. En gros le fichier correspondant à un répertoire est une sorte de livret de famille.
En pratique, le système utilise une structure de donnée particulière à la fois pour les fichiers et les répertoires (puisqu'il s'agit dans les deux cas de fichiers) qui s'appelle un inode.
En pratique vous pouvez utiliser l'option suivante pour affichier les numéros des inode.
ls -i
exercice pour aller encore plus loin
Nous avons évoqué les liens symboliques qui sont des raccourcis. Littéralement c'est juste un fichier texte un peu spécial qui contient comme données la chaîne de caractère du fichier vers lequel on pointe.
Donc quand on a fait ci-dessus.
ln -s ../folderA/grapevine.txt
On a fabriqué un fichier raccourci spécial qui contient essentiellement l'information
../folderA/grapevine.txt
Si vous utilisez la même commande mais en omettant l'option -s vous êtes en train de définir un nouveau nom pour l'inode du fichier grapevine.txt
Donc la métaphore de l'arbre n'est pas tout à fait correcte puisque par plusieurs chemins dans les répertoires il est possible d'atteindre le même fichier.
La commande de suppression de fichier rm (pour remove) ne supprime pas vraiment l'inode, elle va juste effacer le nom du fichier (et la référence vers l'inode associé à ce nom) dans le répertoire.
NB. Je n'ai pas testé sous WSL puisque je n'ai pas windows. Il serait amusant de regarder ce qui arrive aux fichiers linux avec plusieurs noms quand on les regarde en vue détaillée dans l'explorateur de fichier de windows. A priori NTFS a une notion compatible
Commandes utilisées jusqu'à présent
mkdir
cd
touch
ls
ln
Manipuler du texte avec la commande tr
Manipulation de fichier
Pour simplifier un texte, par exemple pour l'indexer ou pour normaliser un nom dans une base de données il est fréquent qu'on bascule un mot en majuscule. Nous allons travailler avec la commande tr qui permet de faire de tel changement caractère par caractère. Par exemple ceci permet de transformer les minuscules en majuscule.
tr '[a-z]' '[A-Z]'
La commande tr attend un flux textuel en entrée et transmet un flux textuel en sortie. On parle de filtre pour ce genre de commande. On ne peut pas a priori lui passer de fichier en paramètre. Il faut rediriger le contenu du fichier vers la commande.
tr '[a-z]' '[A-Z]' < grapevine.txt
Par défaut le résultat apparaît à l'écran.
On peut rediriger ce résultat dans un fichier en utilisant >
tr '[a-z]' '[A-Z]' < grapevine.txt > grapevineUp.txt
Vous pouvez consulter le contenu d'un fichier directement en utilisant la commande more
more grapevineUp.txt
Attention toutefois avec > car le contenu du fichier si il existe est écrasé.
Il existe une variante utile >> qui écrit à la fin du fichier. C'est utilisé par exemple pour créer des fichiers de log.
exercice
Redirigez le résultat de la commande history dans un fichier de sauveguarde myFirstDayWithTheCommandLine.txt.
history > myFirstDayWithTheCommandLine.txt
Vous pouvez consulter ce fichier en utilisant more.
Vous pouvez voir le haut du fichier en faisant head, la fin du fichier en faisant tail.
Code de césar
Cherchez à appliquer le code de césar (rot13) à un fichier contenant du texte non accentué (i.e. ascii historique).
Envoyez le par mail à votre voisin.
Ce dernier doit le décoder.
tr '[A-Z]' '[N-ZA-M]'
droit d'accès
chmod
Il s'agit de la commande permettant de changer les droits pour un fichier.
Bonus : jouons avec le pipe
- installer fortune
- installer cowsay
echo moooooo | cowsay
fortune
fortune | cowsay
Bonus : sl
- installer sl (dans le terminal de votre collègue quand il va boire un café)
- demandez lui de vous montrer comment ls fonctionne très rapidement (il va probalement écrire sl au lieu de ls à un moment)