publicMasters/1-ComputationAndData/2ComputationAndData.md

12 KiB
Raw Permalink Blame History

Cours de Florent.

Système de fichier, Codage et découverte du terminal II/II

Éditeur et fichier texte

Qu'on programme ou qu'on prépare un mail, il faut éditer un fichier texte. Ce texte va transiter sur le réseau ou être stocké dans un fichier selon un code bien choisi.

Le code ASCII est inspiré de code pour le télégraphe, comme le code Baudot (1870) : c'est un standard américain initialement pour teleprinter (Bell lab 1961). Il comporte en plus des codes pour des caractères imprimables (chiffres, lettres minuscules et majuscules latines, etc) de nombreux codes pour des opérations spécifiques au mécanisme de communication d'un teleprinter maintenant obsolètes.

Code Baudot ASCII

digression

L'ordre des charactères induit par la valeur de leur code ASCII est utilisé pour trier du texte ASCII.

ASCII-code order is also called ASCIIbetical order

Trier, stocker, indexer et chercher de l'information sont des tâches essentielles qu'on automatise dès la fin du XIXe siècle.

Pour automatiser le recensement américain (le census de 1880 a demandé 8 ans...), Herman Hollerith met au point une machine electro-mécanique manipulant des cartes perforées et flottant dans des bains de mercure. Son entreprise et 4 autres forment un conglomérat qui deviendra IBM en 1924.

Machines à tabuler

Et si notre alphabet est plus grand?

Pour tester un clavier, ou exhiber une fonte, on peut en anglais écrire.

The quick brown fox jumps over the lazy dog

En français, on pourra utiliser

Dès Noël, où un zéphyr haï me vêt de glaçons würmiens, je dîne dexquis rôtis de bœuf au kir, à laÿ dâge mûr, &cætera.

tester un clavier

De nombreux pays vont donc étendre/changer le code ASCII pour y introduire leurs symboles (par exemple les accents en français) avec un soucis d'internationalisation. En effet, le code ascii ne peut pas facilement accommoder tous les alphabets même si on se restreint aux alphabets latins ou grecs car nous avons seulement 7 bits soit 2^7=128 codes. On ajoute donc un bit de plus pour permettre d'échanger des données textuelles "internationales".

ISO/IEC 8859

Il y a en fait 15 variantes selon les besoins de langues avec des besoins proches. Un des plus connu, adapté pour le français, est la version 1

latin-1

Ces systèmes restent trop limités car ni vraiment adapté pour de la typographie, ni applicable pour tous les alphabets en usage. Depuis 2008, le standard est l'UTF-8 (sur le web initialement). C'est une abbréviation de

Unicode Transformation Format 8-bit

où Unicode signifie

Universal Coded Character Set

Une idée intéressante de ce code est qu'on va utiliser un nombre variable de bytes (entre 1 et 4). Typiquement ce qu'on codait en ASCII prendra 1 byte, toutes les langues couvertes par la norme ISO 8859 pourront coder leurs caractères avec au plus 2 bytes, les caractères fréquents de CJK avec 3 bytes et le reste avec 4 permet de coder des symboles moins fréquents (de math, des emoji etc).

UTF-8

Discussion au tableau de UTF-8

Calcul du nombre de symboles qu'on peut coder. Perte de place pour les symboles codés par 1 bloc, 2 blocs, 3 blocs, 4 blocs.

évocation du changement de pratique autres systèmes de codage vs UTF-8 (graphiques sur wikipedia).

Détails techniques de WSL

Le système de fichier linux WSL est monté dans le système windows. On peut a priori transférer des fichiers vers windows mais pas l'inverse.

Linux ne permet a priori pas d'accéder au système de fichier windows.

Attention. si vous réinstallez WSL vous allez écraser votre home et tout le travail fait sous linux.

Où est le home linux sous WSL

Vous pouvez lancer dans l'explorateur de fichier windows le home linux en saisissant dans votre terminal linux la commande suivante.

explorer.exe .

Si vous avez installé WSL sans créer de compte utilisateur, vous êtes l'administrateur système linux, connu sous le nom de root. L'invite du terminal indique un dièse #

Pas de danger vous ne pouvez rien casser dans le système windows.

Par contre par défaut vous êtes dans ... system32 le répertoire système de windows. Le système winos ne vous laisse pas écrire de fichier à cet endroit. Il faut vous placer ailleur, par exemple en saisissant la commande suivante.

cd

explication au tableau de la navigation

_ .. pour revenir en arrière _ . pour là où on est _ ~ pour votre home linux _ / pour la racine du système de fichier linux.

Question ontologique de l'oeuf ou la poule: qui est le .. de / ?

exercice

  1. Ouvrez un terminal.
  2. Créer un répertoire folderA (commande mkdir).
  3. Placez vous dans ce répertoire (commande cd, pour change directory).
  4. Créer un fichier vide grapevine.txt (commande touch).
  5. Ouvrez le avec un éditeur de texte (par exemple gedit ou emacs voir nano ou vim).
  6. Copiez dans ce fichier un texte de votre choix avec de nombreux caractères qui ne sont pas codable en ascii.
  7. Sauvez le.
  8. Envoyez un mail avec en pièce jointe ce fichier à votre voisine ou voisin de table.
  9. Ouvrez le fichier de votre voisin, sauvez le sous le nom grapevine2.txt et testez si vous pouvez lire le fichier correctement avec votre éditeur.

Parfois votre éditeur ne détectera pas correctement et automatiquement le codage. Vous pouvez dans certains cas forcer ce codage (e.g. dans emacs Options-Multilingual environment).

exercice

la commande suivante permet de revenir dans le répertoire parent.

cd .. 

Complétez votre arborescence pour arriver à celle-ci.

folderA
  grapevine.txt
  grapevine2.txt
  folderAA
    toto.txt
    titi.txt
folderB
    toto.txt
folderC
    tata.txt

NB. vous pouvez le faire sans utiliser un éditeur ni un logiciel de naviguation de fichier graphique. Seulement en ligne de commande.

La commande

man

permet d'avoir accès au manuel.

testez par exemple

man ls

lisez cette documentation pour chercher l'option qui permet un affichage récursif.

Correction Indicative

mkdir folderA
mkdir folderB
mkdir folderC
cd folderA/
touch grapevine.txt
mkdir folderAA
cd folderAA/
touch toto.txt
touch titi.txt
cd ../
cd ..
cd folderB
touch toto.txt
cd ..
cd folderC/
touch tata.txt
cd ..
ls -R
history | cut -c 8-

NB. la dernière commande permet d'enlever les numéros de l'historique. Le | (on dit pipe) permet d'envoyer le résultat de history dans la commande cut. La commande cut avec ces options permet d'enlever le numéro de l'historique. C'est d'ailleurs avec cette commande que j'ai fabriqué la correction indicative ci-dessus.

exercice

Dans un second temps vous pouvez créer un lien / ou créer un raccourci avec votre système de naviguation de fichier graphique (probablement nautilus sous ubuntu) de grapevine.txt dans le répertoire folderC.

Vous pouvez aussi vous placer vous dans folderC et écrire en ligne de commande

ln -s ../folderA/grapevine.txt

Selon votre configuration en revenant en arrière et en faisant à nouveau un ls avec l'option permettant l'affichage récursif vous allez voir le nom du grapevin.txt sous une couleur différente de l'original.

Nous allons d'abord chercher dans le manuel ce que fait l'option -l de ls

man ls

puis nous allons tester sur notre lien en faisant

ls -l

Je n'ai pas traité en cours les parties ci-dessous. Vous pouvez ouvrir chaque section en cliquant sur le triangle.

Zoom sur les briques élémentaires du système de fichier

exercice

L'arbre de notre système de fichier est fabriqué à partir de 2 éléments. 1. une feuille de l'arbre = des données stockées à une certaine adresse dans la mémoire 2. un noeud interne de l'arbre = des données stockées à une certaine adresse dans la mémoire qui associe un nom (de fichier ou de répertoire) à un élément de type 1. ou 2. identifiable par le système. En gros le fichier correspondant à un répertoire est une sorte de livret de famille.

En pratique, le système utilise une structure de donnée particulière à la fois pour les fichiers et les répertoires (puisqu'il s'agit dans les deux cas de fichiers) qui s'appelle un inode.

En pratique vous pouvez utiliser l'option suivante pour affichier les numéros des inode.

ls -i

exercice pour aller encore plus loin

Nous avons évoqué les liens symboliques qui sont des raccourcis. Littéralement c'est juste un fichier texte un peu spécial qui contient comme données la chaîne de caractère du fichier vers lequel on pointe.

Donc quand on a fait ci-dessus.

ln -s ../folderA/grapevine.txt

On a fabriqué un fichier raccourci spécial qui contient essentiellement l'information

../folderA/grapevine.txt

Si vous utilisez la même commande mais en omettant l'option -s vous êtes en train de définir un nouveau nom pour l'inode du fichier grapevine.txt

Donc la métaphore de l'arbre n'est pas tout à fait correcte puisque par plusieurs chemins dans les répertoires il est possible d'atteindre le même fichier.

La commande de suppression de fichier rm (pour remove) ne supprime pas vraiment l'inode, elle va juste effacer le nom du fichier (et la référence vers l'inode associé à ce nom) dans le répertoire.

Détails sur stackoverflow

NB. Je n'ai pas testé sous WSL puisque je n'ai pas windows. Il serait amusant de regarder ce qui arrive aux fichiers linux avec plusieurs noms quand on les regarde en vue détaillée dans l'explorateur de fichier de windows. A priori NTFS a une notion compatible

Commandes utilisées jusqu'à présent

mkdir
cd
touch
ls
ln
Manipuler du texte avec la commande tr

Manipulation de fichier

Pour simplifier un texte, par exemple pour l'indexer ou pour normaliser un nom dans une base de données il est fréquent qu'on bascule un mot en majuscule. Nous allons travailler avec la commande tr qui permet de faire de tel changement caractère par caractère. Par exemple ceci permet de transformer les minuscules en majuscule.

tr '[a-z]' '[A-Z]' 

La commande tr attend un flux textuel en entrée et transmet un flux textuel en sortie. On parle de filtre pour ce genre de commande. On ne peut pas a priori lui passer de fichier en paramètre. Il faut rediriger le contenu du fichier vers la commande.

tr '[a-z]' '[A-Z]' < grapevine.txt

Par défaut le résultat apparaît à l'écran.

On peut rediriger ce résultat dans un fichier en utilisant >

tr '[a-z]' '[A-Z]' < grapevine.txt > grapevineUp.txt

Vous pouvez consulter le contenu d'un fichier directement en utilisant la commande more

more grapevineUp.txt

Attention toutefois avec > car le contenu du fichier si il existe est écrasé.

Il existe une variante utile >> qui écrit à la fin du fichier. C'est utilisé par exemple pour créer des fichiers de log.

exercice

Redirigez le résultat de la commande history dans un fichier de sauveguarde myFirstDayWithTheCommandLine.txt.

history > myFirstDayWithTheCommandLine.txt

Vous pouvez consulter ce fichier en utilisant more.

Vous pouvez voir le haut du fichier en faisant head, la fin du fichier en faisant tail.

Code de césar

Cherchez à appliquer le code de césar (rot13) à un fichier contenant du texte non accentué (i.e. ascii historique).

Envoyez le par mail à votre voisin.

Ce dernier doit le décoder.

tr '[A-Z]' '[N-ZA-M]'

droit d'accès

chmod

Il s'agit de la commande permettant de changer les droits pour un fichier.

Bonus : jouons avec le pipe

  1. installer fortune
  2. installer cowsay
echo moooooo | cowsay
fortune
fortune | cowsay

Bonus : sl

  1. installer sl (dans le terminal de votre collègue quand il va boire un café)
  2. demandez lui de vous montrer comment ls fonctionne très rapidement (il va probalement écrire sl au lieu de ls à un moment)