Bandeau Xylak
Bandeau NAUVAT
Bandeau arc-en-ciel
    Brimborions
     xylakaviens
fbbb aaag
xylak.net


Oyiwen ed tanemert_______ Page mise à jour le 1er juillet 2019 vers 06h40 TUC    

Décryptage d'une page du Livre de vie 


Introduire cette section est certainement l'une des choses les plus malaisantes .

Le Livre de vie  est le nom donné par un prêtre du diocèse d'Orléans à son journal personnel, qui se présente sous la forme d'un texte crypté d'environ trois cents pages. Ce caractère cryptographique sera le seul abordé ici. Pour les autres aspects, on pourra se reporter à cet article  [⇒] (assez bref) paru sur le site de France Bleu  ou cet autre  [⇒] (plus détaillé) publié dans Le Monde .


 

Sommaire


      La source
      Un peu de vocabulaire
      Le chiffrement
      Table de codage
      Transcription et décodage
      Notes
      [In]certitudes
      Quelques observations sur les mesures
      Livre  et carnet

 

La source


Klaus Schmeh, qui cite ce texte parmi les cent principaux cryptogrammes non résolus (sous le numéro 95), a publié le 21 janvier 2019, dans la version en anglais de son blog, un article intitulé Can you break this encrypted diary…  [⇒], accompagné de la photographie de la page 83 du Livre de vie . Environ un mois plus tard paraissait sur le même blog un second article Tony Gaffney has broken…  [⇒] donnant le décryptage du texte effectué par Tony Gaffney.


 

Un peu de vocabulaire


Par convention, dans ce qui suit,


   LdV désigne la page du Livre de vie  analysée iciExemples
Définitions
(*) y compris les chiffres et la ponctuation. Pour la distinction entre alphabets complet  et réduit , voir plus bas d.
[en]coder décodertransformer un texte clair en crypté
transformer un texte crypté en clair
 selon un code
    que l'on connaît
 NB-Ces distinctions ne correspondent pas en tous points à celles qui sont proposées dans la page consacrée au manuscrit Voynich  [⇒] ; mais on n'emploie pas la même pelle pour creuser un fossé ou pour servir de la tarte…)
décryptertraduire en clair un texte chiffré dont on ignore le code
   ( = retrouver ce code puis décoder le texte)
crypté   [en]codé   chiffré sont équivalents
décodé   en clair
transcriptionremplacement par une lettre de chaque signe du texte chiffré, dans une relation bi-univoque
NB- tant qu'on n'a pas décrypté le texte, chaque couple signe–lettre  est choisi plus ou moins arbitrairement et ne préjuge pas du code, même si, dans la pratique, on est obligé de faire des hypothèses sur la nature de ce dernier ; mais nous ne sommes pas ici dans ce cas de figure.

Le chiffrement


À la base, LdV  est chiffré suivant un système par substitution  où chaque lettre est remplacée par un signe, toujours le même. Ce procédé a le mérite d'être facile d'emploi mais il présente l'inconvénient d'être également facile à décrypter, en comparant la fréquence des signes dans le texte chiffré avec celle des lettres dans un échantillon quelconque de textes en clair de la même langue.

Quelques principes supplémentaires rendent (donc ?) le décryptage plus complexe :

  1. la ponctuation se réduit à un signe unique valant tantôt une virgule, tantôt un point-virgule (le découpage du texte en paragraphes quotidiens permet de se passer du point) ; l'apostrophe et le trait d'union ont chacun leur propre signe ;
  2. les espaces sont supprimées ;
  3. peut-être pour compenser la règle précédente, il y a deux alphabets distincts : l'un pour le premier signe d'un mot (qui sera appelé ici alphabet/signe initial ), l'autre pour chacun des signes suivants (appelé ici alphabet/signe ultérieur ) ;
    NB- cette particularité est de type un vers plusieurs  : un l  pourra être codé soit Signe L (un livre ) soit Signe l (un clou ) ; le décryptage s'en trouve compliqué mais le décodage n'est pas perturbé ;
  4. les signes diacritiques sont ignorés : Signe a encode aussi bien à  ou â  que a  ;
    NB- cette absence de diacritiques est de type plusieurs vers un  : un mot codé Eleve pourra se lire soit élevé  soit élève  ; quand il est employé à grande échelle (par exemple en gématrie), un tel système aboutit à un texte ambigu ; dans le cas présent, l'équivoque reste limitée mais elle empêcherait d'utiliser un programme simple pour passer de la transcription (ou du texte chiffré analysé par OCR) au texte en clair ;
  5. il y a plusieurs formes de e ultérieur  :    e point, Signe e point trait ou Signe e trait trait.
    NB1- ces formes semblent employées indifféremment, même si le point apparaît plutôt dans la première partie du mot, les autres formes, dans la seconde moitié ; voir plus bas pour leur transcription ;
    NB2- il faut y ajouter les signes pointés dont il sera question en ;
    NB3- le choix du point pour le e  paraît surprenant à force d'évidence, puisque c'est ainsi qu'est codé le e  en morse (comme aucun radio-amateur ni aucun scout ne doit l'ignorer).
  6. quand une lettre est redoublée (comme dans difficile à admettre ), la seconde occurrence est remplacée par Signe répété ;
  7. si une lettre est suivie d'un e , le point du e  peut être inclus dans le signe (par exemple ue Signe u pointé au lieu de Signe ue) ;
    NB1- contrairement aux règles précédentes, il s'agit d'une simple possibilité ; d'ailleurs certains signes ne permettent pas cette inclusion (par exemple D Signe D ou n Signe n) ;
    NB2- cette particularité pose un problème délicat pour les statistiques ; que faire de l e ?
    •  y voir un l suivi d'un e (c'est ainsi que le signe fonctionne ) ?
    •  y voir un signe autonome (de la même façon que e  et é  sont deux lettres différentes) ?
    •  entre les deux, y voir simplement une variante de l (comme l'avait fait Richard Santa-Coloma dans un commentaire antérieur au décryptage) ?

    Dans le tableau statistique ci-dessous, la colonne représente la seconde option (qui me paraît la plus naturelle ).


 

Table de codage et principes de transcription


Cette table reprend celle que Tony Gaffney a publiée, en y apportant quelques modifications dont la principale est la distinction entre alphabet initial  et ultérieur.   →→


Dans la transcription

  • les signes de l'alphabet initial sont représentés par des lettres majuscules, ceux de l'alphabet ultérieur, par des minuscules ;
  • pour le e , le point est transcrit par e , le signe composé se transcrit par &  ou   selon qu'on a, sous le trait horizontal, un point ou un trait vertical (on peut parfois hésiter entre les deux) ;
    NB- les deux formes de droite sont rarement aussi nettement distinctes, et on peut souvent hésiter entre l'une et l'autre ; c'est pourquoi, dans les statistiques, & est regroupé avec € ;
  • les lettres pointées sont transcrites par la lettre simple accompagnée d'un • souscrit  (dans le tableau statistique où cette notation est impossible, la lettre est soulignée) ;
  • * transcrit le signe qui répète la lettre précédente ;
  • | transcrit le signe de ponctuation (valant virgule ou point-virgule) ;
  • ? représente un caractère indécidable , trop incertain pour pouvoir donner lieu à une hypothèse ; il n'est pas pris en compte dans les statistiques ;
  • dans la figure ci-contre, # représente un chiffre ; dans la transcription, on trouvera le chiffre correspondant quand il est jugé suffisamment probable ;
  • le violet signale un caractère erroné ;
  • le gris signale un caractère hypothétique (typiquement, il s'agit d'un signe que l'on n'aurait pas naturellement transcrit par telle lettre mais qui, dans le contexte de la phrase, peut être interprété comme tel, mal tracé).
NB- les caractères erronés ou hypothétiques sont pris en compte dans les statistiques.

Le texte décodé reprend la transcription mais

  • il rétablit les espaces et reprend l'usage habituel des diacritiques et des majuscules ;
  • le signe ~ est ajouté en fin de ligne quand un mot se continue sur la ligne suivante.
    
Table de codage

Transcription et décodage juxtalinéaires


NB1- Placer le curseur de la souris sur l'image pour remplacer la transcription par le texte décodé.
NB2- Les appels de notes se trouvent sous la ligne de transcription/décodage correspondante.


Ligne 1Ligne 1_________ (1)

Ligne 2Ligne 2___________________________ (2)

Ligne 3Ligne 3

Ligne 4Ligne 4

Ligne 5Ligne 5______________________________________________ (3)

Ligne 6Ligne 6__________________________________ (4)

Ligne 7Ligne 7_______________________________________________ (5)____ (5)__ (3)

Ligne 8Ligne 8_____________________________________ (6)

Ligne 9Ligne 9______________________________________________________________ (7)_______ (8)

Ligne 10Ligne 10__________________________ (9)______________ (4)

Ligne 11Ligne 11

Ligne 12Ligne 12

Ligne 13Ligne 13

Ligne 14Ligne 14

Ligne 15Ligne 15

Ligne 16Ligne 16

Ligne 17Ligne 17

Ligne 18Ligne 18

Ligne 19Ligne 19

Ligne 20Ligne 20_____________________________________________________ (10)

Ligne 21Ligne 21________________________________________________________________________________ (10)

Ligne 22Ligne 22

Ligne 23Ligne 23__________________________________________ (4)

Ligne 24Ligne 24______ (11)

Ligne 25Ligne 25

Ligne 26Ligne 26

Ligne 27Ligne 27

Ligne 28Ligne 28

Ligne 29Ligne 29

Ligne 30Ligne 30

Ligne 31Ligne 31_______ (11)________________________ (12)

Ligne 32Ligne 32___________________________________________________________________________ (13)

Ligne 33Ligne 33

Ligne 34Ligne 34

Ligne 35Ligne 35________________________ (14)

Ligne 36Ligne 36

Ligne 37Ligne 37

Ligne 38Ligne 38

Ligne 39Ligne 39

Ligne 40Ligne 40___________________________________________________________ (15)

Ligne 41Ligne 41________(4)

Ligne 42Ligne 42________________ (16)

Ligne 43Ligne 43

Ligne 44Ligne 44

Ligne 45Ligne 45

Ligne 46Ligne 46

Ligne 47Ligne 47
_______ (17)____ (18)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Notes ~~~~~~~~~~~~~~~~~~~~~~~~~~~~
(1)  On peut supposer qu'il s'agit du 12/04/1993 et que la ligne précédente se termine par quelque chose comme
j'accompagne Guil~ 
(2)  On attendrait rangée , à moins que la ligne précédente ne soit du genre   je découvre le bureau de Guil~ 
(3)  (3)  Pseudonymes de radioamateurs.
NB- L'État et le prénom s'écrivent habituellement Tennessee  ; mais on trouve parfois Tennessie  pour le prénom.
(4)  (4)  (4)  (4)  Matériel utilisé par les radioamateurs pour leurs transmissions.
(5)  Les deux traits verticaux séparent peut être deux signes trop rapprochés.
(6)  On attendrait un H  au début de habitués à la place du h ultérieur  .
(7)  R. propose l'aînée  ; le début (l'a -) paraît sûr ; on peut hésiter un peu plus sur la suite, mais la lecture de R. est la plus probable ; reste que la présence de ce personnage féminin peut surprendre.
(8)  TG et R lisent à la fin de la ligne   se déci , mais il semble bien que la première lettre soit un L , ce qui ne change pas vraiment le sens mais le sujet de décide  peut alors être non seulement un individu mais également un inanimé (une qualité de l'appareil, par exemple).
(9)  Le r  inclut un point erroné.
(10)  (10)  Il est peu probable que le premier chiffre soit au-delà de 1, parce que le compte de la ligne 20 se ferait alors plutôt en semaines (ou en mois) et que, dans la ligne 21, plus de vingt ans semble beaucoup pour un tel véhicule ; 15 jours  est très hypothétique, et le dernier chiffre reste indécidable.
(11)  (11)  Le D  de l'alphabet initial ne permettant pas d'inclure un point, le e  des mots commençant par De  est habituellement postposé ; pourtant, ici, il est remplacé par un d ultérieur  qui, lui, permet l'inclusion.
(12)  Le pèlerinage de Notre-Dame de Pellevoisin a sa page dans Wikipédia .
(13)  Dans l'organisation territoriale des Scouts de France, la Province regroupait plusieurs départements.
(14)  On attendrait sans doute un d (la troupe de Meung ), mais le signe est le même que le premier chiffre aux lignes 20 et 21, supposé être 1 ; biais de confirmation ?
  • les troupes scoutes sont couramment désignées par leur numéro ordinal et la ville (par exemple la 90ème Paris ) ;
  • dans un tableau résumant ses activités, une troupe de Gien cite par deux fois le nom de la 1ère Meung-sur-Loire .
(15)  On peut hésiter entre mon  et son antenne .
(16)  On attrendrait évidemment attrapé .
(17)  La ligne étant coupée à mi-hauteur, le décodage est fortement hypothétique, mais on pourrait lire cela gratuitement  au milieu de la ligne.
(18)  Le plus incertain est constitué par ces quelques caractères ; le premier signe après qui  pourrait être R (ou A ?), le suivant très éventuellement u, puis F ou v suivis de ait ; mais il n'y a rien de convaincant.

[In]certitudes


La transcription proposée plus haut est évidemment biaisée  puisqu'elle a été établie après le décryptage effectué par Tony Gaffney  ; si on ne le connaissait pas, on transcrirait probablement Signe u par C  (et non u ) ou Signe C par x  (et non C ) ; les lignes de transcription ci-dessus auraient été totalement différentes ; mais cela n'aurait pas changé les statistiques qui suivent : mêmes pourcentages, même calcul de l'entropie. Par contre, les choses auraient pu être un peu différentes quant à la répartition des signes, et cela à deux niveaux :

On se retrouve un peu dans la situation de qui cherche à jouer aux échecs contre soi-même, et l'exercice peut paraître un peu vain ; mais l'incertitude ne porte que sur une frange des données, et celles-ci n'ont pas d'ambition scientifique démesurée. Voici donc les fréquences des caractères et quelques autres mesures pour



note sur alphabet 
    complet ≠ réduit  (*)           
__ Nombre de caractères
__ Taille de l'alphabet
__ Indice de coïncidence    
__ Entropie

__ Coefficient de diversité    

  %  Pourcentage
 Nb  Nombre
        d'occurrences
Car  Caractère
   Transcription
 
1244
67
0,0339
5,33
46,53
    %     Nb   Car
   6,7    83    n
   6,3    78    a
   5,7    71    i
   5,5    68    t
   5,3    66    u
   5,1    64    €
   5,0    62    o
   4,7    58    r
   4,3    53    e
   4,1    51    s
   2,6    32    A
   2,3    28    L
   2,2    27    l
   2,1    26    D
   2,0    25    r
   2,0    25    *
   1,9    24    P
   1,7    21    E
   1,7    21    |
   1,6    20    m
   1,5    19    c
   1,4    18    T
   1,4    17    M
   1,4    17    C
   1,4    17    '
   1,3    16    ?
   1,1    14    S
   1,1    14    J
   1,0    12    d
   0,9    11    i
   0,9    11    b
   0,8    10    Q
   0,8    10    u
   0,8    10    h
   0,6     8    x
   0,6     8    v
   0,6     8    p
   0,6     8    l
   0,6     8    I
   0,6     8    F
   0,6     8    h
   0,6     7    R
   0,5     6    M
   0,5     6    G
   0,5     6    g
   0,5     6    d
   0,4     5    V
   0,4     5    v
   0,4     5    g
   0,3     4    U
   0,3     4    O
   0,2     3    s
   0,2     3    N
   0,2     3    j
   0,2     3    B
   0,2     3    1
   0,2     2    X
   0,2     2    q
   0,2     2    S
   0,2     2    H
   0,2     2    c
   0,2     2    -
   0,1     1    z
   0,1     1    Y
   0,1     1    V
   0,1     1    L
   0,1     1    p
   0,1     1    ç
   0,1     1    $
   0,1     1    #
   Texte décodé
    (alphabet complet)
1596
54
0,0691
4,23
65,27
    %     Nb   Car
  18,1   288  [ ]
  12,1   192   e
   6,3   101   a
   5,7    91   r
   5,5    88   n
   5,4    86   i
   5,1    82   t
   4,8    77   u
   4,7    75   s
   4,1    65   l
   4,0    64   o
   2,6    42   m
   2,6    41   d
   2,1    34   c
   2,1    33   p
   1,8    28   é
   1,3    20   h
   1,2    19   v
   1,0    16   '
   0,9    15   j
   0,9    14   b
   0,8    13   g
   0,7    11   q
   0,7    11   ;
   0,6    10   ,
   0,5     8   à
   0,5     8   x
   0,4     7   f
   0,4     7   ê
   0,3     5   è
   0,2     3   1
   0,2     3   D
   0,2     3   C
   0,2     3   T
   0,2     3   L
   0,2     3   G
   0,1     2   â
   0,1     2   J
   0,1     2   M
   0,1     2   î
   0,1     2   P
   0,1     2   X
   0,1     2   -
   0,1     1   N
   0,1     1   y
   0,1     1   F
   0,1     1   ù
   0,1     1   #
   0,1     1   ç
   0,1     1   ô
   0,1     1   z
   0,1     1   A
   0,1     1   O
   0,1     1   5
     L'Assommoir
   (alphabet réduit)
745406
25
0,0787
3,98
26,8
    %     Nb   Car
  17,0 126530  e
   9,6  71755  a
   7,7  57205  s
   7,2  54008  i
   7,2  53749  t
   6,7  50261  n
   6,5  48598  l
   6,5  48309  r
   6,4  47619  u
   5,2  38691  o
   3,7  27219  d
   3,0  22629  c
   2,7  19967  m
   2,6  19212  p
   1,7  12808  v
   1,1   8501  g
   1,1   8152  b
   1,0   7553  f
   1,0   7088  h
   0,9   6647  q
   0,4   3135  j
   0,4   2934  x
   0,2   1455  y
   0,2   1360  z
   0,1     21  k
   0,0      0  w
   Texte décodé
    . (alphabet réduit)
1274
24
0,0788
4,01
41,88
    %     Nb   Car
  18,4   235   e
   8,8   112   a
   7,2    92   r
   7,1    90   n
   6,9    88   t
   6,9    88   i
   6,2    79   u
   5,9    75   s
   5,3    68   l
   5,2    66   o
   3,5    44   m
   3,5    44   d
   3,1    39   c
   2,7    35   p
   1,6    20   h
   1,5    19   v
   1,3    17   j
   1,3    17   g
   1,1    14   b
   0,9    12   q
   0,8    10   x
   0,6     8   f
   0,1     1   z
   0,1     1   y
   0,0     0   k
   0,0     0   w
     L'Assommoir
   (alphabet complet)
954009
94
0,0689
4,46
63,34
    %     Nb   Car
  16,6 158203 [ ]
  11,5 109949  e
   7,0  66851  a
   6,0  56796  s
   5,6  53452  t
   5,5  52925  i
   5,2  49856  n
   5,1  48228  r
   4,9  46839  l
   4,9  46688  u
   3,9  37666  o
   2,8  26637  d
   2,1  19761  c
   2,0  19186  ,
   2,0  18904  m
   1,9  18444  p
   1,3  12365  v
   1,1  10641  é
   0,9   9025  '
   0,8   7893  .
   0,8   7514  b
   0,8   7437  f
   0,8   7423  g
   0,7   7008  h
   0,7   6357  q
   0,6   5742 [ ]
   0,4   3391  à
   0,3   2927  x
   0,3   2855  j
   0,3   2436  è
   0,2   2283  -
   0,2   1921  !
   0,2   1759  L
   0,2   1737  ê
   0,2   1672  E
   0,2   1581  C
   0,2   1454  y
   0,1   1404  ;
   0,1   1349  z
   0,1   1133  ç
   0,1   1078  G
   0,1   1063  M
   0,1    990  –
   0,1    889  A
   0,1    771  I
   0,1    768  P
   0,1    752  …
   0,1    638  B
   0,1    627  O
   0,1    622  â
   0,1    582  D
   0,0    452  ?
   0,0    447  :
   0,0    443  V
   0,0    431  û
   0,0    409  S
   0,0    405  N
   0,0    397  ô
   0,0    324  ù
   0,0    297  T
   0,0    297  î
   0,0    290  Q
   0,0    280  J
   0,0    180  _
   0,0    176  U
   0,0    154  Ç
   0,0    116  F
   0,0     89  É
   0,0     81  R
   0,0     80  H
   0,0     39  «
   0,0     38  »
   0,0     19  k
   0,0     16  =
   0,0     15  ï
   0,0     11  Z
   0,0      9  2
   0,0      8  1
   0,0      7  X
   0,0      4  ë
   0,0      4  9
   0,0      3  3
   0,0      2  K
   0,0      2  Ê
   0,0      2  À
   0,0      2  8
   0,0      1  Y
   0,0      1  Ô
   0,0      1  7
   0,0      1  5
   0,0      1  0
   0,0      1  °
   0,0      1  )
   0,0      1  (

NB1- Dans la colonne , les lettres soulignées correspondent aux signes pointés.
NB2- Dans les colonnes et , [ ] désigne le caractère espace  (normal ou insécable).
NB3- Placer le curseur sur la colonne ou la colonne pour afficher les statistiques du texte de Maupassant ;
<!> en plaçant le curseur sur la colonne , on affiche les valeurs de qui correspond à  ; inversement, en plaçant le curseur sur , on affiche les valeurs de qui correspond à  ; ce comportement un peu étrange permet de comparer les statistiques des deux textes calculées suivant les mêmes principes.


Quelques observations sur ces mesures :

  1. Taille de l'alphabet : comme on l'a constaté à propos des signes pointés (voir aussi la discussion [⇒] portant sur le carnet ST James ), on peut avoir à se demander si, dans le texte à décrypter, tel signe est autonome ou ne forme qu'une variante d'un autre ; mais ces incertitudes portent sur une part relativement limitée de l'alphabet (de l'ordre de dix pour cent en général).

    Paradoxalement, c'est sur la taille de l'alphabet du texte en clair que l'hésitation et les écarts sont les plus forts :
    •  si on applique au texte décodé le même principe qu'au texte chiffré (en fait, le nombre de caractères Ascii différents utilisés pour la transcription), on arrive à 54, et L'Assommoir  en compte 94 ; la liste établie à partir des articles de Wikipédia  en français arrive à un total un peu plus bas mais elle ne distingue pas les majuscules des minuscules – ce qui nous mène à 110 tout compris ;
    •  pourtant, si vous demandez à quelqu'un combien il y a de lettres dans l'alphabet, vous obtiendrez le plus souvent comme réponse vingt-six  ; et c'est le même principe que suivent certaines tables de fréquence (par exemple, celle que publie le site nymphomath.ch ) ou les sections de divers sites consacrés au codage de Vigenère.

    On est donc conduit à distinguer


     espaces, chiffres, ponctuationMajuscules/minusculessignes diacritiquesexemple
    Alphabet complet prises en compte comme caractères autonomesà Saint-Denis
    Alphabet réduitsupprimésconfonduesconfondus avec
    la lettre simple
    à Saint-Denis

    C'est habituellement l'alphabet complet qui est pris en compte ici, mais certaines comparaisons avec l'alphabet réduit peuvent être intéressantes.

    retour à Un peu de vocabulaire  –c_____c– retour au tableau des statistiques
  2. Fréquence : c'est la mesure la plus parlante ; comme la page consacrée au carnet ST James   [⇒] en fait grand usage (sur les traces de Dennis Stallings), nous nous limiterons ici à la comparaison entre le texte crypté et les deux états du texte décodé.

    Ce qui frappe au premier abord, c'est l'aplatissement de la courbe dans LdV  ; et l'on serait tenté de considérer le phénomène comme banal puisque ce texte utilise plus de signes que la version décodée (67 contre 54) ; mais c'est là que la comparaison avec l'alphabet réduit est utile :


    Courbes des fréquences.la courbe pour l'alphabet complet de 54 lettres est plus proche de celle de l'alphabet réduit de 24 lettres que du texte chiffré avec ses 67 signes ; c'est donc que la taille de l'alphabet influe moins que la nature et le fonctionnement de cet alphabet.

    Et en effet, on peut observer que les particularités du système choisi pour LdV  concourent toutes à rétrécir les écarts de fréquence :


       Particularités   Exemple du l  dans LdV    Texte décodé
    •  distinction entre signes initiaux
    __________________et ultérieurs
       28 (41,2 %)
       27 (39,7 %)
       Majuscules :  3 ( 4,4 %)
       minuscules : 65 (95,6 %)
    •  signes pointés    9 (13,2 %)         absents
    •  * (signe de redoublement)    3 ( 4,4 %)         absents

    Enfin, si l'on compare les valeurs de LdV , de L'Assommoir  et de la nouvelle de Maupassant Le Horla , on peut observer deux différences plus anecdotiques mais intéressantes :


      Lettre  Fréquence  Commentaire
       G
    majuscule
    LdV            0,239 %
    L'Assommoir    0,145 %
    Le Horla       0,004 %
    Cette lettre est nettement plus présente dans LdV  et même L'Assommoir  que dans Le Horla  ; c'est certainement dû à la présence de Guillaume dans le premier texte, de Gervaise et Goujet dans le second.
       s
    alph. réduit
    LdV            5,9 %
    L'Assommoir    7,7 %
    Le Horla       8,3 %
    La différence est moins nette, mais le s (majuscules et minuscules confondues) est clairement moins fréquent dans LdV  que dans les deux autres textes – et cette fois, je n'ai pas trouvé d'explication.

  3. Indice de coïncidence : en simplifiant, on peut considérer que cet indice condense en une seule valeur les différentes fréquences des lettres, et est alors caractéristique de chaque langue ; le site dcode.fr  donne ce tableau :
     Français
     Espagnol
     Allemand
     Italien
     Russe
     Anglais
    0.0778
    0.0770
    0.0762
    0.0738
    0.0667
    0.0529
      certains écarts sont faibles (l'espagnol est à 1 % du français et de l'allemand), et parfois ambigus (un autre site donne 0,74 pour le français et 0,72 pour l'allemand, plaçant ces deux langues en dessous de l'italien) mais l'utilisation principale de cet indice est de déterminer si un texte chiffré l'est par simple substitution (avec une mesure proche de la valeur de référence de la langue) ou non : par substitution homophonique (comme LdV  avec 0,35) ou par code de Vigenère, où cet indice permet en plus de retrouver la longueur de la clé.

    NB- Qu'il s'agisse des fréquences ou de l'indice de coïncidence, ces deux mesures sont insensibles à la longueur du texte et à l'ordre dans lequel les caractères apparaissent dans le texte.
  4. Entropie : pour plus de précisions sur la réalité scientifique de l'entropie appliquée à un texte (entropie de Shannon), on peut se reporter à cette page  [⇒] du site dcode.fr  (qui offre aussi un calculateur) ou à la page de Wikipédia ; on peut constater que son utilité première est d'indiquer le nombre de bits nécessaires pour encoder un texte donné sans perte d'information – domaine plutôt pointu ; mais il se trouve que, comme les deux précédentes, cette valeur varie (plus ou moins) d'une langue à l'autre, notamment en fonction de la taille de l'alphabet ; d'où une extension de ses emplois.

    Pour les textes qui nous occupent, la valeur tourne autour de 4 pour les mesures en alphabet réduit et, pour l'alphabet complet, de 4,2 (LdV décodé - avec une ponctuation très limitée) à 4,46 (L'assommoir , employant une typographie plus variée), s'opposant aux 5,33 de la transcription.

    NB1- les mesures peuvent aller de 0 (voir plus bas le « texte » n° 2) à 8 puisque chaque caractère est codé sur un octet composé de 8 bits ;
    NB2- le programme ent.exe  de John Walker (que l'on peut trouver sur cette page  [⇒] de son site) permet d'obtenir l'entropie d'un texte (et quelques autres mesures non reprises ici).

  5. Coefficient de diversité : les trois mesures précédentes ont en commun de ne pas varier si l'ordre des caractères du texte est modifié ; par exemple, les anagrammes aaaaaabbbbbbcccccc et aaabacbabbbccacbcc ont le même niveau d'entropie (1,585) et le même indice de coïncidence (0,2941) ; il paraissait donc intéressant d'ajouter une mesure tenant compte de cet ordre ; qu'une telle mesure existe déjà, c'est vraisemblable mais je ne l'ai pas trouvée ; d'où ce coefficient de diversité :
       étapes du calcul de l'indice   exemples d'application à LdV 
    • pour chaque lettre de l'alphabet du texte
    ___•  lister les lettres contiguës
    _______(venant juste après la lettre considérée) ;
    ___•  compter le nombre d'occurrences de chaque lettre contiguë ;
    ___•  transformer ce nombre en pourcentage ;
    ___•  retenir le pourcentage le plus élevé
           après g              après q
      espace  a  e  é  o  r        u
     
         1    2  4  2  2  2       11
         8   15 31 15 15 15      100
                31 %             100 %
    • pour l'ensemble des lettres de l'alphabet du texte,
    ___•  faire la moyenne des pourcentages les plus élevés
    ___•  ôter cette valeur de 100

    65,27
    34,73

    On aura alors 11,313 pour aaaaaabbbbbbcccccc et 64,667 pour aaabacbabbbccacbcc ; d'une façon générale, plus la palette de possibilités est étendue et plus l'indice est élevé, avec un minimum de 0 quand chaque lettre ne peut être suivie que d'une seule et même lettre (cf. textes n° 1 et 2 plus bas) et un maximum de 100 - (100 divisé par la taille de l'alphabet) quand chaque lettre peut être suivie de n'importe quelle lettre de cet alphabet (soit approximativement entre 95 pour un alphabet réduit et 99 pour un alphabet complet).

    NB- on pourrait envisager de calculer cet indice autrement :
    •  de façon plus simple en faisant la moyenne du nombre de lettres contiguës possibles ;
    •  de façon plus élaborée en reprenant le pourcentage maximal mais en le pondérant par la fréquence de la lettre.
  6. Quelques tests : à titre informatif, voici les résultats pour quelques exemples ; les premiers sont très artificiels mais aident à fixer les idées ; les derniers reprennent les textes précédents en essayant de faciliter les comparaisons :

        Texte Indice de
    coïncidence
     Entropie Coefficient
    de diversité
       Notes
    1caractères Ascii (1) 0 (2) 7,5774 100(1) Suite de cent quatre-vingt-dix caractères où chacun n'apparaît qu'une fois.
    (2)dcode  donne 0,066, mais c'est sans doute dû à un traitement différent de certaines lettres comme œ .
    (3)planetcalc  indique 0,065 – mais là encore, c'est lié vraisemblablement à l'emploi de lettres à diacritiques pour transcrire (en interne) les signes pointés.
    (4) Cette valeur élevée vient sans doute de l'absence de séparation des mots, comme dans deuxheuresdu  ; même tendance dans LdV  mais moins marquée en raison de la brièveté de l'extrait.
    2aaaaaaaaaaaaaaaaaa 1 0   0
    3abcabcabcabcabcabc 0,29412 1,585   0
    4aaabacbabbbccacbcc 0,29412 1,585  64,667
    5aaaaaabbbbbbcccccc 0,29412 1,585  11,313
    6LdV  - transcription 0,068 (3) 5,2638  53,116
    7LdV  décodé - alph. complet 0.0709 4,4228  36,056
    8LdV  décodé - alph. réduit 0,0788  4,0049  58,125
    9L'Assommoir  - alph. complet 0,0689 4,4581  36,656
    10L'Assommoir  - alph. réduit 0,0787 3,9815  73,2 (4)

Livre  et carnet


Il est difficile, quand on consacre un peu de son temps à ce Livre de vie , de ne pas penser au carnet ST James  ; cette confrontation (où renaît le malaise évoqué au début de cette section) fera l'objet d'une annexe dans la section consacrée à James Hampton.


Plan du site & Mentions légales_._Site éclos sur Skyrock, développé avec Axiatel et mûri sur Strato.com_._© 2015-2024 - XylonAkau