La Fête de Hanukah

Comme WRR s'y attendaient, la publication déclencha une vive controverse. Les réactions furent dans leur ensemble soit une acceptation immédiate, soit un rejet immédiat.

Incapables de découvrir le moindre vice de procédure, les opposants étaient furieux, ils invoquèrent une conspiration. Connaissant la notoriété des scientifiques impliqués, une telle affirmation n'a évidemment aucun sens.

Parmi les adversaires des codes, le Professeur McKay, du Département de Sciences Informatiques de l'Université Nationale Australienne, produira des parodies d'expérimentations pour prétendre que l'on peut trouver de telles occurrences dans n'importe quel texte, il accusera WRR d'avoir ajusté les mesures en fonction des données, et donc de produire des valeurs statistiques a posteriori. Or, nous avons bien vu que cela n'a été possible à aucun moment de l'expérimentation des Grands Sages.

Les opposants restèrent sur leur position, refusant de reconnaitre la valeur des expérimentations de WRR. Leur argument ultime est d'affirmer que les mots-clé ne sont pas choisis a priori, laissant ainsi une marge de manoeuvre pour sélectionner les valeurs p les plus petites.

Cette notion est simple à illustrer: Supposons que nous ayons un baril contenant 1.000.000 de balles de différentes couleurs. Dans ce baril se trouvent 100 balles de couleur bleue. Ainsi, si nous prenons 1 balle au hasard, la probabilité qu'une balle bleue soit sélectionnée sera 100/1.000.000 = 1/10.000.

Maintenant, supposons que nous allions jeter un coup d'oeil dans le baril pour voir ou sont les balles bleues et que nous en trouvions une, quelle est maintenant la probabilité? Il est vrai que la probabilité de tirer une balle bleue au hasard est de 1/10.000, mais la probabilité que je tienne cette fois-ci une balle bleue dans ma main est 1. Après avoir pris la balle bleue, je ne peux pas demander quelle est la probabilité que je tire une balle bleue au hasard; l'évènement a déjà eu lieu. De tels évènements ont une probabilité de 1. Ils ne sont pas a priori; ils sont a posteriori.

Prenons un des plus célèbres exemples des expérimentations de WRR qui furent contestées par le Professeur McKay: Celui de la fête juive de Hanouka.

L'origine de cette fête remonte au temps de la domination grecque séleucide de la Judée par le roi syrien Antiochus 4, de 175 a 164 av. J-C, (époque a laquelle la Torah avait déjà été traduite en Grec).

Dans sa volonté de faire de la culture grecque le socle commun de tous les peuples de son empire, Antiochus 4 décréta que les Juifs devait abandonner leur religion et l'étude de la Torah, ne plus observer le Shabbat et les fêtes religieuses, et de ne rendre un culte qu'aux dieux grecs.

La circoncision fut interdite sous peine de mort, les rabbins et érudits de la Torah furent pourchassés et tués, et ceux qui refusaient de sacrifier des porcs et de les manger étaient torturés a mort.

Les Juifs se révoltèrent. La révolte fut déclenchée en 167 av.J-C par une famille hasmonéenne de la ville de Modiin, sous la conduite de Yehoudah, le fils du prêtre Matityahou.

Les insurgés furent connus sous le nom de "Maccabées".

Au bout de trois années de guerre, les Juifs reprirent Jérusalem, et le Temple qui avait été profané fut reconsacré le 25 du mois de Kislev (c'est l'origine du mot hanouka: consécration)

Lorsqu’ils voulurent allumer la ménorah (le candélabre à sept branches) du Temple, ils ne trouvèrent qu’une seule fiole d'huile que les Grecs n’avaient pas souillée. Miraculeusement, cette provision d’huile à peine suffisante pour un jour brûla pendant huit jours, jusqu’à ce qu’une nouvelle huile satisfaisant aux conditions de pureté rituelle puisse être préparée.

Depuis lors, le 25 de Kislev marque le premier jour de la fête de Hanoukah qui fut instituée à cette époque, pour célébrer le triomphe de la lumière sur l’obscurité, de la pureté sur l’altération, de la spiritualité sur le matérialisme.

Witztum lanca une expérimentation a priori en utilisant les mots clés suivants:

Hahanouka (la consécration), Hasmonéen, Macabée, et Yehoudah, soit les mots les plus pertinents qui correspondent à Hanouka. Le nombre d'ELS attendus est fixé à 10.

La recherche produit cette table extrêmement compacte faisant apparaitre les quatre mots.

Elle est située entre les chapitres 36 et 38 de la Genèse.

La probabilité qu'une table aussi compacte apparaisse dans une population de textes de contrôle est de 0,00025, soit 1 chance sur 4000.

החנוכה Hahanouka

יהודה Yehoudah

מכבי (macabi) Macabée

חשמונאי (hashmonai) Hasmonéen

McKay prétendit que des tables contenant des mots conceptuellement corrélés avec une compacité similaire pouvaient être trouvées dans n'importe quels textes.

Son argumentation se résume à ceci: "Tout le monde admet que des textes comme "Guerre et paix" ou "Moby Dick", ne contiennent pas de codes. Supposons que l'on fasse une expérimentation en utilisant ces textes et que l'on obtienne un résultat statistiquement significatif, cela veut dire que le critère de compacité utilisé pour l'expérimentation des codes de la Torah n'a pas de valeur discriminatoire, et donc l'hypothèse des codes de la Torah est nulle. Le problème doit se trouver dans la méthodologie expérimentale."

Le Professeur McKay va donc conduire des expérimentations en apparence similaires a celle de WRR, mais en apparence seulement. Etant convaincu que les expérimentation de WRR ne sont pas a priori, il va donc usé de ce stratagème.

Pour contester la table de Hanouka de WRR ci-dessus, McKay part de l'hypothèse que les mots comme "Macabée", "Hasmonéen" et "Yehoudah" ne sont en fait pas a priori. Il prétend que le chercheur de codes a testé plusieurs mots pour voir comment ils s'arrangent ensemble. Les mots clés ne formant pas un assemblage compact sont écartés, et les mots qui restent sont alors montrés dans la table. En bref, le chercheur de codes a triché en faisant une "cueillette de cerises", comme dans l'illustration du baril de balles. Ceci est l'ultime argument de tous les critiques.

Voici le genre d'argumentation que McKay oppose dans l'exemple de Hanouka:

Tout le monde sait que Hanouka est une fête ou on allume des chandelles; alors, pourquoi n'a-t-on pas recherché le mot "chandelle"? Et avant l'allumage, on prononce une bénédiction (b'rakhah), donc pourquoi ne pas avoir recherché aussi le mot "bénédiction"?

Pour supporter son affirmation, il présente ensuite le résultat d'une recherche de "hanouka" dans la Torah avec les mots clés "chandelle", "bénédiction", et "menorah" (chandelier), qui produisent des tables non statistiquement significatives (Soulignons en passant qu'une bénédiction est prononcée à toutes les fêtes et en toute occasion, le mot n'est donc en rien spécifique de la fête de Hanouka).

Il prétend donc qu'en testant tous les mots conceptuellement corrélés (selon ses propres critères), en utilisant les différentes orthographes possibles (deux pour hanoukah), avec ou sans l'article défini ha, on peut ainsi procéder à 60 expérimentations, et le meilleur résultat donne une valeur p de 0,0185. Sous ces conditions, en appliquant la correction de Bonferroni, la valeur p devient 0,0185 x 60 = 1,11. La valeur p est alors supérieure a 1, et devient donc insignifiante.

L'argumentation est la même dans tous les cas: Le critique invente une histoire de ce qui aurait pu être possible: Le choix des mots clés, leurs différentes orthographes, et la nature des différentes expérimentations possibles, et accuse ensuite le chercheur de codes de la Torah d'avoir en fait agit juste selon l'histoire qu'il a inventée. Il n'y a pas de réplique possible, à partir du moment ou le chercheur de codes indique qu'un choix a été fait, le critique conteste le choix: Pourquoi ce choix et pas un autre.

L'argument essentiel du critique est que l'expérimentation n'est pas reproductible publiquement. De son point de vue, une explication aux résultats statistiquement significatifs a été trouvée: Ils sont simplement non a priori.

Cependant, ce n'est pas parce que le critique a trouvé une explication que les choses se passées ainsi; le fait qu'il existe des billets contrefaits ne signifie pas pour autant que les billets que j'ai dans ma poche sont contrefaits.

Puisque les critiques n'ont aucun autre argument à opposer, les chercheurs peuvent commencer a répondre avec plusieurs types d'arguments:

Le premier argument est celui qui décrit des expérimentations menées avec succès en utilisant un choix a priori de mots clés.
Le deuxième est le fait que le texte de la Torah qui apparait dans la table est conceptuellement corrélé aux mots clés.
Le troisième est que la table initialement développée avec des mots clés a priori fait ensuite apparaitre des mots additionnels pertinents.

En comparaison, les fausses tables produites par les critiques

ne sont pas composées de mots a priori, ou ne sont pas statistiquement significatives.
n'ont pas de rapport avec le texte.
on n'y trouve pas de mots additionnels.

Ainsi, les fausses tables de McKay ne contiennent la plupart du temps pas plus de deux ou trois mots, alors que celles des chercheurs en contiennent fréquemment plus de trois, et parfois un nombre important.

Observons ce contre-exemple de hanouka que McKay a produit a l'aide d'une traduction hébraïque de "Guerre et paix", avec les mots "hanouka", "menorah" (chandelier), et "hadlekah" (allumage)

Voici la table la plus compacte qu'il obtient:

Cette table parait compacte mais ce n'est qu'une apparence. La probabilité qu'une table aussi compacte survienne dans une population de textes de contrôle est 0,0265.

La table n'est pas statistiquement significative.

Les mots choisis par McKay ne sont de toute évidence pas a priori. Les deux mots clés "allumage" et "chandelier", ne sont pas les plus pertinemment liés à la fête de Hanouka. Et apparemment, le mot "allumage", a été choisi faute de pouvoir en trouver un autre plus pertinent.

Le résultat est une table de trois mots seulement, dont deux ne sont pas des plus significatifs, non a priori, et la table n'est même pas statistiquement valide.

Pour résumer:

L'existence d'ELS n'est pas surprenante. Des ELS de mots historiquement ou logiquement corrélés peuvent être trouvées dans de nombreux textes. On pourra toujours trouver des tables plus compactes que d'autres, mais même la table la plus compacte n'est pas intéressante en elle-même. Ce qui est intéressant, c'est quand la table la plus compacte qui apparait dans un texte donné, contenant au moins une ELS de petit intervalle, est beaucoup plus compacte que les tables les plus compactes trouvées de façon aléatoire dans une population appropriée de textes de contrôle bien déterminés. Par exemple, si pas plus que 1% de textes d'une population de textes de contrôle possède une table plus compacte que la table la plus compacte d'un texte donné, cela commence à devenir intéressant.

La fraction d'échantillon de textes d'une population de textes de contrôle qui possède une table plus compacte que la table la plus compacte d'un texte donné est appelée "valeur p de l'expérimentation".

Nous verrons plus loin d'autres tables produites par McKay, pour comparer leur valeur statistique avec celles de WRR.

Dans tous les cas, WRR sélectionnent les mots clés les plus pertinents en relation avec la recherche à effectuer. Dans l'exemple de Hanouka, ils avaient choisi d'emblée les trois mots les plus pertinents en relation avec cette fête, et non des mots conceptuellement moins importants comme "chandelier" ou "lumière". L'expérimentation fut un succès.

Cependant, toutes les découvertes de codes de la Torah n'ont pas été faites en suivant un tel protocole avec des mots-clés choisis a priori, comme nous l'avons vu avec les premières découvertes, qui furent faites en développant des tables dans un nombre spécifique de colonnes (par exemple 50) faisant alors apparaitre des mots-clés en relation avec le texte.

Cela ne signifie pas pour autant que ces codes soient le fait du hasard, mais on ne peut pas leur donner de valeur statistique réelle, car elles n'ont pas été produites en fonction d'un protocole expérimental bien défini à l'avance.

Même s'il est extrêmement rare de trouver de telles tables statistiquement significatives dans d'autres textes que la Torah, les critiques pourront toujours objecter qu'il s'agit là d'une "cueillette de cerises", le chercheur ayant eu tout le loisir d'expérimenter une multitude de mots-clés et de ne retenir que les tables statistiquement intéressantes.

Les expérimentations a priori comme celles des Grands Sages apportent donc une preuve statistique incontestable de l'existence des codes de la Torah. Face à cela, l'ultime argument des opposants est de prétendre qu'il y a eu fraude.

McKay laisse donc entendre que WRR auraient tricher, ce qui est inconcevable, d'abord à cause de leur notoriété, et d'autre part, de l'extrême sévérité des contrôles qui ont accompagné l'expérimentation ainsi que sa publication. Une manipulation du protocole ou de la base de données aurait nécessité une vaste conspiration de mathématiciens et de professeurs d'universités de notoriété mondiale, à tous les niveaux de l'expérimentation. C'est tout simplement impossible!