Les fichiers d'extension .webarchivexml sont des fichiers obtenus à partir du navigateur installé sur les tablettes android.
Il est facile de vérifier (par éditeur de texte, navigateur internet) ....que tous ces fichiers sont des structures xml dont le coprs est contitué de balises
On ne reconnait pas de suite que tous les termes contenus entre les balises sont des caractères encodés en base64 voir wikipedia
En utilisant Encodeur/Décodeur en ligne Base64, Hexadécimal, Binaire ... (script serveur ) et en plaçant la chaine : aHR0cDovL3d3dy5tb25kZS1kaXBsb21hdGlxdWUuZnIvMjAxMi8wMS9CQUNPTklOLzQ3MTg4
dans la zone base64 et en actionnant le décodage, on obtient l'url du document de base.
Dans le cas présenté ci dessus c'est : http://www.monde-diplomatique.fr/2012/01/BACONIN/47188
De même on retrouvera le contenu de l'article en décodant le texte contenu entre les balises {data} et {/data}
Le travail restant à faire : écriture d'un programme qui décode le contenu de chaque zone codée afin de constituer un document html d'origine, visible sur tous les navigateurs. Mais ça, se sera après.
Charles de Gaulle : L'angoisse et la grandeur (Arnaud Teyssier)
Il y a 1 semaine