mardi 16 octobre 2012

les fichiers webarchivexml d'android

Les fichiers d'extension .webarchivexml  sont des fichiers obtenus à partir du navigateur installé sur les tablettes android.
Il est facile de vérifier (par éditeur de texte, navigateur internet) ....que tous ces fichiers sont des structures xml dont le coprs est contitué de balises

On ne reconnait pas de suite que tous les termes contenus entre les balises sont des caractères encodés en base64 voir wikipedia

En utilisant Encodeur/Décodeur en ligne Base64, Hexadécimal, Binaire ... (script serveur ) et en plaçant la chaine : aHR0cDovL3d3dy5tb25kZS1kaXBsb21hdGlxdWUuZnIvMjAxMi8wMS9CQUNPTklOLzQ3MTg4
dans la zone base64 et en actionnant le décodage, on obtient l'url du document de base.
Dans le cas présenté ci dessus c'est : http://www.monde-diplomatique.fr/2012/01/BACONIN/47188
De même on retrouvera le contenu de l'article en décodant le texte contenu entre les balises {data} et {/data}
Le travail restant à faire : écriture d'un programme qui décode le contenu de chaque zone codée afin de constituer un document html d'origine, visible sur tous les navigateurs. Mais ça,  se sera après.