Chapitre : les formats d'échange

Les formats d'échange


1. Les formats de données

Le format des données est la manière utilisée en informatique pour représenter des données sous forme de nombres binaires. C'est une convention (éventuellement normalisée) utilisée pour représenter des données, soit des informations représentant un texte, une page, une image, un son, un fichier exécutable, etc. Lorsque ces données sont stockées dans un fichier, on parle de format de fichier. Une telle convention permet d'échanger des données entre divers programmes informatiques ou logiciels, soit par une connexion directe soit par l'intermédiaire d'un fichier. On appelle interopérabilité cette possibilité d'échanger des données entre différents logiciels.

Typologie des formats de données

a) Les formats ouverts

On distingue un format dont la spécification est publiquement accessible, un format ouvert, d'un format fermé dont la spécification est secrète. Un format fermé correspond généralement à un logiciel seul capable de pleinement l'exploiter (par exemple les .doc de Microsoft Office).


Un format ouvert est un format de données interopérable et dont les spécifications techniques sont publiques et sans restriction d'accès ni de mise en œuvre, par opposition à un format fermé (loi française n° 2004-575 du 21 juin 2004).


Cela revient à dire, qu'un format de données est dit ouvert si son mode de représentation a été rendu public par son auteur et qu'aucune entrave légale ne s'oppose à sa libre utilisation (brevet, copyright, etc.). L'interopérabilité est le fait que plusieurs systèmes, qu'ils soient identiques ou radicalement différents, puissent communiquer sans ambiguïté et opérer ensemble.


Une autre distinction s'opère entre un format normalisé, faisant l'objet d'une normalisation par une institution publique ou internationale (ISO, W3C _ World Wide Web Consortium_) et un format quelconque, qui peut devenir un standard de fait s'il est populaire. Un tel format est parfois normalisé par la suite.

b) Les formats propriétaires ou fermés

Un format est dit propriétaire s'il a été élaboré par une entreprise, dans un but essentiellement commercial. Les formats fermés sont donc bien souvent des formats propriétaires et ils correspondent alors à une stratégie de diffusion de l'entreprise. Les formats propriétaires sont aujourd'hui très répandus, car ils sont utilisés par un grand nombre de logiciels d'édition et de manipulation de textes ou d'images. Un format propriétaire encode les données de telle manière que le fichier résultant n'est lisible qu'avec le logiciel créé pour les décoder. Le plus connu étant certainement le format '.doc' de l'entreprise Microsoft.

Dans le monde des logiciels. Le logiciel propiétaire sont souvent opposé au logiciel libre, qui offre la liberté pour tous les utilisateurs de l'exécuter, le copier, le distribuer, l'étudier, le modifier et l'améliorer. Ainsi un logiciel gratuit ne sera pas forcément libre, cela n'a rien à voir...


Le format libre est une notion mal définie...

c) exercice : les formats de fichiers (Annexe 1)


2. Les enjeux des formats d'échanges

L’échange d’informations passe de plus en plus par l’élaboration et la communication de documents électroniques. Cela impose le recours à des formats et langages communs pour les décrire et les gérer.

L'utilisation de formats ouvert ou fermés a peu d'importance pour un usage local, c'est à dire pour:

La distinction devient par contre crucial dès qu'un échange public de fichiers entre différents systèmes, notamment via un réseau, a lieu. Seuls les formats ouverts sont alors des formats d'échanges.

Voir l'article : Les vices cachés des .DOC (Annexe 3 : Question 1)



Les raisons de ne pas utiliser des formats propriétaires :



Les raisons d'adopter des formats ouverts

Utiliser des formats publics dans l'échange de fichiers signifie :

3. Propriétés des documents électroniques

a) description d'un document (Annexe 3, question 2)

Un document est le support physique d'une information.

Un document électronique stocke sur un support informatique des informations sous forme binaire (à l'aide d'un format de données). Il peut :



L'essor des documents électroniques et leur échange ont fait naître la problématique de leur authentification (signature électronique...) qui ne sera pas abordée ici.


Un document (électronique ou non) compote trois composantes :


Un document électronique contient une information structurée, destinée à être communiquée. Un document écrit peut être vu de différentes manières : du point de vue de sa structure (organisation interne), de son contenu (informations sous la forme de textes, d’illustrations), de sa présentation (disposition, styles), de son support (mémoire électronique, magnétique, optique).

b) les langages à balises (Annexe 4)

La création d'un document peut être linéaire, conduisant à mettre en place la structure, fournir le contenu et les mettre en forme au fur et à mesure.

Il est cependant possible et souhaitable de séparer le fond de la forme afin d'augmenter l'interopérabilité (revoir définition au 1.1 -a) : le contenu et la structure du document font alors l'objet de l'échange de données, la présentation s'adaptera au système destinataire. Cette possibilité est offert par les langages à balises


Il y a plusieurs avantages à une telle approche :


en conclusion :

Un document électronique est créé et enregistré selon un format spécifié, dans un ou plusieurs fichiers. Les langages à balises permettent de décrire un document indépendamment de la présentation retenue et du logiciel utilisé.


4. Les principaux formats d'échange

a) Le texte seul

b) Le HTML

c) Le XML

d) Le Pdf

e) Le format OpenDocument

références :

http://fr.wikipedia.org/wiki/Format_ouvert

http://fr.wikipedia.org/wiki/Logiciel_libre

http://formats-ouverts.org/blog/2006/08/28/923-une-histoire-incroyable-version-2-au-format-factuel

http://rebellyon.info/article1632.html

http://www.openformats.org/frShowAll




Suffixe

Contenu

Format ouvert / fermé

Spécification publique

.txt

Texte Brut (Ascii)

ouvert

oui

.doc

Texte mis en forme

fermé

non

.php

Script PHP en texte brut

ouvert

oui

.pdf

Présentation de document

ouvert

oui

.xls

Tableaux de calculs et graphiques

fermé

non

.htm

Page Web

ouvert

oui

.mp3

audio

fermé

oui

.mpeg

Audio et vidéo

fermé

oui

.ogg

audio

ouvert

oui

.avi

Conteneur audio/vidéo

ouvert

oui

.xml

Langage à balises étendu

ouvert

oui

.png

image

ouvert

oui

.gif

image

(ouvert)*

oui

.jpeg

image

fermé

oui

.rtf

Texte mise en forme

ouvert**

oui

.odt

Texte Open Document Format

ouvert

oui




* le format Gif est passé dans le domaine public dans certains pays


** Le format RTF, a été introduit par Microsoft dans le but de créer un format standard pour le texte mis en forme. Il offre la même richesse du format DOC, tout en étant (du moins dans sa version native) un format à spécification publique. La plupart des logiciels de traitement de texte sont capable d'écrire et lire ce format, mais comme certains logiciels ont tendance à utiliser des extensions propriétaires de ce format, sa compatibilité reste relative.




Un format conteneur est un format de fichier qui peut contenir divers types de données et celles-ci sont compressées à l'aide de codecs normalisés. Le fichier conteneur est utilisé pour pouvoir identifier et classer les différents types de données. Les formats conteneur les plus simples peuvent contenir différents types de codec audio, tandis que les formats conteneur les plus avancés sont capables de gérer de l'audio, de la vidéo, des sous-titres, des chapitres et des métadonnées (ou tags) et de façon synchronisée pour que les différents flux soient bien lus en même temps.



DVD haute définition: pas de format unique pour les premiers équipements

Par Christophe Guillemin (ZDNet France, 23 août 2005)


Technologie - Faute d'être parvenus à un accord sur un format unique de DVD de nouvelle génération, Sony et Toshiba vont démarrer la production de lecteurs compatibles avec leurs technologies respectives: le Blu Ray et le HD DVD.


Fin juin, les négociations entre Sony et Toshiba, portant sur la création d'un standard unique des futurs DVD haute définition, se sont soldées par un échec. Aujourd'hui, si les discussions ne sont pas définitivement closes, les constructeurs doivent désormais entrer en phase de production.


C'est du moins ce qu'ont affirmé à l'AFP des responsables de Toshiba, qui «estiment ne pas pouvoir différer davantage la production des lecteurs HD-DVD».


Il y aura donc d'un côté des équipements au format Blu-Ray, soutenu par un consortium rassemblant Sony, Dell, HP, Apple, la 20th Century Fox, Universal Music Group (UMG) ou encore Walt Disney. Et de l'autre, des consoles et logiciels de lecture de DVD au format HD DVD, créé par Toshiba, et qui compte parmi ses partisans Nec, Microsoft ou Sanyo.


Les premiers lecteurs-enregistreurs de DVD Blu-Ray sont disponibles au Japon depuis avril 2004. Pour l'instant ces machines s'adressent à une clientèle professionnelle pour la sauvegarde de données. La version grand public est attendue pour la fin 2005, avec une production en volume courant 2006. La Playstation 3, attendue l'an prochain, sera ainsi compatible uniquement Blu-Ray.


Même calendrier à respecter côté HD DVD. «Nous prévoyons de mettre dans le commerce les premiers produits d'ici à la fin de l'année. Pour cela, nous devons développer les logiciels pour les lecteurs ce mois-ci», a affirmé une porte-parole de Toshiba.


Une adhésion moins rapide que l'actuel DVD


Pour les analystes et les experts du secteur, il est fort probable que des lecteurs compatibles avec les deux formats apparaîtront sur le marché, grâce notamment au développement de composants polyvalents. Cela s'est déjà produit avec les lecteurs-enregisteurs de DVD, qui sont aujourd'hui aux deux formats: DVD+RW et DVD-RW.


Reste que l'arrivée sur le marché de deux formats de DVD de nouvelle génération pénalisera le secteur. «Ce qui a fait le succès du DVD actuel est que tous les acteurs se sont entendus sur un seul format, ce qui a considérablement accéléré l'adhésion à cette technologie», commente pour ZDNet.fr, Romain Corler, analyste chez GFK France. Selon l'institut d'étude, 75% des foyers français sont aujourd'hui équipés d'un lecteur de DVD, près de huit ans après son arrivée sur le marché.


«L'avenir est à la haute définition, c'est indéniable. Toute la question est de savoir si l'adoption sera rapide ou non. La présence de deux formats compliquera les choses pour le consommateur et devrait ralentir l'adoption de cette nouvelle technologie», estime l'analyste.

Les deux technologies ont des bases communes: le Blu-Ray et le HD DVD sont basés sur l'utilisation d'un laser bleu de longueur d'onde beaucoup plus courte que le laser rouge actuel.


Ils ont aussi des points de divergence, à commencer par la capacité de stockage. Celle du Blu-Ray est de l'ordre de 23 Go sur une seule couche; contre 4,7 Go pour les DVD actuels. En double couche, ils devraient donc attendre les 50 Go. Le HD DVD ne dépassera pas les 30 Go.

Les vices cachés des .DOC

Trois chercheurs, dont deux sont des militaires, affirment qu’une bonne partie des fichiers créés ou consultés par les internautes, et tout particulièrement les documents Word, recèlent des fonctionnalités cachées permettant l’injection de codes malveillants et la fuite d’informations confidentielles. Les antivirus et firewalls n’y peuvent rien ou presque : pour parer à ces problèmes de sécurité, il conviendrait donc d’apprendre à se protéger, voire de ne pas utiliser la suite Office de Microsoft (qui comprend les logiciels Access, Excel, Word, Outlook, etc.).


[...] Philippe Lagadec, ingénieur au Centre d’électronique de l’armement (CELAR) [...] a rappelé que même s’il a été vérifié par un ou plusieurs antivirus, un fichier téléchargé ou consulté sur internet peut, "à l’insu de l’utilisateur et de l’administrateur, permettre l’"envoi de données confidentielles vers internet, l’installation d’une porte dérobée ou d’un logiciel de commande à distance sur le poste de l’internaute, la destruction ou la falsification de ses données, ou encore "l’écoute des mots de passes saisis au clavier ou circulant sur le réseau".


[...] Fait peu connu, le logiciel Microsoft Word comprend en effet des fonctionnalités cachées permettant, entre autres choses, de prendre connaissance des différentes étapes de la rédaction d’un document.


En 2001, Alcatel l’avait appris à ses dépens. Suite à une faille de sécurité dans une série de modems, Alcatel avait publié un communiqué de presse dont un examen détaillé révélait la présence de toute une série de phrases raturées concernant précisément tout ce qu’Alcatel ne voulait justement pas rendre public.


Selon, la revue MISC, dans le cas de Word, "il ne s’agit pas de failles", mais de "fonctionnalités conçues délibérément, certainement dans un souci d’ergonomie toujours plus grande, mais qui au final font de l’utilisateur une victime".


Un document Microsoft Word peut fournir divers types de renseignements. Il contient notamment des informations sur son auteur. Il comprend, par défaut, son nom, celui de son entreprise, les dates et heures de la création et des dernières sauvegardes du fichier ainsi que le temps passé à l’éditer. Il peut aussi révéler le nom de la machine sur laquelle il a été créé, une partie de l’arborescence du disque dur de l’auteur, voire des informations sur la topologie du réseau interne à son entreprise ainsi que le Global Unique Identifier (GUID, identifiant unique attribué lors de l’enregistrement du système). Surtout, il permet de récupérer les modifications effectuées.


Des failles "édifiantes"


A l’appui de leur démonstration, les auteurs citent, dans leur article, deux autres cas de fuites, moins connus qu’Alcatel, mais "particulièrement édifiants". Le premier a permis à un laboratoire de s’apercevoir que l’un de ses fournisseurs avait proposé des tarifs inférieurs à un laboratoire concurrent. L’étude détaillée du devis (un fichier Word) révéla en effet que la secrétaire du prestataire avait tout simplement repris le devis établi pour le concurrent, avant d’en modifier les tarifs à la hausse...


Dans le second cas, les rédacteurs de MISC ont découvert la présence d’un e-mail compromettant dissimulé dans un document Word. Une société de presse les avait contactés pour vanter la sécurité des produits de l’un de ses clients. Le fichier, analysé, révéla le contenu complet d’un e-mail indiquant que la société de presse agissait bien en sous-main pour le compte de son client, et non de sa propre initiative.


"Word bugs"


Autre faille permise par Microsoft Word, ce que les auteurs nomment les "word bugs". Similaires aux "web bugs" (liens dissimulés dans une page html permettant de surveiller ceux qui consultent la page), ces liens cachés dans un document Word peuvent donner des informations sur sa consultation. Ils peuvent ainsi révéler le moment où le fichier a été consulté, le lieu d’où cette consultation a été effectuée ainsi que diverses données concernant l’identité et l’environnement du lecteur et de sa connexion réseau, toutes informations utiles à un assaillant potentiel.


Conclusion : "Les cas évoqués dans cet article sont d’autant plus effrayants qu’ils se reproduisent sans l’ombre d’un doute dans de nombreuses entreprises ou administrations, qui ne suspectent même pas ces ’fonctionnalités’. Combien d’entreprises mettent quotidiennement en péril leur activité ? Combien de services de l’administration, même parmi les plus sensibles, mettent en danger les données de l’Etat ?"


A titre d’exemple, le moteur de recherche Google référence ainsi plus de 5 000 fichiers .doc sur l’ensemble des sites web du gouvernement français, et plus de 500 000 documents de ce type sur ceux du gouvernement américain.


Jean-Marc Manach, Transfert.net, 17/06/2003 (http://www.transfert.net/a8977)




Question 1: Quel est le risque lié à la production et à la diffusion d'informations à l'aide de fichiers Word (.doc) ?



La diffusion volontaire d'informations l'aide de fichiers World peut s'accompagner d'une diffusion involontaire d'informations confidentielles par le format .doc à l'insu de l'utilisateur.












Question 2 : mettez en évidence les éléments de structure d'une part et de présentation d'autre part


Structure et nature des informations

Présentations associée

Le titre de l'article

En tête, centré, en gras, police différente

Les intertitres (ex « Word bugs »)

Ligne isolée, en gras

Les paragraphes

Saut de ligne

L'identification de l'article

En pied, alignée à droite

Le contenu correspondant à des propos cités

En italique (entre guillemets)









Question : déterminez dans le code HTML ci-dessus, les balises qui décrivent la structure du document et celles qui définissent sa présentation



Lignes

Balises de structures

Balises de présentation

2

<head> (en tête)


3

<title> (titre)

<title> est associé à une présentation par le navigateur

5

<body> (corps)


6

<p> (paragraphe)

<h1> (titre de niveau 1)

<p> est associé à un saut de ligne par le navigateur

<h1> est associé à une présentation par le navigateur (police plus grosse, gras)

7 et 8


<hr /> et <br />

9

<p> (paragraphe)

<p> est associé à un saut de ligne par le navigateur

11


<i> (italique)

15

<p> (paragraphe)

<p> est associé à un saut de ligne par le navigateur

19

<ul> (liste à puce)

Attribut type (forme des puces)

20

<li> (élément de la liste)



Stéphane Moulinet, lycée Jules Siegfried 2007 Page 3 / 9