🏆 Comprendre ce qu'est un document sur un ordinateur
🏆 Savoir différencier les catégories de fichiers et les standards et formats qui leur sont associés
🏆 Savoir différencier la mise en forme d'un fichier et sa structuration sémantique
🏆 Connaître théoriquement plusieurs modes d'organisation et de mise en forme d'un fichier textuel (XML, Markdown, LaTeX, ...)
🏆 Connaître théoriquement plusieurs modes de représentation de données organisées dans un fichier textuel (CSV, JSON)
🏆 Connaître les principaux standards XML et l'environnement technologique associé à ce standard
informatique
: Domaine des concepts et autres techniques employées pour le traitement automatique de l’information.IT
ou Information Technology
numérique
: (Électronique, Informatique)
binaire
:
document physique
existe dans le monde matériel. C'est un contenu inscrit sur un support, lisible immédiatement ou par l'intermédiaire d'un outil d'interprétation.document numérique
est immatériel. C'est un contenu encodé sous la forme de suites de 0 et de 1, stockées sur un support. Le document numérique est matérialisé virtuellement sous la forme d'un fichier
.fichier numérique
est une ressource pour enregistrer des données constituant ou non un document.logiciel
qui interprète le format d'enregistrement des données et qui les affiche selon les indications fournies avec le document ou selon des modalités définies par défaut.dématérialisation
(une copie numérique d'un document physique) ou être nativement numérique
(créé sans passer par une représentation physique)document numérisé
/ document numérique
La représentation des données numériques sous la forme de fichiers
ou de dossiers
organisés au sein d'une arborescence
et visible sur un bureau
:
interfaces graphiques
dans les années 1970. disque dur
possède plusieurs propriétés élémentaires :
nom
format
indiqué par son extension
taille
(ou poids
)est associé à des métadonnées
- des informations sur le contexte et les modalités de sa création
spécifié
: il existe une description de la convention utilisée pour représenter la donnée, elle est suffisamment décrite pour en développer une implémentation complète ;
ouvert
/ fermé
: la convention est publique ou non. Si elle est publique, il n'y a pas de restriction d’accès ni de mise en œuvre ;
normalisé
: la convention est adoptée et décrite par des organismes de normalisation (ISO, W3C). Exemple : le PDF/A ;
standardisé
: il n’existe pas de norme sur ce format mais son utilisation est tellement répandue qu’il est considéré comme un standard. Exemple : le PDF. ATTENTION : en anglais « standard » signifie « norme ».
propriétaire
: l’exploitation du format entre dans le cadre du droit privé, il a été breveté par une entreprise qui en est propriétaire et qui divulgue ou non la convention.
Un format peut être publié ET propriétaire (exemple : PDF ou DOCX
texte
: fichiers contenant du texte écrit destiné à être traité par l'ordinateur (ex: un programme informatique) ou par un programme (ex: une page web dans un navigateur) ou lu ou imprimé par l'utilisateur.
multimédia
: fichiers qui peuvent contenir des images, du son ou des vidéos sous une forme exploitable par l'ordinateur.
document
: fichiers complexes pouvant mélanger des données textuelles et des données multimédias ; ils résultent généralement de la compression de plusieurs fichiers numériques plus simples.
exécutables
: fichiers qui peuvent être exécutés par l'ordinateur (des programmes)
compressés
: fichiers codés selon un procédé qui les rend plus petits que les fichiers originaux - un programme décompresseur est nécessaire pour retrouver le fichier original.
💾 L'encodage
désigne la transformation de données d'un format à un autre.
💾 Le degré zéro de l'encodage numérique, c'est la transformation de données en valeurs binaires qui peuvent être traitées à l'échelle électronique (éteint/allumé). On représente ces états par un 1
ou un 0
.
bit
est une instance de 0 ou de 1train de bits
(ou byte
) est un groupe composé d'une suite de bitsoctet
est un groupe de 8 bits💾 Un fichier représenté par 100 octets est donc plus riche, plus complexe qu'un fichier représenté par 10 octets.
💾 On calcule la taille d'un fichier numérique à partir du nombre d'instances de 0 et de 1 nécessaires à sa représentation numérique.
La taille d'un disque dur définit le nombre de bits disponibles pour encoder des informations simultanément.
Par exemple, un disque dur de 50 Go de mémoire :
- est égal à 50 000 000 000 octets (cinquante milliards)
- est égal à 400 000 000 000 bits (quatre cents milliards)
La taille d'un fichier définit le nombre de bits nécessaire à son encodage.
Par exemple, un fichier d'une taille de 30 Ko :
- nécessite 30 x 1 000 x 8 bits
- contient donc un total de 160 000 instances de 1 ou 0
🗝️ Les normes d'encodages
définissent les clefs d'encodage et de décodage des données lorsque l'on passe d'une forme intelligible pour l'humain à une forme lisible par la machine.
🗝️ En fonction du type de fichier encodé (texte, image, vidéo, etc.), il existe différents paysages de normes et de modes de représentation.
🅰️ Un document numérique textuel contient du texte, c'est-à-dire une suite de caractères alphanumériques et de symboles.
🅰️ La norme d'encodage d'un texte == une table de correspondance entre un groupe de bits et un caractère alphanumérique ou un symbole.
🅰️ La norme d'encodage définit donc la liste des caractères disponibles (character set
).
🅰️ En fonction de la norme, la représentation d'un caractère peut s'étendre sur un ou plusieurs octets.
🅰️ Les normes les plus connues pour des textes en français sont :
ASCII
(1963)ISO 8859-1
(1986)UTF-8
(1996)🅰️ American Standard Code for Information Interchange
🅰️ Chaque caractère est représenté par 7 bits empaquetés dans 1 octet
🅰️ Le jeu de caractères est composé de 95 éléments (pas de caractères accentués) :
!"#$%&'()*+,-./
0123456789:;<=>?
@ABCDEFGHIJKLMNO
PQRSTUVWXYZ[\]^_
`abcdefghijklmno
pqrstuvwxyz{|}~
🅰️ Exemple : A
= 01000001
🅰️ Elle est souvent appelée Latin1
mais aussi Western Europe
🅰️ Chaque caractère est représenté par 8 bits
🅰️ ISO 8859-1 est rétrocompatible avec ASCII. Le jeu de caractères est composé de 191 éléments : les 95 caractères de la norme ASCII + des symboles et des caractères accentués :
!"#$%&'()*+,-./ ¡¢£¤¥¦§¨©ª«¬-®¯
0123456789:;<=>? °±²³´µ¶·¸¹º»¼½¾¿
@ABCDEFGHIJKLMNO ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ
PQRSTUVWXYZ[\]^_ ÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞß
`abcdefghijklmno àáâãäåæçèéêëìíîï
pqrstuvwxyz{|}~ ðñòóôõö÷øùúûüýþÿ
🅰️ Exemple: é
= 11101001
🅰️ Universal Character Set Transformation Format + base d'encodage (8, 16, 32, ...)
🅰️ En fonction de la base d'encodage, un caractère peut être représenté par 1, 2, 3 ou 4 octets.
🅰️ UTF est rétrocompatible avec ASCII, mais pas avec ISO 8859-1. Il s'inscrit dans le cadre établi par Unicode
qui vise à faciliter l'échange de textes numériques en assurant leur compatibilité.
🅰️ Unicode définit plus de 137 000 caractères, issus de multiples alphabets, et prévoit aussi des symboles comme les emojis.
🅰️ Exemple : 🤓 = 11110000 10011111 10100100 10010011
Si on n'utilise pas la bonne clef d'encodage ou de décodage d'un texte, on risque d'obtenir un texte partiellement ou entièrement illisible.
UTF-8 ouvert avec 8859-1 (Latin 1)
La Joconde, ou Portrait de Mona Lisa, est un tableau de l'artiste Léonard de Vinci, réalisé entre 1503 et 1506 ou entre 1513 et 15161,2, et peut-être jusqu'à 1519 (l'artiste étant mort cette année-là , le 2 mai)3, qui représente un portrait mi-corps, probablement celui de la Florentine Lisa Gherardini, épouse de Francesco del Giocondo. Acquise par François Ier, cette peinture à l'huile sur panneau de bois de peuplier de 77 à 53 cm est exposée au musée du Louvre à Paris. La Joconde est l'un des rares tableaux attribués de façon certaine à Léonard de Vinci.
UTF-8 ouvert avec ISO 8859-5 (Cyrillic)
La Joconde, ou Portrait de Mona Lisa, est un tableau de l'artiste LУЉonard de Vinci, rУЉalisУЉ entre 1503 et 1506 ou entre 1513 et 15161,2, et peut-УЊtre jusqu'У 1519 (l'artiste УЉtant mort cette annУЉe-lУ , le 2 mai)3, qui reprУЉsente un portrait mi-corps, probablement celui de la Florentine Lisa Gherardini, УЉpouse de Francesco del Giocondo. Acquise par FranУЇois Ier, cette peinture У l'huile sur panneau de bois de peuplier de 77 У 53 cm est exposУЉe au musУЉe du Louvre У Paris. La Joconde est l'un des rares tableaux attribuУЉs de faУЇon certaine У LУЉonard de Vinci.
Un fichier de texte peut contenir des indications de mise en forme
texte brut
(ou plain text
) == un texte dépourvu d'information de mise en forme, qui se limite à l'affichage de la traduction des données binaires en caractères alphanumériques et symboles
texte enrichi
(ou rich text
) == un texte qui comporte des éléments de mise en forme, qu'ils soient ou non affichés dans l'interface graphique
WYSIWYG
(What You See Is What You Get) == un éditeur de texte quie présente un texte enrichi avec sa mise en forme, de manière simultanée
WYSIWYM
(What You See Is What You Mean) == un éditeur de texte qui présente le texte et ses informations de mise en forme dans les interpréter
🔤 les informations de mise en forme sont des annotations qui sont formées selon plusieurs standards ou normes.
🔤 parser
un document == le traiter de manière à afficher la mise en forme
<gras>du texte</gras>
🔤 les normes et standards encadrant la manière de former les annotations sont étroitement liées au format du document et au standard qu'il suit.
🔤 L'extension d'un fichier texte indique à l'utilisateur et à l'ordinateur quel est son format, c'est-à-dire :
🔤 On peut classer les fichiers en deux catégories en fonction de leurs extensions :
📷 Il existe deux grandes catégories d'images :
les images matricielles
;
les images vectorielles
.
📷 Les images matricielles (ou bitmap
) sont des tableaux de points à 2 dimensions (hauteur, largeur)
📷 La définition
d'une image indique les dimensions de sa matrice. Une image de dimensions "32 x 21" est donc un tableau de 32 colonnes (largeur) et 21 lignes (hauteur). L'image est représentée par 672 cases (ou pixel).
📷 Les pixels ont des propriétés (coordonnées, couleur).
📷 La résolution
d'une image indique simplement la taille de l'image lorsqu'elle est représentée dans des dimensions matérielles. L'unité de mesure de la résolution dépend de l'unité de mesure matérielle : DPI
(dot per inch) -> indique le nombre de pixels utilisé pour représenter 1 pouce (2,54 cm).
📷 La taille d'un fichier image ne dépend pas uniquement du nombre de pixels qui la compose mais aussi de la quantité d'informations contenues dans un pixel.
L'encodage de la couleur dans les systèmes informatiques pourrait faire l'objet d'un cours à part entière.
🌈 Les principaux modes de représentation d'une image colorée (ou non) sont :
mode binaire
(noir ou blanc), niveau de gris
(intensité du noir entre 0 et 255*), mode RGB
(synthèse de trois couches monochromes contenant des valeurs d'intensité situées entre 0 et 255*).🌈 Une image en mode RGB est donc composée de l'assemblage de 3 matrices.
* 0-255 quand la valeur est enregistrée sur 1 octet.
🌈 Un pixel contient la valeur d'intensité des points situés aux mêmes coordonnées sur chaque couche de couleur.
⚖️ Le poids d'une image matricielle dépend en partie de la définition de l'image (nombre de pixels) et du mode de gestion des couleurs (nombre de couches de couleur)
⚖️ Le poids d'une image matricielle dépend aussi du format utilisé pour sa sauvegarde.
⚖️ Formats compresseés : réduire la taille d'une image en simplifiant les informations selon 2 principes:
⚖️ Certains formats audio et vidéo compressent les données selon les mêmes principes (ex: ondes sonores ou spectre de couleur non perçues par l'oreille ou l'oeil humain).
⚖️ Le taux de perte acceptable suite à la compression d'un fichier dépend de l'usage que l'on souhaite en faire (Ex : miniature ou impression grand format ?)
🧬 Une image vectorielle n'est pas constituée de pixels, mais de texte
🧬 Faite d'objets simples (segments, polygones, courbes de Béziers) définis par des propriétés (coordonnées, couleur de contour ou de remplissage, angle de rotation)
🧬 On peut modifier individuellement chacun de ces objets sans affecter l'ensemble
🧬 On peut animer une image vectorielle car les attributs d'un objet vectoriel peuvent être affectés par une variable de temps
🧬 Une image vectorielle n'a pas de résolution : elle est définie uniquement si l'on transforme l'image vectorielle en image matricielle
🧬 Le format d'images vectorielles le plus commun est SVG
(Scalable Vector Graphics) : soit du XML
🧬 On peut ouvrir une image vectorielle avec un éditeur d'image (comme Illustrator ou Inkscape) ou avec un éditeur de texte.
On peut ouvrir une image vectorielle avec un éditeur de texte ou un éditeur d'image, on ne peut ouvrir une image matricielle qu'avec un éditeur d'image
📽️ PDFScripting, What is a PDF (2017)