Typologie, formats et outils d'exploitation des documents numériques (1)

📌 Ecole du Louvre, Master Documentation et Humanités Numériques, 2020


Alix Chagué

📫 alix.chague@inria.fr

💼 Ingénieure Recherche et Développement @ Inria

inria inria

Crédits

une partie du contenu de ces slides est librement inspirée des supports de cours de Johanna Daniel

Retrouver l'ensemble du cours sur 👉 github.com/alix-tz/EDL_typo_doc

Objectifs du cours

🏆 Comprendre ce qu'est un document sur un ordinateur

🏆 Savoir différencier les catégories de fichiers et les standards et formats qui leur sont associés

🏆 Savoir différencier "encodage" et "annotation"

🏆 Savoir différencier la mise en forme d'un fichier et sa structuration sémantique

🏆 Connaître théoriquement plusieurs modes d'organisation et de mise en forme d'un fichier textuel (XML, Markdown, LaTeX, ...)

🏆 Connaître théoriquement plusieurs modes de représentation de données organisées dans un fichier textuel (CSV, JSON)

🏆 Savoir comment acquérir et exploiter des données textuelles

🏆 Connaître les principaux standards XML et l'environnement technologique associé à ce standard

Plan du cours

  • Définition d'un paysage numérique
  • Encodage numérique
  • Encodage des données textuelles
  • Encodage des images numériques
  • Aparté sur les fichiers PDF
  • Métadonnées
  • (Cycle de vie des documents numériques)

Définition d'un paysage numérique

Point terminologie (source : wiktionnaire)

  • informatique : Domaine des concepts et autres techniques employées pour le traitement automatique de l’information.
    • Etym. : (1962) Mot forgé par Philippe Dreyfus ; avalisé par Charles de Gaulle qui, lors d’un Conseil des ministres, trancha entre informatique et ordinatique.
    • En anglais on parle de IT ou Information Technology
  • digital :
    • (Adjectif 1) Du latin digitalis.
    • (Adjectif 2) Anglicisme de digit (« chiffre, de 0 à 9 en base décimale»), lui-même dérivé de l’habitude de compter sur ses doigts.
  • numérique : (Électronique, Informatique) Qualifie la représentation discrète de données ou de grandeurs physiques au moyen de nombres entiers ou d’équivalents ; qualifie aussi les systèmes, dispositifs ou procédés employant ce mode de représentation.
  • binaire :
    • (Mathématiques) Système de numération en base 2 dans lequel on exprime tous les nombres par le seul emploi de deux caractères, l’un désignant l’unité, l’autre indiquant sa place, comme seraient, dans les chiffres arabes, 0 et 1.
    • (Par extension) Qui ne comporte que deux éléments ou ne propose que deux options, précisément, strictement et invariablement.
  • électronique : (Par extension) Produit à l’aide d’appareils électroniques.

Documents

  • Un document physique existe dans le monde matériel. C'est un contenu inscrit sur un support, lisible immédiatement ou par l'intermédiaire d'un outil d'interprétation.
  • Un document numérique est immatériel. C'est un contenu encodé sous la forme de suites de 0 et de 1, stockées sur un support. Le document numérique est matérialisé virtuellement sous la forme d'un fichier.
  • Un fichier numérique est une ressource qui associe l'enregistrement des données dans la machine et sa restitution perceptible par un humain.
  • Pour lire un document numérique, il faut un logiciel qui interprète le format d'enregistrement des données et qui les affiche selon les indications fournies avec le document ou selon des modalités définies par défaut.
  • Un document numérique peut être issu d'un processus de dématérialisation (une copie numérique d'un document physique) ou être nativement numérique (créé sans passer par une représentation physique)
    • dans certains contextes, on distingue les deux en parlant de document numérisé et de document numérique

Gestionnaires de fichiers

image disque dur -> gestionnaire de fichiers

La représentation des données numériques sous la forme de fichiers ou de dossiers organisés au sein d'une arborescence est un paradigme apparu en même temps que les interfaces graphiques dans les années 1970. C'est dans le prolongement de cette analogie que l'on parle de Bureau sous Windows.

Il est fondé sur une analogie qui permet à l'humain de se représenter aisément les données et leur agencement. Mais il ne correspond stricto sensu à la manière dont les données sont écrites et organisées sur un disque dur.

Fichier numérique

Un fichier numérique représente un document numérique. Il possède plusieurs propriétés élémentaires :

  • un nom
  • un format indiqué par son extension
  • une taille (ou poids)

S'y ajoutent des informations sur le contexte et les modalités de sa création. Ce sont des métadonnées :

  • une date de création, de modification
  • un créateur
  • etc...

Format

Un format est une norme utilisée pour représenter du texte, du son, de l’image, de la vidéo, ou une combinaison des quatre sur une machine. C'est une sorte de « gabarit » qui prévoit que certaines informations sont exprimées d'une certaine manière et sont stockées à un emplacement précis ou dans un certain ordre.

Format

Il existe plusieurs statuts associés aux formats :

  • spécifié : il existe une description de la convention utilisée pour représenter la donnée, et elle est suffisamment décrite pour en développer une implémentation complète ;
  • ouvert / fermé : la convention est publique ou non. Si elle est publique, il n'y a pas de restriction d’accès ni de mise en œuvre ;
  • normalisé : la convention est adoptée et décrite par des organismes de normalisation (ISO, W3C). Exemple : le PDF/A ;
  • standardisé : il n’existe pas de norme sur ce format mais son utilisation est tellement répandue qu’il est considéré comme un standard. Exemple : le PDF. ATTENTION : en anglais « standard » signifie « norme ».
  • propriétaire : l’exploitation du format entre dans le cadre du droit privé, il a été breveté par une entreprise qui en est propriétaire et qui divulgue ou non la convention. Un format peut donc être propriétaire ET publié. Exemple : PDF ou DOCX.

Typologie de fichiers numériques

  • texte : fichiers contenant du texte écrit destiné à être traité par l'ordinateur (ex: un programme informatique) ou par un programme (ex: une page web dans un navigateur) ou lu ou imprimé par l'utilisateur.
    • .txt .csv .html .py
  • multimédia : fichiers qui peuvent contenir des images, du son ou des vidéos sous une forme exploitable par l'ordinateur.
    • image : .png .jpeg .gif
    • video : .mp4 .avi .mov
    • audio : .mp3 .wav .wma
  • document : fichiers complexes pouvant mélanger des données textuelles et des données multimédias ; ils résultent généralement de la compression de plusieurs fichiers numériques plus simples.
    • .docx .odt .pdf
  • exécutables : fichiers qui peuvent être exécutés par l'ordinateur (des programmes)
    • .exe .sh .app ...
  • compressés : fichiers codés selon un procédé qui les rend plus petits que les fichiers originaux - un programme décompresseur est nécessaire pour retrouver le fichier original.
    • .zip .tar .rar

Décompression d'un document

On peut dézipper un fichier ODT DOC ou DOCX

Décompression d'un document

On peut dézipper un fichier ODT DOC ou DOCX

Encodage numérique

💾 L'encodage désigne la transformation de données d'un format à un autre.

💾 Le degré zéro de l'encodage numérique, c'est la transformation de données en valeurs binaires qui peuvent être traitées à l'échelle électronique (éteint/allumé). On représente ces états par un 1 ou un 0.

  • un bit est une instance de 0 ou de 1
  • un train de bits (ou byte) est un groupe composé d'une suite de bits
  • un octet est un groupe de 8 bits

💾 Un fichier représenté par 100 octets est donc plus riche, plus complexe qu'un fichier représenté par 10 octets.

💾 On calcule la taille d'un fichier numérique à partir du nombre d'instances de 0 et de 1 nécessaires à sa représentation numérique.

Tout document conservé sur un ordinateur est constitué d'une série de 0 et de 1

encodage binaire d'une image et d'un texte

Mémoire

La taille d'un disque dur définit le nombre de bits disponibles pour encoder des informations simultanément.

Par exemple, un disque dur de 50 Go de mémoire :

  • est égal à 50 000 000 000 octets (cinquante milliards)
  • est égal à 400 000 000 000 bits (quatre cents milliards)

La taille d'un fichier définit le nombre de bits nécessaire à son encodage.

Par exemple, un fichier d'une taille de 30 Ko :

  • nécessite 30 x 1 000 x 8 bits
  • contient donc un total de 160 000 instances de 1 ou 0

Normes d'encodage

🗝️ Les normes d'encodages définissent les clefs d'encodage et de décodage des données lorsque l'on passe d'une forme intelligible pour l'humain à une forme lisible par la machine.

🗝️ En fonction du type de fichier encodé (texte, image, vidéo, etc.), il existe différents paysages de normes et de modes de représentation.

Encodage des données textuelles

🅰️ Un document numérique textuel contient... du texte. C'est-à-dire, une suite de caractères alphanumériques et de symboles.

🅰️ La norme d'encodage d'un texte définit une table de correspondance qui permet de passer d'un groupe de bits à un caractère alphanumérique ou un symbole.

🅰️ La norme d'encodage utilisée pour un texte définit donc la liste des caractères disponibles (character set).

🅰️ En fonction de la norme, un seul caractère peut être représenté par un ou plusieurs octets.

🅰️ Les normes les plus connues pour des textes en français sont :

  • ASCII (1963)
  • ISO 8859-1 (1986)
  • UTF-8 (1996)

ASCII

🅰️ American Standard Code for Information Interchange

🅰️ Chaque caractère est représenté par 7 bits empaquetés dans 1 octet

🅰️ Le jeu de caractères est composé de 95 éléments (pas de caractères accentués) :

 !"#$%&'()*+,-./
0123456789:;<=>?
@ABCDEFGHIJKLMNO
PQRSTUVWXYZ[\]^_
`abcdefghijklmno
pqrstuvwxyz{|}~

🅰️ Exemple : A = 01000001

ISO 8859-1

🅰️ Elle est souvent appelée Latin1 mais aussi Western Europe

🅰️ Chaque caractère est représenté par 8 bits

🅰️ ISO 8859-1 est rétrocompatible avec ASCII. Le jeu de caractères est composé de 191 éléments : les 95 caractères de la norme ASCII + des symboles et des caractères accentués :


 !"#$%&'()*+,-./    ¡¢£¤¥¦§¨©ª«¬-®¯
0123456789:;<=>?   °±²³´µ¶·¸¹º»¼½¾¿
@ABCDEFGHIJKLMNO   ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ
PQRSTUVWXYZ[\]^_   ÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞß
`abcdefghijklmno   àáâãäåæçèéêëìíîï
pqrstuvwxyz{|}~    ðñòóôõö÷øùúûüýþÿ

🅰️ Exemple: é = 11101001

UTF-8

🅰️ Universal Character Set Transformation Format + base d'encodage (8, 16, 32, ...)

🅰️ En fonction de la base d'encodage, un caractère peut être représenté par 1, 2, 3 ou 4 octets.

🅰️ UTF est rétrocompatible avec ASCII, mais pas avec ISO 8859-1. Il s'inscrit dans le cadre établi par Unicode qui vise à faciliter l'échange de textes numériques en assurant leur compatibilité.

🅰️ Unicode définit plus de 137 000 caractères, issus de multiples alphabets, et prévoit aussi des symboles comme les emojis.

🅰️ Exemple : 🤓 = 11110000 10011111 10100100 10010011

Mauvais encodage/décodage

Si on n'utilise pas la bonne clef d'encodage ou de décodage d'un texte, on risque d'obtenir un texte partiellement ou entièrement illisible.

UTF-8 ouvert avec 8859-1 (Latin 1)

La Joconde, ou Portrait de Mona Lisa, est un tableau de l'artiste Léonard de Vinci, réalisé entre 1503 et 1506 ou entre 1513 et 15161,2, et peut-être jusqu'à 1519 (l'artiste étant mort cette année-là, le 2 mai)3, qui représente un portrait mi-corps, probablement celui de la Florentine Lisa Gherardini, épouse de Francesco del Giocondo. Acquise par François Ier, cette peinture à l'huile sur panneau de bois de peuplier de 77 × 53 cm est exposée au musée du Louvre à Paris. La Joconde est l'un des rares tableaux attribués de façon certaine à Léonard de Vinci.

UTF-8 ouvert avec ISO 8859-5 (Cyrillic)

La Joconde, ou Portrait de Mona Lisa, est un tableau de l'artiste LУЉonard de Vinci, rУЉalisУЉ entre 1503 et 1506 ou entre 1513 et 15161,2, et peut-УЊtre jusqu'У  1519 (l'artiste УЉtant mort cette annУЉe-lУ , le 2 mai)3, qui reprУЉsente un portrait mi-corps, probablement celui de la Florentine Lisa Gherardini, УЉpouse de Francesco del Giocondo. Acquise par FranУЇois Ier, cette peinture У  l'huile sur panneau de bois de peuplier de 77 У— 53 cm est exposУЉe au musУЉe du Louvre У  Paris. La Joconde est l'un des rares tableaux attribuУЉs de faУЇon certaine У  LУЉonard de Vinci.

UTF est désormais la norme

diagramme montrant qu'UTF s'impose sur les autres normes depuis 2006

Texte brut, texte enrichi

🔤 Un texte est aussi caractérisé par des éléments de présentation (ou de mise en forme).

🔤 On parle de texte brut (ou plain text) pour désigner un texte dépourvu d'information de mise en forme et qui se limite à l'affichage de la traduction des données binaires en caractères alphanumériques et symboles.

🔤 On parle de texte enrichi (ou rich text) pour désigner un texte qui comporte des éléments de mise en forme, que ces éléments soient ou non affichés dans l'interface graphique.

🔤 Un éditeur WYSIWYG (What You See Is What You Get) présente un texte enrichi avec sa mise en forme, de manière simultanée

🔤 Certains éditeurs présentent au contraire le texte sans interpréter sa mise en forme, en affichant les annotations de mise en forme. On parle alors d'éditeur WYSIWYM (What You See Is What You Mean)

🔤 S'il est possible d'afficher un texte enrichi avec ou sans mise en forme, c'est que ces indications sont interprétées par l'ordinateur (on dit parser) lors de l'affichage du texte. C'est le logiciel ou les paramètres fixés par l'utilisateur qui déterminent si le texte est affiché en mode WYSIWYG ou WYSIWYM.

🔤 Il existe une multitude de manières de représenter les informations de mise en forme du texte. Elles sont étroitement liées au format du document et au standard qu'il suit.

  • Ex : Texte brut -- texte enrichi interprété -- texte annoté en XML, texte annoté en Markdown, texte annoté en LaTeX.

texte brut, texte enrichi dans un éditeur WYSIWYG, différents modes d'annotation pour un texte enrichi dans un éditeur WYSIWYM

🔤 L'extension d'un fichier texte indique à l'utilisateur et à l'ordinateur quel est son format, c'est-à-dire avec quel logiciel il faut l'ouvrir ou s'il contient ou non des informations de mise en page qu'il faut interpréter.

🔤 On peut donc classer les fichiers en deux catégories en fonction de leurs extensions :

En résumé

📝 Un document numérique qui contient du texte est enregistré par l'ordinateur comme une suite de 0 et de 1 ;

📝 Lorsqu'on affiche le contenu du document, cette suite de 0 et de 1 est décodée en suivant un standard (norme d'encodage), les 0 et le 1 sont transformés en caractères alphanumériques et en symboles ;

📝 En fonction du format du document et du logiciel utilisé, le document peut aussi contenir des informations relatives à la mise en page du texte, celles-ci peuvent être interprétées pour modifier l'apparence des caractères alphanumériques et symboles affichés à l'écran.

Encodage des images numériques

📷 Il existe deux grandes catégories d'images :

  • les images matricielles;

  • les images vectorielles.

Photoshop et GIMP créent des images matricielles, Illustrator et Inkscape des images vectorielles

Images matricielles

📷 Les images matricielles (ou bitmap) sont des tableaux de points à 2 dimensions (hauteur, largeur)

📷 La définition d'une image indique les dimensions de sa matrice. Une image de dimensions "32 x 21" est donc un tableau de 32 colonnes (largeur) et 21 lignes (hauteur). L'image est représentée par 672 cases.

📷 Chaque case est un pixel. Il possède des coordonnées et contient des informations sur sa couleur.

📷 La résolution d'une image est directement liée à sa définition et indique simplement la taille de l'image lorsqu'elle est représentée dans des dimensions matérielles. L'unité de mesure de la résolution dépend de l'unité de mesure matérielle : il est commun, même en Europe, d'exprimer la résolution d'une image en DPI (dot per inch), qui indique le nombre de pixels utilisé pour représenter un pouce (2,54 cm).

📷 La taille d'un fichier image ne dépend pas uniquement du nombre de pixels qui la compose mais aussi de la quantité d'informations contenues dans un pixel.

Images matricielles et encodage de la couleur

L'encodage de la couleur dans les systèmes informatiques pourrait faire l'objet d'un cours à part entière.

🌈 Les principaux modes de représentation d'une image colorée (ou non) sont le mode binaire (où il n'existe que deux "couleurs" : noir ou blanc), le niveau de gris (où l'intensité du noir est située entre 0 et 255*), le mode RGB (qui repose sur la synthèse que trois couches monochromes contenant des valeurs d'intensité situées entre 0 et 255*).

🌈 Une image en mode RGB est donc composée de l'assemblage de 3 matrices.

* 0-255 quand la valeur est enregistrée sur 1 octet.

Schématisation du fonctionnement des modes binaires, niveaux de gris et RGB

schema pour 3 modes d'images : binaire, grayscale, rgb

🌈 Un pixel contient la valeur d'intensité des points situés aux mêmes coordonnées sur chaque couche de couleur.

exemple des dimensions d'un pixel en mode binaire, niveaux de gris, rgb, rgba et cmjn

On peut utiliser un programme Python pour afficher les valeurs contenues dans chaque pixel.

images images images
1 2 3
In [39]:
image_as_a_list_of_pixel_values(1)  # on ne prend que les 5 premiers pixels
Image 1 (mode : RGB)
[(214, 168, 82), (212, 166, 80), (210, 162, 77), (204, 156, 71), (211, 163, 78)]

In [40]:
image_as_a_list_of_pixel_values(2)  # on ne prend que les 5 premiers pixels
Image 2 (mode : Gray scale)
[(214, 255), (212, 255), (210, 255), (204, 255), (211, 255)]

In [41]:
image_as_a_list_of_pixel_values(3)  # on ne prend que les 5 premiers pixels
Image 3 (mode : Binaire)
[255, 255, 255, 255, 255]

Le poids des images

⚖️ Le poids d'un fichier d'image matricielle dépend de la définition de l'image (nombre de pixels) mais aussi du mode de gestion des couleurs (nombre de couches de couleur)

comparaison du poids d'une même image en RGB et en grayscale

Le poids des formats

⚖️ In fine, le poids d'un fichier d'image matricielle dépend aussi du format utilisé pour sa sauvegarde.

⚖️ Il existe des formats compressés qui visent à réduire la taille de l'image simplifiant l'expression des informations nécessaires à la représentation de l'image, essentiellement selon deux principes :

  • certains éléments se répètent dans une image, on a donc intérêt à les représenter avec des raccourcis (à l'échelle des octets)
  • on peut compter sur le cerveau humain pour compléter une partie des informations, on peut donc dégrader les informations non essentielles

⚖️ Certains formats audio et vidéo compressent les données selon les mêmes principes (ex: ondes sonores ou spectre de couleur non perçues par l'oreille ou l'oeil humain).

⚖️ Le taux de perte acceptable suite à la compression d'un fichier dépend de l'usage que l'on souhaite en faire (Ex : miniature ou impression grand format ?)

comparaison du poids d'une même image en JPEG et en PNG

Images vectorielles

🧬 Contrairement à une image matricielle, une image vectorielle n'est pas constituée de pixels, elle est constituée... de texte.

🧬 Elle est composée d'objets simples (segments, polygones, courbes de Béziers) chacun défini par des propriétés telles que leur position (x,y et z), leur couleur de contour et de remplissage, leur angle d'orientation, etc.. On peut modifier individuellement chacun de ces objets sans affecter l'ensemble.

🧬 Il est possible d'animer une image vectorielle car les attributs d'un objet vectoriel peuvent être affectés par une variable de temps.

🧬 Une image vectorielle n'a pas de résolution : celle-ci est définie uniquement si l'on transforme l'image vectorielle en image matricielle.

🧬 Le format d'images vectorielles le plus commun est SVG (Scalable Vector Graphics).

🧬 On peut ouvrir une image vectorielle avec un éditeur d'image (comme Illustrator ou Inkscape) ou avec un éditeur de texte.

Une image dans un fichier texte

On peut ouvrir une image vectorielle avec un éditeur de texte ou un éditeur d'image, on ne peut ouvrir une image matricielle qu'avec un éditeur d'image

Opening a bitmap and an svg with a text editor

Quelques formats d'images

tableau récapitulatif des formats de fichiers images

En résumé

📝 Une image numérique peut être représentée par un fichier de texte (vectorielle) ou par une grille ou plusieurs grilles de valeurs qui déterminent l'intensité d'une couleur (matricielle) ;

📝 Les concepts de résolution, de définition et de pixels n'ont de sens que dans le cadre d'une image matricielle. Si une image vectorielle a une résolution, c'est qu'on est en train de la transformer en image matricielle.

📝 La taille d'un fichier contenant une image matricielle varie en fonction du nombre de pixels qui la composent, de la quantité d'informations contenues dans chaque pixel, mais aussi en fonction du format de sauvegarde utilisé.

Aparté sur les fichiers PDF

📽️ PDFScripting, What is a PDF (2017)

➡️ https://www.youtube.com/watch?v=GqEH8XvPZwM

Métadonnées

Types de métadonnées

Les métadonnées sont des informations associées à une ressource (ou à une donnée). On peut les ranger en plusieurs catégories en fonction de la nature de l'information qu'elles décrivent.

  • Métadonnées descriptives : informent sur le contenu intellectuel d'un document (titre, date, sujets, etc.)
  • Métadonnées administratives : relatives au substrat numérique du document (date et identité de l'opérateur à l'origine de sa création ou d'une modification, paramètres techniques, etc.)
  • Métadonnées structurelles : décrivent la structure interne du document numérique ; peuvent informer sur la hiérarchie des chapitres, des sections, l'ordre des pages, la qualité de certaines portions du texte, etc.

Stockage des métadonnées

Les métadonnées peuvent être internes à une ressource :

  • présentes dans le code source, affichées ou non (comme dans une page HTML )
  • associées à un fichier non-textuel ; il faut alors un logiciel pour accéder à ces métadonnées.

Elles peuvent être externes, stockées dans un fichier ou un système à part :

  • le document numérique et la ressource externe par un élément commun : en général, un identifiant unique ;
  • une fiche descriptive, un catalogue ou un instrument de recherche sont autant d'éléments extérieurs à une ressource qui contiennent des informations plus ou moins détaillées sur elle. Les métadonnées sont alors stockées dans un document Word, dans un PDF, sur un document papier, etc. ;
  • elles peuvent être stockées dans des fichiers numériques structurés comme des tableurs ou des bases de données (CSV, RDF, XML, etc.).

Standardiser les métadonnées

Les standards de métadonnées sont des modèles (ou schéma) qui guident l'organisation des informations de manière à garantir leur interopérabilité et leur pérennité.

  • interopérabilité: une autre institution ou un autre groupe de travail dont les objectifs peuvent être différents peut réutiliser les ressources (et les données associées) pour les associer à d'autres ressources et/ou produire de nouvelles connaissances.
  • pérennité: assurer la longévité des ressources de manière à ce que l'institution qui a créé les données ou une autre institution puisse les réutiliser plus tard avec d'autres logiciels ou alors que les technologies d'accès aux informations ont changé.

Le schéma de métadonnées, qu'il soit interne à un service ou induit par un standard, vise à documenter le protocole de production des données et de leur description. Il indique quels sont les éléments attendus, dans quel ordre et selon quel mode d'expression.

Quelques exemples de standards de métadonnées

  • Dublin Core : pour la description de ressources comme des documents, des vidéos, des images, etc.
    • Exemples de champs prévus par DC : Title, Creator, Date, Rights ;
    • On n'utilisera donc pas "Author" ou "Permission", etc.
  • EXIF (Exchangeable image file format) : pour la description d'images générées par des appareils photo
    • Exemples de champs prévus par EXIF: DateTimeOriginal, ExposureTime, ExifVersion ;
    • Notez que le schéma prévoit la documentation de la version du schéma suivie

On utilise souvent plusieurs modèles de métadonnées simultanément.

C'est la nature des ressources décrites et les objectifs d'utilisation qui déterminent quel standard est utilisé.

Quelques ressources supplémentaires sur les métadonnées

📽️ Urfist Méditerranée, "Les schémas de métadonnées", Doranum (2018)

➡️ https://doranum.fr/metadonnees-standards-formats/schemas-metadonnees/


📽️ Inist-CNRS, "La minute Métadonnées", Doranum (2018)

➡️ https://doranum.fr/metadonnees-standards-formats/minute-interconnexion-donnees-recherche/


📄 Jenn Riley, "Understanding Metadata: What Is Metadata, and What Is It For?" (2017)

➡️ http://www.niso.org/publications/understanding-metadata-riley

Cycle de vie des documents numériques

Phases de vie

  • phase de production

    • création (ex nihilo ou suite à une dématérialisation qui suit un cahier des charges et s'accompagne de métadonnées)
    • gestion des versions (à l'aide d'un gestionnaire de version ou par le biais d'un plan de nommage des fichiers)
    • modalité de partage (travail local, en ligne ou sur serveur partagé)
  • document de travail ou archives courantes : le document est utilisé de manière fréquente, car il est nécessaire à l’activité du service qui l'a produit

  • archives intermédiaires ou semi-actives : la fréquence d'utilisation du document est moindre mais justifie qu'il soit encore accessible rapidement

  • archives définitives : le document n'a plus d'utilité en tant que document de travail. S'il a une valeur d'"historique" il est conservé, sinon, il peut être à terme être détruit.

GED ou Gestion Electronique Documentaire

On peut aussi parler de Document Management System (DMS).

La GED désigne un système informatisé qui vise à définir et accompagner la production, l'enregistrement, la diffusion et la gestion des documents numériques au sein d'une organisation ou d'un service.

L'objectif de la GED est d'assurer l'organisation d'un système d'information de manière à l'homogénéiser et ainsi éviter la perte de données et faciliter l'archivage et le partage.

La GED se fait parfois par l'intermédiaire d'un logiciel. Elle peut être prise en charge et organisée par les Services Informatiques d'une institution, ou faire l'objet d'une prestation de la part d'une SSII (société de services en ingénierie informatique) ou désormais ESN (Entreprise de services du numérique).

Archivage électronique

L'archivage des documents électroniques répond à plusieurs enjeux liés au risque de perdre des informations :

  • pouvoir facilement retrouver un document ou une donnée (en organisant les dossiers, le nommage, etc.) ;
  • être robuste face au risque de casse ou de panne matérielle (en ayant des copies) ;
  • éviter la corruption des fichiers ou leur altération (en ayant des copies et/ou en sécurisant les accès) ;
  • se prémunir contre la perte d'accès à des données dues à une obsolescence logicielle (en émulant un environnement de consultation de documents compatible avec un "vieux" format ; ou en basculant sur des formats ouverts et libres).