Vidéo numérique

Sommaire

  • 1 Le cinéma
  • 2 La vidéo analogique
  • 3 La vidéo numérique
    • 3.1 Numérisation
      • 3.1.1 Numérisation à partir d'un signal analogique
      • 3.1.2 Numérisation directe d'image
    • 3.2 Compression numérique
      • 3.2.1 Qualité de l'encodage
      • 3.2.2 Compression non destructive
      • 3.2.3 Compression destructive
        • 3.2.3.1 Compression vidéo
        • 3.2.3.2 Compression audio
    • 3.3 Formats audio et vidéo
  • 4 L'animation
  • 5 Liens pour approfondir

 

L'oeil humain est capable de distinguer environ 20 images par seconde. Une succession de plus de 20 images par seconde créé ainsi l'illusion du mouvement. L'image animée peut être produite selon quatre manières différentes :

  • le cinéma
  • la vidéo analogique
  • la vidéo numérique
  • l'animation

Le cinéma

La succession d'images est stockée en négatif sur une pellicule. La restitution du film se fait alors grâce à une source lumineuse projetant, à partir d'une copie en positif, les images successives sur un écran. Pour une succession de 24 images par seconde, la pellicule doit donc être fixe 24 fois par seconde devant l’objectif photographique, mais il faut aussi que, 24 fois par seconde, la pellicule puisse avancer à l’image suivante.
Si la pellicule avance pendant que la lumière impressionne la pellicule, l’image va être "filée", formée de traits verticaux. Pour éviter cela, la lumière est coupée lors du passage à l'image suivante. Le clignotement n’est pas visible par l’oeil humain du fait de la persistance rétinienne.

La vidéo analogique

A la différence du cinéma, la vidéo (analogique ou numérique) vise à transmettre des images animées à distance.
La vidéo analogique consiste à capturer un signal analogique physique (vibration acoustique pour le son ou ondes électromagnétiques pour l'image) et à le transformer en un signal analogique électrique proportionnel qui offre l'avantage de pouvoir être facilement stocké (enregistré sur bande magnétique) puis retransformé en signal analogique physique pour restituer le son (via un haut-parleur) ou les images d'origine (via des tubes cathodiques).

La vidéo numérique

La vidéo numérique, quant à elle, consiste à capturer le signal physique analogique et à le transformer en un signal numérique binaire, qui pourra, lui aussi, être stocké, traité et reconverti en tensions analogiques pour restituer les images ou le son initial.
La vidéo numérique (ordinateur) représente l'information sous la forme d'un flux vidéo composé d'une succession d'images numériques, chacune formée d'une matrice rectangulaire de pixels. Le flux vidéo peut être, ou non, accompagné de sons (flux audio).
Sur internet, la vidéo numérique peut être visualisée en direct (opération que l'on nomme "streaming") ou téléchargée en local sur son ordinateur pour ensuite être lue.

La numérisation des signaux offre de nombreux avantages :

  • Fiabilité de la transmission
    Les circuits numériques sont peu sensibles aux perturbations : le système binaire rend le signal plus robuste face aux variations parasitaires (tant que les 2 niveaux haut et bas du signal restent distincts).
    Les données peuvent être ainsi stockées, traitées, diffusées sans être altérées, contrairement aux données analogiques stockées sur bande magnétique (celle-ci se dégrade lors des passages répétés sur les têtes de lecture).
  • Protection contre les erreurs
    Des techniques de protection contre les erreurs peuvent être mises en oeuvre pour offrir le maximum de fidélité.
  • Cryptage
    Les données peuvent être cryptées.
  • Gestion numérique des droits
    (Digital Rights Management). Système technique de contrôle et de protection de l'utilisation des fichiers audio et vidéo : il permet de limiter ou d'empêcher la copie, l'enregistrement ou même la lecture.
  • Compression des données

 

Numérisation

La "numérisation" (nommée aussi "capture", "acquisition" ou "digitalisation") consiste à traduire la représentation analogique d'un objet (ou phénomène) du monde réel en une représentation discrète (numérique).
Elle permet de transférer les données vidéo depuis un caméscope, un magnétoscope ou un faisceau satellite vers le disque dur de l'ordinateur. La source de l'enregistrement peut être analogique ou numérique.

Numérisation à partir d'un signal analogique

Le signal physique (son ou images) est tout d'abord enregistré sous la forme d'un signal analogique électrique puis converti en un signal numérique.
La numérisation est prise en charge par un convertisseur analogique numérique (CAN), appareil permettant de transformer en valeurs numériques un phénomène variant dans le temps. Dans ce cas, la source analogique de l'enregistrement peut être par exemple :

  • Une caméra analogique branchée à l'ordinateur grâce à une carte d'acquisition vidéo
  • Une bande VHS d'un magnétoscope transférée grâce à une carte d'acquisition vidéo


Le signal vidéo peut être transmis de plusieurs façons différentes à l'ordinateur. Sous la forme :

  • d'un signal RVB. Connecteurs VGA. Système de transmission à 3 composantes (3 signaux distincts) : Rouge, Vert et Bleu. Signal de bonne qualité.
  • d'un signal YUV (nommé aussi "Y-Cb-Cr"). Connecteurs BNC ou RCA/Cinch à 3 composantes. Système de transmission à 3 composantes : Luminance, Rouge, et Bleu. Qualité équivalent au précédent.
  • d'un signal S-vidéo (nommé aussi "Y/C"). Système de transmission à 2 composantes : luminance (Y) et la chrominance C). Qualité plus faible que les deux précédents.
  • d'un signal composite. Qualité médiocre qui mélange la luminance et la chrominance. Prises RCA/Cinch jaunes + pour le son stéréo : RCA/Cinch blanches et rouges.
  • La prise péritel, quant à elle, est un connecteur audio et vidéo à 21 contacts qui, en fonction des appareils auxquels elle est branchée, permet une connexion rapide et fiable des différents types de signaux audio et vidéo analogiques.

La carte d'acquisition vidéo est une carte d'extension pour ordinateur qui permet de numériser le flux d'images vidéo codées de façon analogique. Elle convertit en temps réel le flux vidéo analogique issu de l'interface vidéo (caméra, magnétoscope, etc) en vidéo numérique selon des paramètres d'acquisition prédéfinis (tels que la résolution de capture, le type de compression souhaité et donc le format du fichier à créer, etc). On peut, en remplacement d'une carte, utiliser un convertisseur : il a la même fonctionnalité que la carte mais il se présente sous la forme d'un boîtier externe. Dans ce cas, le convertisseur est relié à l'ordinateur à l'aide d'un câble de type IEEE 1394 (voir ci-dessous).

Numérisation directe d'image

La numérisation s'effectue directement à la source, par :

  • une caméra numérique ou un appareil photo numérique,
  • un magnétophone numérique,
  • un scanner. Celui-ci transforme une image (dessin sur papier, imprimé, photographie, diapositive, etc.) ou un objet réel en une image numérique.

La norme IEEE1394 (nommée "Firewire" par Apple et "i.Link" par Sony) permet la connexion et la transmission des informations numériques entre les périphériques (caméscopes, magnétoscopes, ...) et l'équipement central (ordinateur) à travers un câble et des prises spéciaux.
Le standard DV est le format le plus largement utilisé pour l'enregistrement, sur cassette DV, des images et du son capturés par la caméra numérique. Ces données sont directement lues et stockées sur disque dans des fichiers .avi grâce à l'entrée IEEE1394 de l'ordinateur.
La connexion numérique est sans perte et donc bien meilleure que la connexion analogique.

La numérisation comprend trois grandes étapes :

  • Echantillonnage ("sampling")
    Il consiste à mesurer périodiquement la valeur du signal analogique (sa tension) et à transformer aussitôt cette valeur en un nombre binaire. Plus la fréquence d'échantillonnage ("taux d'échantillonnage") sera élevée (c'est-à-dire que les échantillons sont relevés à de petits intervalles de temps), plus la traduction numérique sera proche de l'original analogique et donc meilleure sera la qualité.
    Selon le théorème de Shannon, il faut échantillonner à une fréquence double (ou supérieure) à la fréquence maximale du signal analogique que l'on échantillonne pour pouvoir numériser correctement.
    Ainsi, pour le son, l'oreille humaine moyenne perçoit une fréquence maximale de 20000 Hz. La fréquence d'échantillonnage recommandée est donc de : 40000 Hz.
  • Quantification
    Elle consiste à affecter une valeur numérique à chaque échantillon prélevé c'est à dire, à convertir la tension mesurée de chaque échantillon en un mot binaire sur 4, 8, 10, 16 ... bits suivant la qualité désirée. Là encore, plus la "résolution" (nombre de bits pour le codage) sera grande, meilleur sera le résultat.
  • Codage
    Transformation de l'information binaire sous forme d'un signal à deux états : la transmission numérique est ainsi assurée.

Le CD audio a été conçu pour offrir un son couvrant l'ensemble du spectre perçu par une oreille humaine moyenne. La musique qu'il contient a donc été numérisée à un taux de 44100 Hz (échantillonnage) sur 16 bits (résolution).

Dans le signal analogique, l'information (qui peut être représentée sous la forme d'une courbe) est contenue dans l'amplitude et la fréquence du signal électrique.
L'information numérique (qui peut être représentée sous la forme d'un histogramme) est une suite de valeurs binaires complètement indépendantes des valeurs électriques. Après cette conversion numérique, le signal n’est plus, en effet, qu’une suite de " 0 " et de " 1 " c’est à dire un signal à deux amplitudes au lieu d’une infinité en analogique . Une fois sous cette forme le signal peut être copié et transmis sans pertes car au lieu de transporter un signal dont l’amplitude doit varier fidèlement à l’original, on transporte un signal formé de seulement deux amplitudes (par exemple 0=0volt et 1=5volts).
Dans les circuits électroniques, le signal numérique est ainsi caractérisé par la présence ou l'absence de tension.

Le numérique ne sert (dans le cas d’un signal audio ou vidéo) qu’au transport et au stockage des données. Les convertisseurs numérique analogique (CNA) permettent de restituer un signal numérique en signal analogique (perceptible par nos sens), en appliquant le processus inverse (décodage, conversion analogique des mots binaires, lissage).

Compression numérique

L'un des inconvénients majeurs de la vidéo numérique est la place nécessaire au stockage des données. Sachant par ailleurs qu'une fréquence d'au moins 25 ou 30 images par seconde est nécessaire pour obtenir une vidéo fluide, il devient impératif de la compresser pour l'adapter à la taille des unités de stockage et aux débits pour la transmettre.
Voilà pourquoi cette compression est aussi appelée "Bit Rate Reduction" (Réduction du débit binaire).

Pour cela, chacun des flux, vidéo et audio, est encodé avec un codec. Les différents flux ("pistes"), une fois encodés, sont encapsulés dans un même fichier, le conteneur, dans lequel sont également inclues des informations qui définissent comment lire et synchroniser les données.

La compression peut se définir par le quotient de compression ou par le taux de compression. L'un et l'autre donnent une mesure de la performance de l'algorithme de compression utilisé.

Qualité de l'encodage

Elle dépend :

  • du bitrate
    Le bitrate (bit rate) est la valeur du débit : c'est la quantité de bits de données délivrées par seconde. Plus il augmente, plus la qualité s'améliore et plus le fichier devient volumineux.
  • de la qualité du codec utilisé
  • de la technique d’encodage
    Celle-ci définit la façon dont la piste vidéo ou audio est encodée :
    CBR (Constant Bitrate) : (taux d'échantillonnage fixe). Un même nombre de bits est alloué à chaque seconde. Bien adapté au streaming sur réseau.
    VBR (Variable Bitrate) : (taux d'échantillonnage variable). VBR permet d'encoder les parties simples avec un bitrate moins élevé et les parties plus complexes avec un bitrate plus élevé. Il optimise ainsi l'espace en repartissant le débit (taux de compression). Une première "passe" (c'est-à-dire une première phase d'encodage) génère un fichier de statistiques portant sur le flux de données à encoder puis une deuxième passe qui exploitera les statistiques ainsi générées pour optimiser l'utilisation du bitrate tout au long du flux. Un encodage VBR est toujours plus long à réaliser qu'un encodage CBR. Bien adapté aux lecteurs MP3, lecteurs de DVD et émissions satellite. Technique utilisée pour le codage MPEG2.


Le principe fondamental de la compression vidéo est de réduire autant que possible les redondances d'informations dans les données.
La compression peut être destructive ou non destructive.

Compression non destructive

(nommée aussi : "compression lossless" ou "compression sans pertes" ou "compactage")
Permet de restituer le signal initial tel qu'il était avant codage.
Cette compression est basée sur la fréquence d'apparition de mots binaires dans le flux binaire représentant une image ou une source audio. Elle réduit la quantité d'information à transmettre aux clients en comptabilisant le nombre de fois qu'apparaît continuellement chacun des mots binaires les plus fréquemment rencontrés.
Toutefois, le gain de taille par rapport à l'original reste minime (10 à 30%), le fichier obtenu reste très volumineux.

Compression destructive

(nommée aussi : "compression lossy" ou "compression avec pertes") Les données restituées après décompression se trouvent "dégradées" par rapport à leur état initial avant l'encodage. Il est donc vivement conseillé de conserver les enregistrements originaux.
Ce type de compression s'appuie sur les limites de la perception humaine (sonore ou visuelle) : il procède en quelque sorte à une simplification de l'information en vue du gain de place et cela, sans trop nuire (jusqu'à certaines limites) à la compréhension du signal par l'être humain. Plus la compression sera forte, plus la dégradation sera élévée). Le gain de taille par rapport à l'original peut ainsi être très important (habituellement, le rapport est de 10 pour 1, voire plus).

Compression vidéo

Son principe : "Ne jamais transmettre une donnée déjà transmise".
On distingue deux types de redondances qui peuvent être réduites par la compression :

    • La redondance spatiale
      Voir : Compression d'image numérique.
      C'est celle de chaque image prise indépendamment des autres. On peut diminuer cette redondance en codant chaque image séparément. Cette approche est parfois la seule utilisée lorsqu'on a besoin de pouvoir accéder de façon aléatoire (c'est-à-dire non séquentielle) à chaque image individuellement, comme par exemple lors d'un montage vidéo. Ainsi, MJPEG (Motion JPEG) est un codec vidéo qui compresse les images une à une en JPEG.
      Inconvénient de ce type de compression si celle-ci est trop élévée : on perd en qualité d'image.
    • la redondance temporelle
      D'une image à l'autre, il n'y a, la plupart du temps, que le mouvement qui est cause de changement. Les arrière-plans, par exemple, restent les mêmes. On peut donc décider de coder une image par rapport à la précédente en ne transmettant que les différences d'une image à l'autre.
      Les images ainsi compressées sont de trois types :
      • les images I
        (images Intracodées : images complètes codées en JPEG) nommées aussi "images-clés"
      • les images P
        (images Prédictives). Elles ne contiennent que les pixels modifiés par rapport à l'image précédente, qui peut être elle-même une image I ou une image P. En moyenne 3 fois moins volumineuse qu'une image I. Des techniques particulières, comme la compensation de mouvement, permettent d'optimiser la génération et la compression des images P.
      • les images B
        (images Bi-directionnelles). Image interpolée (prédite) en utilisant les informations d'images I ou P passées ou futures. Elle est en moyenne 6 fois moins volumineuse qu'une image I.

      On voit donc l'interdépendance de ces images que l'on regroupe dans un GOP (Group Of Picture). Un GOP est en général composé de 12 à 15 images en MPEG1. Exemple : IBBPBBPBBPBB

Inconvénient d'une telle compression : on perd des détails.

Enfin, on peut réduire le nombre d'images/sec (frame rate) : on supprime une image de temps en temps (par ex : une image sur 5).
L'inconvénient dans ce cas est la perte de qualité de l'animation.

Compression audio

Son principe : "Ne jamais transmettre un son inaudible".
Le son est une somme de vibrations (produites par des cordes vocales, un haut-parleur, etc) qui ont une fréquence mesurée en Hertz. L'oreille humaine est un récepteur qui ne perçoit que certaines fréquences comprise dans une bande de 20 Hz à 20 Khz. L'élimination des fréquences inaudibles pour l'être humain (inférieurs ou supérieurs à cette bande de fréquences) peuvent donc être éliminées sans gène aucune.
Par ailleurs, deux types d'effets de "masque" de sons sont exploités pour supprimer des données :

  • Le masquage simultané
    Certains sons en couvrent d'autres lorsqu'ils se produisent simultanément (Par exemple, un train qui passe lors d'une conversation entre deux personnes). L'algorithme de compression repère donc les sons "dominants" et supprime toutes les données relatives aux sons "dominés".
  • Le masquage temporaire
    Un son est "masqué" par un son qui lui ressemble ("son masquant") s'il survient 2-3 ms avant celui-ci ou s'il survient dans les 20 ms qui suivent l'émission du masquant.

Tous les algorithmes de compression audio fonctionnent ainsi sur le même principe : éliminer les fréquences que l'oreille humaine ne perçoit pas du tout, ou très peu, et niveler les fréquences proches les unes des autres à des valeurs identiques de façon à accroître la compression.

Formats audio et vidéo

Voir : formats audio et formats video.

L'animation

Tandis que la vidéo numérique puise sa source dans le monde réel, l'animation est entièrement informatique.
Il s'agit encore une fois d'enchaîner une suite d'images afin de créer l'illusion du mouvement. Mais cette fois, les images sont créées avec l'ordinateur.

Liens pour approfondir

» GLOSSAIRE