MPEG(Motion Picture Expert Group), formé en 1988 d'un groupe d'experts en vidéo, a eu la tâche de définir les standards de compression des signaux audio-visuels. Le grand principe du MPEG vidéo étant de "Ne jamais transmettre un élément d'image déjà transmis", son premier projet, MPEG-1, à été publié en 1993. MPEG-1 supporte principalement l'encodage vidéo allant jusqu'à environ 1.5 Mbits/s, donnant une qualité similaire au VHS et de l'audio stéréo à 192 bits/s. Il est utilisé pour les systèmes CD-i (compact disc interactive) et Vidéo-CD pour enregistrer le vidéo et l'audio sur CD-ROM.
MPEG-2 est une extension du standard MPEG-1. Il est principalement un format "broadcast" à des taux de données ("data rate") supérieurs. Il propose des outils algorithmiques pour encoder efficacement le vidéo entrelacé, supporte une grande échelle de "bits rate" et permet l'encodage "surround sound" à multiples canaux.
Le format vidéo de postproduction numérique utilise 270 Mbit/s de débit pour coder les images. Sachant qu'un canal satellite accepte autour de 45 Mbit/s(valeur la plus courante), on voit rapidement qu'il va falloir faire suivre un sérieux régime à nos images. Le standard MPEG-2 est capable d'encoder un signal télévision standard à un "bit rate" allant de 3-15 Mbits/s(audio multi-canaux + vidéo + données auxiliaires) et un signal télévision haute définition de 15-30 Mbits/s. Les décodeurs MPEG-2 sont également capables de décoder les signaux MPEG-1.
Les stations de télévision européennes diffusent présentement à un "frame rate" de 25Hz. Chaque frame (cadre) est formé de deux champs "entrelacés", donnant un taux de champs("field rate") de 50Hz. Le premier champ de chaque "frame" contient seulement les lignes impaires du "frame"(la première du haut sera la #1). Le second champ contient quant à lui les lignes paires(environ 20 ms après le premier champ). Le signal télévision nord-américain est lui aussi "entrelacé", mais avec un "frame rate" d’un peu moins de 30 Hz(29,97 Hz).
Pour les systèmes vidéo autres que la télévision, on retrouve souvent un signal vidéo "non-entrelacé"(par exemple pour la majorité des ordinateurs). En vidéo "non-entrelacé", toutes les lignes d'un "frame" sont lues au même instant. Le vidéo "non-entrelacé" est également appelé "progressively scanned video" ou "sequentially scanned video". Le signal RGB(red, green and blue) peut être exprimé en composantes de luminance(Y) et de chrominance(UV). La largeur de la bande passante de la chrominance peut être réduite en fonction de la luminance sans affecter de manière significative la qualité de l'image. En vidéo standard, le signal vidéo component(YUV) sera échantillonné et numérisé pour former des "pixels" (voir CCIR recommandation 601). Les termes 4:2:2 et 4:2:0 sont souvent utilisés pour décrire la structure d'une image numérique. 4:2:2 signifie que la chrominance est sous-échantillonnée horizontalement par un facteur de deux relatif à la luminance. 4:2:0 signifie que la chrominance est sous-échantillonnée horizontalement et verticalement par un facteur de deux relatif à la luminance.
La région active d'une image vidéo numérique standard est de 720 pixels X 576 lignes, pour un "frame rate" de 25 Hz. En utilisant 8 bits pour chaque pixels Y, U ou V, le "bit rate" non compressé pour les signaux 4:2:2 et 4:2:0 sera donc:
MPEG-2 est capable de compresser le "bit rate" d'un signal vidéo standard 4:2:0 jusqu'à un taux de 3 Mbits/s. Plus le "bit rate" est bas, plus la qualité du signal encodé devient compromise. Pour un signal de diffusion numérique terrestre standard, un "bit rate" d'environ 6 Mbits/s est généralement accepté comme un bon compromis entre la qualité d'image et les impératifs de bande passante du transmetteur(Câblos, Satellites, etc&Idots;).

Le système de réduction du "bit rate" fonctionne en enlevant l'information redondante du signal avant la transmission, grâce au codeur et en la réinsérant grâce au décodeur. Deux types de redondances ont été ciblés pour y arriver:
La redondance spatiale et temporelle où un élément commun à plusieurs images consécutives n'est transmis qu'avec la première image. Pour les autres images, on ne transporte que sa position dans l'image. C'est le cas d'un plan fixe, où l'on voit une voiture qui va de gauche à droite. On transmet une fois le décor et la voiture et, pour les images suivantes, on indique seulement la position de la voiture.
L'autre redondance exploitée est la redondance spatiale. Si, dans la même image, il y a trois voitures identiques, elle n'est codée qu'une seule fois. En y ajoutant la position de chacune dans l'image, on peut reconstituer la scène. La valeur de chaque pixel n'est donc pas indépendante, mais reliée à ses voisins, autant à l'intérieur de la même image que par rapport aux images voisines. Jusqu'à un certain point, la valeur d'un pixel est prédictible en tenant compte de ses voisins.
L'oeil humain à une réponse limitée aux détails spatiaux fins et est moins sensible aux détails près du bord des objets ou des changements de plans. En conséquence, une réduction contrôlée, à l'intérieur d'une image décodée par le procédé de réduction du "bit rate" ne devrait pas être visible par un observateur humain. La figure ci-dessous montre que la perception humaine du bruit n’est pas uniforme mais est une fonction de la fréquence spatiale.

Un niveau de bruit supérieur est acceptable pour des fréquences spatiales élevées. Il s’ensuit que le bruit vidéo est effectivement masqué par un fin détail d’image alors qu’il sera plus apparent pour les vastes zones unicolores. Sachant que les mesures de bruit sont toujours pondérées, on comprendra que cette méthode de mesure se rapporte à ce résultat subjectif.
Comme nous l’avons dit, la compression vidéo utilise les avantages des deux redondances(spatiale et temporelle). En MPEG-2, la redondance temporelle est d’abord réduite en utilisant les similitudes entre deux images successives. La plus grande partie possible de l’image courante est créée(ou prédite) en utilisant l’information de l’image déjà émise. Quand on utilise cette technique, il suffit de transmettre une image de différence qui élimine les différences entre l’image actuelle et l’image de prédiction. L’image de différence est ensuite soumise à une compression spatiale. Pour des raisons pratiques, il est plus facile d’expliquer la compression spatiale avant d’aborder la compression temporelle.
La compression spatiale utilise la similarité entre des pixels adjacents sur une surface unie et tient compte des fréquences spatiales dominantes existant dans les zones en amont. Le JPEG utilise uniquement la compression spatiale dans la mesure où ce système est conçu pour la transmission des images fixes. Le JPEG peut cependant être employé pour la transmission de séquences d’images fixes. Dans cette application, appelée Motion JPEG, le facteur de compression n’est pas aussi bon que si l’on utilisait le codage temporel, mais il sera cependant possible d’effectuer un montage du flux de bits pour effectuer un montage image par image.
En codage spatial, la première étape consiste à effectuer une analyse de fréquence spatiale à l’aide d’une transformée. Une transformée est un outil mathématique permettant de traduire une forme d’onde en différents domaines et, dans notre cas, dans le domaine fréquentiel. Le résultat d’une transformée est une suite de coefficients décrivant l’amplitude de chaque composante fréquentielle présente dans le signal. Une transformée inverse reproduit le signal initial. Si les coefficients sont gérés avec une précision suffisante, la sortie de la transformée inverse doit être identique à la forme d’onde originale. La transformée la plus répandue est la transformée de Fourrier. Cette transformée cherche chaque fréquence comprise dans le signal d’entrée. Elle caractérise chaque fréquence en multipliant le signal d’entrée par un exemple de la fréquence cible appelée fonction de base et en intégrant le produit obtenu. La figure ci-dessous montre que, lorsque la forme de signal d’entrée ne contient pas de composante à la fréquence cible, l’intégrale sera nulle, mais s’il en comporte une, l’intégrale constituera un coefficient caractérisant l’amplitude de cette composante.

La transformée de Fourrier présente l’inconvénient de nécessiter des coefficients pour les composantes sinus et cosinus de chaque fréquence.
Dans la transformée cosinus, la forme de signal d’entrée est complétée avec son image temporelle avant multiplication par la fonction de base.

L'illustration ci-dessus montre que cette opération de «miroir» élimine toutes les composantes sinus et double les composantes cosinus. La fonction de base sinus ne se révèle donc plus utile et un seul coefficient reste alors nécessaire pour chaque fréquence.
La Transformée Cosinus Discrète(DCT, Discrete Cosine Transform) est la version échantillonnée de la transformée cosinus, elle est utilisée sous forme bidimensionnelle en MPEG-2. Le bloc de 8x8 pixels est changé en bloc de 8x8 coefficients. Comme la transformation réside en une multiplication par une fraction, il se produit un allongement du mot provenant du fait que les coefficients ont une longueur supérieure à celle des valeurs de pixels. Un bloc de pixels 8 bits devient alors un bloc de coefficients 11 bits. Une DCT ne constitue pas alors une compression, mais elle obtient, en fait, le résultat inverse. Cependant, la DCT convertit la source de pixels en une forme facilitant la compression.
La figure suivante montre le résultat d’une transformée inverse des coefficients individuels d’une DCT pour un bloc 8x8. Dans les images réelles, diverses fréquences spatiales verticales et horizontales peuvent se produire simultanément et un coefficient en un certain point en représente toutes les combinaisons possibles.

La figure montre également les coefficients sous une forme d’onde horizontale unidimensionnelle. La combinaison de ces formes d’onde avec diverses amplitudes et une polarité quelconque doit permettre de reproduire toutes combinaisons des 8 pixels. La combinaison des 64 coefficients de la DCT-2D permettra de reconstituer le bloc initial de 8x8 pixels.
En ce qui concerne les images couleurs, il est clair que les signaux de différence de couleur devront également être traités. Les signaux Y, Cr et Cb seront donc assemblés en réseaux séparés de 8x8 pixels et traités séparément. Dans la plupart des signaux correspondant aux images de programme, la majorité des coefficients a une valeur nulle ou proche de zéro. Il ne sera donc pas nécessaire de les transmettre. Il en résulte une compression non négligeable sans perte véritablement conséquente.
Cette technique exploite la redondance temporelle en essayant de prédire le "frame" à être codé à partir d'un "frame" de référence. La prédiction ne peut être basée sur une image "source" car la prédiction doit pouvoir être répétée dans le décodeur, là où les images "sources" n'existent pas( L'image décodée n'est pas identique à l'image source car le procédé de réduction du "bit rate" introduit des petites distorsions dans l'image décodée). En conséquence, l'encodeur contient lui-même un décodeur qui reconstruit l'image exactement comme elle sera dans le décodeur, ce qui permet de faire des prédictions.
La prédiction la plus simple du bloc à encoder est celle qui utilise le bloc le plus près de l'image de référence. Ceci permet de réaliser une bonne prédiction pour les régions stationnaires de l'image, mais réussissent moins bien dans les régions où il y a mouvement. Quand un objet se déplace sur l’écran TV, il apparaît à un endroit différent, mais il ne change pas beaucoup d’aspect. On introduit donc une méthode plus sophistiquée, appelée motion-compensated inter-frame prediction, qui consiste à copier(offset) tout mouvement translationnel qui existe entre le bloc qui est encodé et le "frame" de référence et à utiliser le bloc ainsi créé comme prédiction. La différence d’image peut être réduite en mesurant le déplacement au codeur. Ce déplacement est transmis au décodeur sous la forme d’un vecteur. Le décodeur utilise ce vecteur pour décaler une partie de l’image précédente vers l’emplacement approprié dans la nouvelle image. Un vecteur concerne le déplacement d’une zone entière de l’image appelée «macrobloc». La taille d’un macrobloc est déterminée par le codage DCT et la structure de sous-échantillonnage couleur.


Les blocs de prédiction sont créés de plusieurs manières différentes. Par exemple, un bloc pourra être prédit à partir d'une image précédente(forward predicted), d'une image suivante(backward predicted) ou bi-directionnellement(bidirectionnally predicted) en faisant une moyenne des prédictions précédentes et suivantes. La méthode utilisée peut changer d'un bloc à l'autre. Le codage bidirectionnel réduit considérablement la quantité de données de différence nécessaire à l’amélioration du degré possible de prédiction. Pour chaque bloc à coder, l'encodeur choisit la meilleure méthode pour maximiser la qualité de l'image selon les contraintes du "bit rate". La méthode choisie est ensuite transmise au décodeur pour reconstituer l'image correctement.

Dans les images caractéristiques de programme, les coefficients les plus significatifs de la DCT se trouvent généralement dans le coin supérieur gauche de la matrice. Après pondération, les coefficients de faible valeur seront tronqués à zéro. On obtiendra une transmission plus efficace si on émet d’abord tous les coefficients non-nuls et qu’un code indique ensuite que tous les autres sont à zéro. La scrutation constitue une technique qui augmente la probabilité d’obtenir ce résultat car elle émet les coefficients dans l’ordre probable d’amplitude décroissante.

La figure ci-dessus montre que, dans un système non entrelacé, la probabilité d’avoir un coefficient de forte valeur est très élevée dans le coin supérieur gauche et très faible dans le coin inférieur droit. Une scrutation à 45 degrés constitue, dans ce cas, la meilleure solution. Dans la figure de droite, on peut voir la scrutation adaptée à une source entrelacée. Dans une image entrelacée, un bloc de 8x8 pixels d’une trame couvre deux fois sa surface sur l’écran, ce qui fait que, pour une définition donnée de l’image, les fréquences verticales paraîtront le double de leurs homologues horizontales. C’est pourquoi le balayage idéal, pour une source entrelacée, sera effectué en diagonale à pente doublée. La figure de droite montre qu’une fréquence spatiale verticale est balayée avant la fréquence spatiale horizontale identique.

Dans une image vidéo animée, toutes les fréquences spatiales ne sont pas présentes simultanément, la matrice de coefficients de la DCT comportera donc des termes nuls. Malgré la scrutation, des termes nuls apparaîtront encore au milieu des coefficients non-nuls. Le codage RLC(Run Length Coding) permet de gérer plus efficacement ces coefficients. Quand une suite de valeurs identiques, comme des zéros, existe, le codage RLC émet simplement le nombre de zéros plutôt que toute la suite de bits nuls. On peut étudier la probabilité de répétition de certaines valeurs particulières de coefficients dans la vidéo réelle. En pratique, certaines valeurs se rencontrent fréquemment et d’autres moins souvent. Cette information statistique peut être utilisée pour effectuer ultérieurement une compression à longueur variable(VLC). Les valeurs les plus fréquentes sont codées en mots de code courts et les autres en mots plus longs. Pour faciliter la dé-sérialisation on peut utiliser un mot de code comme préfixe pour les autres.
La figure suivante regroupe l’ensemble des concepts de codage précédemment évoqués.

Le signal d’entrée est supposé être à la norme 4:2:2 série en 8 ou 10 bits(SDI). Le MPEG n’utilise cependant qu’une résolution de 8 bits; aussi, un étage de traitement sera nécessaire pour arrondir les valeurs si le signal entrant est à 10 bits. Les profils MPEG effectuent un échantillonnage du type 4:2:0; un étage d’interpolation verticale/filtre passe-bas sera alors nécessaire. L’arrondi et le sous-échantillonnage couleur introduisent une légère mais irréversible perte d’informations, mais aussi une réduction du débit. Le format d’entrée de la scrutation d’écran doit être tel qu’il puisse être converti en blocs de 8x8 pixels. L’étage DCT transforme l’information d’image dans le domaine fréquentiel. La DCT n’effectue pas de compression par elle même. Après la DCT, les coefficients sont tronqués et pondérés, ce qui correspond à une première compression. Les coefficients sont ensuite scrutés en zigzag pour accroître la probabilité de commencer par les coefficients les plus significatifs. Après le dernier coefficient non-nul, un code de fin de bloc(EOB, End of Block) est généré. Les données afférentes aux coefficients sont ensuite compressées à l’aide de codages RLC et VLC. Dans les systèmes à débit variable, la quantification est fixe mais, dans un système à débit constant, une mémoire tampon est utilisée pour absorber les variations intervenant au cours du codage. À la suite de la transformée inverse, le bloc de 8x8 pixels est recréé. Pour obtenir un signal de sortie d’écran balayé, les blocs sont stockés dans une RAM qui est lue ligne par ligne. Pour avoir une sortie 4:2:2 à partir de données 4:2:0, il faudra utiliser une interpolation verticale comme indiqué sur la figure suivante:

Dans un système 4:2:0, les échantillons de chrominance sont intercalés verticalement entre les échantillons de luminance de façon à ce qu’ils soient régulièrement espacés quand un système entrelacé est utilisé.
En MPEG-2, trois différents types d’images sont nécessaires pour effectuer le codage différentiel et le codage bidirectionnel avec un minimum d’erreurs de propagation:

À partir de ces frames a été introduit le concept de Groupe d’Images(GOP, Group Of Pictures). Le GOP commence par une image I, suivie de quelques images P espacées et entre lesquelles se placent les images restantes qui sont de type B. La fin du GOP se situe à la dernière image précédant immédiatement une nouvelle image I. La longueur d’un GOP est variable, mais la valeur la plus courante se situe entre 12 et 15. En fait, si les données d’une image B doivent être utilisées pour construire une image ultérieure, ces données doivent rester disponibles dans le décodeur. Par conséquent, le codage bidirectionnel implique que les données soient extraites de la séquence et provisoirement sauvegardées.

La figure ci-dessus montre également que les données de l’image P sont émises avant celles de l’image B. Notez également que les dernières images B du GOP ne peuvent être transmises qu’après la première image I du GOP suivant, dans la mesure où elles ont besoin de son contenu pour être décodées bi-directionnellement.
Afin de replacer convenablement les images dans leur ordre, une référence temporelle est incluse dans chaque image. Comme des en-têtes sont régulièrement insérés dans le flux de données, un fichier MPEG-2 peut être affiché dans l’ordre chronologique sur un ordinateur, par exemple. L’extraction des données d’images d’une séquence, non seulement nécessite un supplément de mémoire dans le codeur et le décodeur mais aussi génère du retard. Le nombre d’images bidirectionnelles insérées entre des images d’autres types doit être réduit pour diminuer le coût des équipements et limiter le retard si celui-ci doit répondre à des contingences. Un compromis doit être fait entre le facteur de compression et le retard de codage.

Pour une qualité donnée, l’émission d’images I uniquement double pratiquement le débit par rapport à une séquence IBBP. Quand les facilités de montage sont essentielles, une séquence IB constitue un compromis pratique.
Un compresseur essaie d’éliminer la redondance à l’intérieur de l’image et entre les images. Tout phénomène diminuant la redondance est indésirable. Le bruit et le grain du film sont particulièrement pénalisants car ils concernent la totalité de l’image. Après le processus de DCT, le bruit induit la présence de plus de coefficients non-nuls, coefficients que le codeur ne peut pas distinguer des véritables données de l’image.
Une quantification plus sévère sera alors nécessaire pour coder tous les coefficients, réduisant alors la qualité de l’image. Le bruit réduit également la similitude entre des images successives, accroissant par ce phénomène les données de différence nécessaires. Tout artefact composite de décodage, visible à l’entrée d’un codeur MPEG-2, se retrouve naturellement reproduit par le décodeur. Toute pratique génératrice de mouvement indésirable doit être évitée. L’instabilité d’un support de caméra pourra créer, en plus de tremblements de l’image, une augmentation des différences d’images et des nécessités de transmission de vecteurs. Ceci se produit également sur des signaux provenant d’un télécinéma dont les images tremblent si, par exemple, les perforations du film sont endommagées.
En général, il est important que la vidéo qui est susceptible d’être compressée soit de la meilleure qualité possible. Si cette qualité ne peut pas être atteinte, il est souhaitable d’utiliser une réduction de bruit ou tout autre procédé de stabilisation. Si un facteur de compression élevé est nécessaire, le niveau d’artefacts peut augmenter, particulièrement si la qualité du signal est faible. Dans ce cas, il est souhaitable de réduire l’entropie en effectuant un pré-filtrage avant l’entrée dans le codeur. Le signal est donc soumis à un filtrage passe-bas(low pass filter) bidimensionnel qui réduit le nombre de coefficients et diminue le niveau des artefacts. L’image sera moins fine mais une perte de finesse est préférable à un niveau élevé d’artefacts.
Dans la plupart des applications en MPEG-2, on utilise l’échantillonnage 4:2:0 qui nécessite un sous-échantillonnage du chroma si le signal d’origine est en 4:2:2. En MPEG-1, un sous-échantillonnage supplémentaire est appliqué afin de produire un signal d’entrée ou SIF( Source Input Format) comprenant seulement 532 pixels. Cette technique divise encore l’entropie par un facteur supplémentaire. Pour des facteurs de compression plus élevés, on utilise un signal à 176 pixels appelé QSIF (Quarter Source Input Format). Le sous-échantillonnage est un processus combinant un filtre spatial passe-bas et un interpolateur.
En vidéo 50 Hz, deux trames successives représentent la même image de film et il n’existe pas de mouvement entre elles. Le mouvement alterne donc entre zéro(entre deux trames) et sa valeur de mouvement(entre deux images). Comme le mouvement est transmis différentiellement, ceci se traduit par une sérieuse augmentation des données de vecteurs. En vidéo 60 Hz, un défilement intermittent 3:2 est utilisé pour obtenir du 60 Hz à partir de film à 24 images par seconde: une image est constituée de 2 trames, la suivante de 3, et ainsi de suite. Par conséquent, une trame sur 5 est complètement redondante. Le MPEG gère mieux les images de télécinéma en supprimant la troisième du système 3:2. Un code spécifique au 24 Hz alerte le décodeur qui recrée la séquence 3:2 en relisant une mémoire de trame.
À l’aide des outils de codage définis dans MPEG-2, il existe des milliers de combinaisons possibles. Dans un but de simplification, le MPEG-2 est divisé en Profils, chaque profil étant lui-même subdivisé en Niveaux.Un profil constitue à la base la palette des caractéristiques d’un codage d’une certaine complexité. Un niveau est en fait un paramètre définissant par exemple la taille de l’image ou le débit du flux de bits. Il existe en principe 24 combinaisons possibles mais toutes n’ont pas été définies.

Un décodeur MPEG possédant un profil et un niveau donnés doit pouvoir décoder les signaux émanant d’un profil et d’un niveau inférieurs. Le Profil Simple(Simple Profile) ne comporte pas de codage bidirectionnel, c’est pourquoi seules les images de type I et P pourront être générées par le codeur. Les délais de codage et de décodage sont ici réduits et le matériel correspondant est plus simple. Le profil simple n’a été seulement défini qu’au niveau Principal(Simple Profile at Main Level, SP@ML). Le Profil Principal(Main Profile) est conçu pour une vaste gamme d’utilisations. Le niveau Bas utilise un signal d’entrée à faible résolution ne possédant que 352 pixels par ligne. La plupart des applications de diffusion nécessite le Profil principal au Niveau Principal(Main Profile at Main Level, MP@ML), appellation du MPEG utilisé en télévision standard.
Le niveau Haut-1440 est un système à haute définition qui double la définition par rapport au niveau principal. Le niveau Haut double non seulement la définition horizontale, mais maintient cette résolution pour le format 16:9 en portant à 1920 le nombre d’échantillons horizontaux. Dans les systèmes de compression utilisant les transformées spatiales et la re-quantification, il est possible de produire des signaux adaptables. Un processus d’adaptabilité est celui où le signal d’entrée résulte d’un signal principal et d’un signal complémentaire. Le signal principal peut être décodé seul pour donner une image d’une certaine qualité mais, si l’information du signal complémentaire est ajoutée, un certain aspect de la qualité peut être amélioré. Un codeur MPEG conventionnel peut, en re-quantifiant fortement les coefficients par exemple, coder une image avec un rapport signal/bruit modéré. Si cette image est localement décodée et soustraite pixel par pixel de l’image originale, le résultat constituera l’image de bruit de quantification. Cette image peut être compressée et transmise en tant que signal complémentaire.
Un décodeur simple utilisera seulement le flux principal avec son niveau de bruit mais un décodeur plus élaboré peut décoder les deux flux de bits et produire une image moins bruitée. Ceci constitue le principe de l’adaptabilité SNR. D’autre part, le codage des fréquences spatiales les plus basses d’une image HDTV(High Definition Television) peut produire un flux principal qu’un récepteur ordinaire SDTV(Standard Definition television) peut décoder. Si l’image à faible définition est décodée localement et soustraite de l’image originale, une image d’amélioration de la définition est obtenue. Cette image peut être codée comme signal complémentaire. Un décodeur adéquat sera capable de restituer l’image haute définition. Ceci constitue le principe de l’adaptabilité Spatiale. Le profil Haut est compatible avec les adaptabilités SNR et Spatiale et accepte l’échantillonnage 4:2:2.
Le profil 4:2:2 a été développé dans le sens d’une plus grande compatibilité avec le matériel de production numérique. Ce profil permet l’exploitation en 4:2:2 sans exiger la complexité supplémentaire du profil Haut. Un décodeur HP@ML peut accepter une adaptabilité SNR qui ne constitue pas en soi un impératif de production. Le niveau 4:2:2 a la même liberté de structure de GOP que les autres profils mais, en pratique, il est plus souvent utilisé avec des GOPs courts pour faciliter les opérations de montage. Le 4.2.2 nécessite un flux de bits supérieur au 4.2.0 et l'utilisation de GOP impose quand même un débit supérieur pour une qualité donnée.