Je voudrais lancer ici un thread consacré à l'effet d'aliasing ( crénelage ) que l'on rencontre dans le domaine de la numérisation du son. Je suis loin d'être un expert en ingénierie sonore mais j'ai pu acquérir certaines notions au fil du temps qui ont pu me permettre d'aborder le phénomène sans nécéssairement entrer à fond dans de longues explications mathématiques sans doute passionnantes mais demandant un niveau que je ne possède pas.
Pour ouvrir le bal, je vous copie-colle quelques-un de mes message initialement postés sur
Au plaisir !
Franco
====================================================================================================
Raphilou a écrit:Sinon une autre qouechtionne ( lol in english) pour franco la muerte j'ai lu le terme d'anti aliasing. c'est un mot un peu barbare mais je vien de me rendre compte qu'il est sur mon test oscillator dans logic alors quoi qu'est-ce donc ? ^^
Merci pour vos réponse et a bientot :rendeer:
Hello Raphilou,
À propos de l’Aliasing (crénelage) et l’Anti-Aliasing (Anticrénelage), c’est un domaine qui peut s’avérer assez pointu à comprendre. Je ne suis pas un grand spécialiste de l’ingénierie sonore, mais si mon petit bagage peut t’aider à mieux t’y repérer, je peux te donner l’idée générale qui se cache sous ces termes.
L’Aliasing est, dans le domaine numérique, un repliement spectral survenant dans les hautes fréquences ( harmoniques ) d’un son lorsque la fréquence d’échantillonnage n’est pas assez haute pour gérer convenablement le rendu des fréquences hautes du son donné. Ce repliement spectral se résulte en des fréquences audibles ( souvent inharmoniques ) indésirables plus graves que les hautes fréquences. Plus techniquement, pour ne pas entendre le trouble d’aliasing, une règle fondamentale est à respectée, il faut que la fréquence d’échantillonnage soit au moins le double de la fréquence la plus haute à enregistrer.
Tu sais peut-être qu’il existe plusieurs fréquences d’échantillonnage dans le domaine numérique ?

Je disais que pour éviter les troubles d’aliasing, il faut que la fréquence d’échantillonnage soit au moins le double de la fréquence la plus haute entendue dans une prise donnée.
Si le son ( ou le spectre harmonique ) le plus aigu que tu enregistres se situe disons à 10 000 hertz, une fréquence d’échantillonnage d’au moins 22 050 hertz sera recommandée pour ne pas subir les effets indésirables de l’Aliasing. Si tu enregistres un son ( ou un son avec un spectre harmonique ) de 10 000 hertz toujours et que ta fréquence d’échantillonnage est fixée à 8 000 , 11 025, 16 000 hertz, il y a de fortes chances pour qu’à l’écoute, on entende les effets néfastes de l’Aliasing, car ces fréquences d’échantillonnages ne sont pas au moins le double de la fréquence la plus aigue à enregistrer.
L’oreille humaine peut entendre grosso modo les fréquences jusqu’à 20 000 hertz. La fréquence d’échantillonnage (correspondante à la qualité CD ) de 44 100 hertz est donc jugée suffisante pour rendre, sans artéfacts d’aliasing très audibles, toutes fréquences entendues parce qu’elle fait au moins le double de la fréquence la plus aigue entendue par la meilleure des oreilles humaines.

Sur les synthétiseurs numériques ( comme tous les synths VST ou les synthé de Reason ), quelque fois, la fréquence d’échantillonnage « interne » n’est pas assez haute et c’est ce qui fait qu’un VST ( ou le Subtractor de Reason ) peut comporter quelques troubles apparents d’aliasing. Certains VST comme AbSynth permettent de passer du mode Aliasing au mode Anti-aliasing. Le trouble d’aliasing peut quelque fois être cultivé comme un effet voulu, de plus un filtre anti aliasing demande souvent un certain calcul supplémentaire de la part de l’ordinateur, ce qui fait que le VST devient plus lourd dans la session de travail.
---------------------------------------------------------------------------------------------------------------------------------------
wikipedia a écrit:Le théorème de Nyquist-Shannon, nommé d'après Harry Nyquist et Claude Shannon, énonce que la fréquence d'échantillonnage d'un signal doit être égale ou supérieure au double de la fréquence maximale contenue dans ce signal, afin de convertir ce signal d'une forme analogique à une forme numérique. Ce théorème est à la base de la conversion numérique des signaux.
La meilleure illustration de l'application de ce théorème est la détermination de la fréquence d'échantillonnage d'un CD audio, qui est de 44,1 kHz. En effet, l'oreille humaine peut capter les sons jusqu'à 16 kHz, quelquefois jusqu'à 20 kHz. Il convient donc, lors de la conversion, d'échantillonner le signal audio à au moins 40 kHz. 44,1 kHz est la valeur normalisée par l'industrie.
Raphilou a écrit:je ne connaissais pas le terme d'aliasing et surtout cet effet harmonique
Aliasing est en fait un terme anglophone. En français on lui préfère « crénelage ». Mais dans le monde de la M.A.O ( ainsi que dans le domaine du visuel ) et cie, le terme « aliasing » est plus couramment utilisé. C’est un peu comme lorsqu’on parle d’un « LFO » sur un synth ( Low Frequency Oscillator ), rarement, verra-t-on affiché un « OBF » ( Oscillateur de Basse Fréquence ), héhé.
L’effet de l’aliasing est perceptible et s’entend, ce n’est pas une vue de l’esprit. Je faisais référence au monde de l’image, au cinéma le crénelage peut aussi être apparent. Le meilleur exemple est la roue de carriole tirée par des chevaux dans les films westerns par exemple :

On remarquera souvent, quand il y a une caméra qui fixe la roue en mouvement, alors que la course du cheval va en s’accélérant, les mouvements de la roue, semble ralentir puis carrément partir à rouler dans le sens inverse. On a là une manifestation visuelle qui s’apparente à ce qu’on a dans le domaine du son.
Le cinéma fonctionnant à 24 images secondes, les mouvements de roue n’arrivent plus à être restitués correctement. Pour ce faire, il faudrait avoir une meilleure « fréquence d’échantillonnage » ici visuelle. Et encore, sans doute qu'on se buterait à la faculté de l'oeil humain « d'échantillonner » convenablement un détail mouvant d'une image donnée.
---------------------------------------------------------------------------------------------------------------------------------
EDIT : J'ajoute ces précisions sur ma comparaison avec le cinéma avec laquelle j'ai manqué un peu de rigueur :
je me suis peut-être emmêlé les pinceaux précisément avec cette comparaison. D'ailleurs à ce propos des discussions allant dans le même sens ont été proposés à ce propos plus loin sur ce thread.
privteer a écrit:Par contre, je met un petit bémol (:lol:) sur la comparaison avec le principe de l'image (qui est plus de mon ressort) puisqu'il fait appel à deux phénomèmes :
1 - la fréquence de perception : tu cites 24 i/s pour le cinéma, mais ça n'est pas toujours vrai, puisque les ralentis et les accélrés sont justement des ralentissments et des accélération du nombre d'images filmées puis projetées en 24 i/s, il y a aussi les vieux film en Noir et blanc comme les Chaplin ou les Buster Keaton qui sont initialement tournés et projetés en 16 i/s... même si la plupart des gens les regardent en 24 i/s - ce qui accélère les mouvements ! - et enfin, aujourd'hui, la plupart des caméra numériques utilisées prévoient de filmer en 25 i/s et en 30 i/s pour être directement utilisés dans des chaines post-prod aux normes de diffusion TV et surtout pour être synchrones avec les appareils de montage qui sont branchés sur du 50 Htz et/ou du 60 Htz... donc, qui ont 25 ou 30 périodes de chaque polarité qui constituent une demi-image.
2 - la rémanence rétinienne : le fait de voir tourner les rayon d'une roue de diligence à l'envers et à vitesse variable provient du fait que notre oeil (et donc notre cerveau) possède la faculté d'analyser un certain nombre d'images en un certain laps de temps. L'image perçue est cependant "mémorisée" photographiquement pendant quelques fractions de temps et c'est pour cela qu'en dessous d'un nombre d'images donné, nous allons percevoir les mouvements d'un façon décomposée. Ce phénomène s'accentue lorsque notre Oeil "lit" des images photographique ou séparées par un effet lumineux (les stroboscopes sont aussi un bon test pour voir comment nos yeux réagissent à la rémanence). Ainsi, on va augmenter le nombre d'images de manière à ce que ces images, étant si proches l'une de l'autre dans le détail, nous paraissent identiques et que notre oeil ("cerveau") ne remarque pas de façon flagrande et analytique la différence.
J'apporte cette précision, car pour le phénomène de crénelage dans le son, l'élément humain (l'oreille) n'entre pas en ligne de compte. C'est bien un problème purement mathématique qui ne touche que l'onde sonore et les éléments qui la traitent et ce n'est un effet apparent sans modification, mais une véritable modification qui s'opère, puisque le spectre n'est pas présent. (Alors qu'en image, tout reste présent, seule notre perception est modifiée).
Voili voilou... c'était juste un petit add-on
francolamuerte a écrit:Merci Privteer pour ce bémol.
Pour le 24 images/ secondes, malgré le fait qu’il y a d’autres taux images / secondes, tu comprendras que le 24 image/seconde reste, pour le commun des profanes, une ch’tite référence qui n’est pas erronée. Bons nombres de films, au cinéma, ont fonctionnés, fonctionnent avec le taux de 24 images/secondes. Pour la rémanence rétinienne, tu confirmes que le processus de voir la roue ralentir alors que la cadence augmente cela n’est imputable qu’à cette stricte rémanence rétinienne, aucun rapport avec le taux images/secondes ? Dans ce cas, ton bémol est plus qu’un bémol, ça devient un cluster joué par un orchestre wagnérien, car cela éclaire l’impertinence de mes propos.
Peu importe ce qui engendre quoi, j’ai utilisé cette comparaison pour cette raison :
Image: La roue tourne de plus en plus vite et on la voit ralentir.
Son avec aliasing : Le son monte en fréquence ( et donc oscille plus rapidement ) et on l’entend descendre en fréquence.
Si je fais fausse route complètement en donnant aux gens ce petit point de départ pour que les personnes puissent avoir une certaine idée comparative de l’aliasing sonore dans le monde visuelle, alors je ne demande pas mieux que vous puissiez guider le pauvre petit pèlerin du savoir que je suis.
Malgré tout, je présupposais que même en augmentant le taux images/secondes on pourrait être prisonnier de notre faculté humaine de la vision :francolamuerte a écrit:Le cinéma fonctionnant à 24 images secondes, les mouvements de roue n’arrivent plus à être restitués correctement. Pour ce faire, il faudrait avoir une meilleure « fréquence d’échantillonnage » ici visuelle. Et encore, sans doute qu'on se buterait à la faculté de l'oeil humain « d'échantillonner » convenablement un détail mouvant d'une image donnée.
Mon point étant que si, au cinéma, on avait un taux de 192 000 images par secondes et si notre œil ( et surtout notre cerveau ) était capable de découper temporellement la succession de ces 192 000 images différentes par secondes, sans doute que la roue du chariot western ne nous apparaitrait pas ralentir alors qu’elle accélère. Tu comprends mieux ma comparaison ?
Je comprends que le phénomène d’aliasing sonore ne dépend pas de notre capacité humaine, alors que, visiblement (noter l’adverbe) au niveau visuel, le trouble de la roue serait davantage relié à cette capacité humaine, tu fais bien de le préciser privteer ! Encore une fois, si vous avez de meilleurs rapprochements à faire entre l’aliasing sonore et d’autres phénomènes que l’on peut expérimenter dans la réalité, indiquez-les ici ! Merci donc encore à toi privteer pour ces précisions qui font avancer les choses et me remettent à ma place !
privteer a écrit:Bon, je vais en remettre une couche et essayer d'expliquer un peu mieux le problème de la rémanence rétinienne... qui est le principe valable pour la roue de vélo, de voiture, des images cinéma et de bien d'autres choses perceptibles que notre cerveau analyse d'une façon tellement systématique que les anomalies et abbérrations ne nous semblent plus exister.
Commençons par décomposer le principe de la vue d'une manière simple :
TOUT (sans exception) ce que nous voyons est une onde. Il s'agit de distortion des photons provoqués par la traversée d'un champ par de multiples objets (la poussière et l'air étant les principaux). Dès qu'il y a source de lumière et au moins deux matières différentes, il y a distortion.
L'oeil, organe précis mais qui a de nombreux défauts, va agir comme intermédiaire entre ces ondes provoquées par les distortions et notre cerveau qui va analyser et décoder ces dernières. Le cerveau va donc "comprendre" des informations à travers un réseau qui est décomposable en trois grands types :
1 - la matière : l'objet, l'air (avec la poussière) et l'ensemble organique de l'oeil.
2 - La lumière et les distortions : source, reflections et photons.
3 - L'information : c'est la codification après analyse des matières et des lumières.
Hors, comme je l'ai dit, l'oeil n'est pas parfait, puisque, pour commencer, il faut qu'il se nettoye (les battements de cils et le liquide lacrymal). Puis il faut comprendre que le cerveau fonctionne par impulsion electriques (principe de la photodiode) qui sont le fruit d'une transformation des milliards de terminaisons nerveuses activées, transmise au nerf optique par la cornée.
MAIS le cerveau travaille en moyenne 700 fois plus vite que le reste du système nerveu... !
Bref... ce qui nous intéresse ici, c'est de savoir que lorsqu'une roue tourne, lentement, notre oeil va "capter" chaque information "lumière" de chaque élément "matière" et notre cerveau va analyser puis décoder et enfin nommer en langage d'assimilation chaque instant. En accélérant un peu, les rayons ou l'enjoliveur (effectivement, ça fonctionne aussi avec les roues de voiture) vont commencer à se confondre : notre atteint sa première limite physique... celle du nombre d'informations "matière"...
En accélérant encore un petit peu, l'oeil atteint sa seconde limite : la perte de certaines informations "lumière". Le résultat est immédiat. Un peu comme le Son numérique est une reproduction point par point d'une courbe de son analogique, nous "échantillonons" la lumière lorsque notre oeil ne peu assimiler toutes les informations "lumière"+"matière". Donc, notre oeil réagit, via la cornée et le nerf optique, à une certaine cadence (j'évite volontairement le mot "fréquence" pour ne pas créer de confusion) et transmet au cerveau ces informations ponctuelles. Le cerveau décode cela et va, immédiatement corriger le manque d'information par des "réglages" organiques. Il va laisser en mémoire des petits instants d'information "lumière" et "matière". C'est la rémanence.
Accélérons encore, le nombre d'informations va augmenter et notre oeil, conjointement au cerveau, va selectionner, toujours selon la même cadence, les informations "lumière" et "matière" mais le cerveau sélctionne en fonction de la pertinence de la lumière et d'un point de repère donné, ce qu'il va interpréter. Ainsi, en cessant de se forcer à voir et en mettant notre pupille au repos ou simplement en se détendant, la vitesse de cette fausse rotation va varier... je pense que nombre d'entre vous l'on fait. Ou bien, il suffit de changer son axe de vue et la vitesse ou encore le "rayon" (si c'est une roue de vélo) qui se déplace va changer aussi.
On utilise donc ce défaut au Cinéma et à la télévision pour faire croire à notre oeil et au cerveau que ce qu'il voit est "continu"... alors qu'en fait, il ne voient, l'un comme l'autre qu'une suite d'informations discontinues... et très rapidement, peu après l'invention du Cinematographe, on s'est aperçu que l'oeil et le cerveau se contentaient d'environ un vingtaine d'images par seconde pour analyser, décoder et siginifier ce qui nous entoure. Avec les années, on a pu quantifier à 24 images par secondes qui est un nombre bien supérieur (en fait, l'oeil et le cerseau se contentent de 21 images par seconde) à nos besoins.
MAIS POURQUOI ON VOIT LES RAYONS DE LA DILIGENCE ALLER À L'ENVERS ALORS, SI AVEC 24 I/S ON PERÇOIT UN SEMNLANT DE RÉALITÉ...?
c'est simplement parceque la caméra est un principe optique basé sur le ménisme de l'oeil et du cerveau : l'objectif, avec son optique peut s'apparenter à l'oiel et la pellicule ou les capteurs CCD sont le cerveau qui servent à décoder, analyser et transformer les information de lumière. Ainsi, lorsque la fenêtre de l'obturateur s'ouvre et se ferme 24 fois par seconde, il "échantillone" la matière et la lumière pour que le capteur ou la pellicule analyse l'image à vet instant T. Donc, si la rotation des rayons est de 24 tours par secondes, la roue nous semblera à l'arrêt... tout multiple de 24 fractionné (coefficient inférieur à 1)nous donnera une impression de vitesse rapide et vers l'avant... et tout multiple de 24 non fractioné (coefficient supérieur à 1) nous donnera une impression de vitesse rapide avec un mouvement contraire... lorsque ce ne sont pas des multiples de 24, le mouvement perçu (qui est simplement un changement de position des rayons à l'instant T et 24 fois par seconde) va varier selon un coefficient calculé par le rapport d'obturation et le nombre de tours par seconde...
Si vous avez une Webcam, un test assez amusant à faire est de filmer un écran CRT (les moniteurs à tubes!) car l'écran d'ordi CRT est cadencé à 60Htz en général... Cela veut dire que que le faisceau d'electrons qui est projetté sur la paroie du tube (ce que nous appellons l'écran ou la dalle) parcourt 60 allers-et-retours par seconde. Hors, une caméra est, par défaut, calibrée pour fonctionner en 25 images par secondes (puisque alimenté par un courant électrique issu du 50 Htz... soit deux périodes de 25 Htz de polarités opposées qui vont donc donner 50 frames ou demi-images).
Donc, lorsqu'on filme l'écran, on voit comme une ligne qui se trace et qui descend ou qui monte selon comme on regarde...
http://www.wat.tv/swf2/268100SwJbXNx2215558
et lorsqu'on règle la caméra sur du 30 images par secondes (soit, 60 frames ou demi-images si vous préférez....) oh ! miracle : le balayage disparait !!!
http://www.wat.tv/swf2/195811eCTuaMR2215565
Donc, on va revenir dans le sujet initial : l'aliasing... car, en vidéo plus qu'en Son encore, on parle d'antialiasing très fréquemment... et le principe est le même (avec une nuance que je préciserai dans quelques lignes * ) : avoir une fréquence qui soit le double du signal.
Donc, pour 25 images / seconde, une fréquence de 50Htz
et
pour 30 images / seconde, une fréquence de 60 Htz.
* : les appareils vidéo ou basé sur l'optique mécanique, n'ont pas de "cerveau" ou d'intelligence comme nous et nos yeux, donc, ils enregistrent le moindre défaut sans réajustement... c'est pour cela que si la fréquence n'est exactement au coefficient 2, ou observe encore un effet de crênelage.
C'est aussi pour cela que sur tous les camescopes et caméras broadcast, il y a un "shutter" qui permet de réajuster de problème de fréquence et de phase (car il arrive que l'on soit sur la même fréquence mais avec un décalage de la phase !). Ces dernières années, les camescope grand publique, ont beaucoup innové dans le domaine de la crrection et la direction d'image... on loin des modes autofocus simples des années 80 et presque tous les appareils font ces corrections grâce à des puces qui servent d'AI et donc, entre de gros guillemets "viennent remplacer la cerveau" .
Bon, je fais une petite pause... j'ai un coup de barre moi !!! ma tension baisse sa fréquence !!!!!!
francolamuerte a écrit:Wow ! C'est vraiment instructif te lire comme ça privteer et avec les exemples visuels à l'appuie, yeah ! Je trouve que ton message semble à mon avis assez bien crédité le parallèle que je faisais pour tenter de vulgariser l'aliasing sonore avec une comparaison visuelle que tout gosse a pu expérimenter dans sa vie.
Je suis mieux conscient maintenant que dans le domaine vidéo, l'aliasing visuel ( tu l'appelles comme ça ? ) est en partie inhérent à la constitution physique de notre oeil et de notre cerveau alors que pour l'aliasing sonore cela ne dépend pas d'un quelconque organe biologique ou neuronal. Mais il me semble que je trouve pas mieux référent pour mettre en perspective l'aliasing sonore que ce phénomène de rémanence rétinienne en relation avec un stimuli visuel de type stroboscopé.
En tout cas, un thread consacré aussi à ce fameux phénomène visuel serait bien sympathique aussi !
-----------------------------------------------------------------------------------------------------------------------------------------
Je viens de te faire ces deux .wav, on entend très clairement les effets de l’aliasing. Avec une onde sinusoïdale générée par le VST Moog Modular V d’Arturia, j’ai fait jouer une séquence très aiguë. Voici tout d’abord la piste MIDI déclenchant les sons, on remarquera que je passe d’un demi-ton à un autre, et ce, de façon toujours ascendante :

Voici le résultat en .wav exporté avec une fréquence d’échantillonnage de 44100 hertz :
Malgré l’aspect très aigu, on entend bien les notes se succéder en demi-ton, et ce, de façon constamment ascendante.
Même exemple avec une exportation en .wav avec une fréquence d’échantillonnage de 8000 hertz :
On entend très bien à partir de la 5iem note que les notes suivantes ne montent plus en fréquence, mais descendent. Pourtant, rien n’a été modifié dans les hauteurs à la source, sur la piste MIDI et sur le VST Moog Modular V ! Si on perçoit que le son descend, cela est attribuable à un seul facteur : L’Aliasing ! Ici la fréquence d’échantillonnage de 8000 hertz, permettrait d’encoder pas trop mal les fréquences se situant au plus à la moitié de ce 8000 hertz, soit les fréquences sous le 4000 hertz, les fréquences dépassant ce « plafond » se trouvent à être repliées sur elle-même, c’est ce repliement spectral qui fait entendre des fréquences descendantes alors même qu’elles augmentent ! Un peu comme à l’image de la roue du chariot western qui semble ralentir alors même que le galop du cheval augmente.
















News