Audio Formate, Latenz und Bitrate
Audio Codierung für IP: Verzögerungszeit versus Bitrate
Im Rundfunk wurden während der letzten fünfundzwanzig Jahre verschiedene Codierverfahren eingeführt, wie z.B. J.41, J.57, MPEG Layer 2 und 3, sowie auch nicht standardisierte Verfahren wie z.B. apt-X, Eapt-X oder ADPCM4SB (Micda).
Aufgrund unterschiedlicher Anforderungen wird dem Betreiber die Wahl der korrekten Bitrate, Betriebsart und Abtastrate nicht leicht gemacht wird. Erschwe- rend ist, dass viele weitere Verfahren in den letzten Jahren hinzugekommen sind.
Neben den oben genannten Formaten werden die aus der Telefonie bekannten G.711 und G.722 im Rundfunk ebenso eingesetzt wie die sich seit ca. 5 Jahren sehr erfolgreich verbreitenden AAC Varianten, wie MPEG 2 und 4 AAC, HE AAC (früher aacPlus), HE AACv2, AAC ELD*, sowie auch lineares Audio oder AES/ EBU transparent zur Anwendung; alles Formate mit vielen möglichen Abtast- und Bitraten, manche nur mono und stereo, manche per Definition auch in dual mono, joint stereo oder in 5.1/7.1 Technik.
Im Rahmen der Entwicklung von Codierverfahren wird auf die Optimierung der Parameter Bitrate, Qualität, auch nach mehrfacher En-/Decodierung (Kaskadierbarkeit), Verzögerungszeit und Kompatibilität Wert gelegt.
Die hier beschriebenen Verfahren lassen sich auch dahingehend klassifizieren. Während zum Beispiel HE AACv2 ausschließlich zur Reduktion der Bitrate bei gleichzeitiger sehr guter Tonqualität entwickelt wurde, so stand bei apt-X die möglichst geringe Verzögerungszeit im Vordergrund.
Zunehmend kommen aufgrund der mehr und mehr zur Verfügung stehenden Bandbreite auch lineare Übertragungsverfahren, wie 16, 20 oder 24 Bit linea- res Audio oder sogar gleich die transparente Übertragung des gesamten 3,072 MBit/s AES/EBU Signals in Betracht. Hier steht die Qualität und die Verzögerungszeit im Vordergrund, was natürlich zu Lasten der Bandbreite geht.
Genaue Untersuchungen zum Marktanteil der verschiedenen Codierverfahren im Rundfunk gibt es nicht. Man geht jedoch allgemein immer noch von einer Dominanz des MPEG Layer 2 und G.722 aus, wobei Verfahren, wie lineares Audio, das 4SB ADPCM Verfahren, apt-X und Enhanced apt-X, sowie der MPEG 4 Standard HE AAC und HE AACv2 bei entsprechenden Anwendungen zunehmen, letzterer sehr deutlich.
Eine ausführliche Diskussion muss eine Darstellung der Verfahren hinsichtlich Qualität, Flexibilität, Bandbreite, Verzögerungszeiten, Kompatibilität, Standardi- sierung, Marktanteil und –aussichten beinhalten. Tatsächlich gibt es für nahezu jedes Verfahren eine optimale Anwendung.
![]() |
| Audio Codier Formate: Qualität und Latenz |
G.711
Ein der grundlegenden Standards der ITU-T. G.711 erlaubt Digitalisierung von Audio in Mono mit einer Abtastrate von 8 kHz. Damit wird der Bereich zwischen 300 und 3400 Hz codiert. Übertragen wird mit 64 Kbit/s in Europa und mit 56 Kbit/s in Nordamerika. G.711 wird vor allem in der klassischen Telefonie verwen- det. Bei IP-Übertragungen kann das Format, dann zum Einsatz kommen, wenn ein herkömmliches Telefon über VoIP erreicht werden muss. Bei der Codierung ins G.711 entsteht keine bemerkbare Verzögerungszeit.
G.722
Ein weiterer Standard der ITU-T. Im Vergleich zu G.711 bietet G.722 eine höhere Audioqualität, indem das Signal mit 16 kHz abgetastet wird. Dennoch wird es mit 64 Kbit/s (z.B. über ein ISDN B-Kanal) übertragen. Ähnlich wie bei G.711 ent- steht bei der G.722 Codierung keine bedeutende Verzögerung.
Es gibt zwei verschiedenen Methoden, um Audiocodecs mit G.722 zu synchronisieren.
G.722 mit H.221 Inband-Signalisierung (G.722/H.221):
Bei G.722/H.221 werden 1,6 kbit/s des 64 kbit/s B-Kanals für das Versenden von Inbandinformation verwendet. Diese Inbandinformation wird zur Synchroni- sation des Audiodatenstroms verwendet.
G.722 mit statistischer Synchronisation (G.722/SRT)
Bei G.722/SRT (SRT = Statistical Recovery Timing) wird durch statische Unter- suchung der Byteanfang gefunden. Hierbei ist zu beachten, dass dies nur bei wirklichen statistische Signalen wie Musik oder Sprache funktioniert, nicht aber bei Sinustönen.
CELT
Ein Verfahren, welches eine extrem niedrige Latenz bei ebenfalls geringen Datenraten zwischen 48 kBit/s mono und 128 kBit/s stereo aufweist. Es findet bei FlashCast besondere Verwendung.
![]() |
| Audio Codier Formate: Abtastraten in kHz |
MPEG Layer 2
Bis jetzt bleibt der Anfang 1990-er Jahre standardisierte Algorithmus ein sehr verbreitetes Codierverfahren für qualitative Audioübertragung über verschiedene Netzwerke im Rundfunkbereich. Im wesentlichen tragen zur Popularität des Formats seine für ein verlustbehaftetes (psychoakustisches) Codierverfahren relativ hohe Kaskadierbarkeit und die breite Unterstützung in diversen Soft- und Hardware Audiocodecs der früheren Generationen bei.
MPEG Layer 2 erlaubt die Datenraten von 8 bis 384 Kbit/s, Zielbitrate für Stereo ist 256 Kbit/s
MPEG Layer 3
Viel mehr als mp3 bekannt, wird dieses Format auch verwendet. Zum Beispiel wenn kleinere Datenraten gefordert sind, als die, die mit MPEG Layer 2 bei einer gewünschten Audioqualität erreichbar sind.
MPEG Layer 3 erlaubt die Datenraten von 8 bis 320 Kbit/s. Zielbitrate für Stereo liegt zwischen 128 und 192 Kbit/s
MPEG 4 HE AAC
HE AAC ist eine Weiterentwicklung von AAC unter Verwendung der SBR-Tech- nologie von Coding Technologies (www.codingtechnologies.com). AAC, das innerhalb MPEG2 und 4 standardisierte Verfahren zählt zu den qualitativ hoch- wertigsten Codieralgorithmen mit der Zieldatenrate von 128kBit/s.
Viele Anwendungen benötigen so geringe Bitraten, die von AAC nicht mehr mit hoher Qualität encodiert werden können. Deshalb hat man bei Coding Technolo gies, einer schwedisch-deutschen Kooperation, eine Technologie namens SBR, der so genannten Spectral Band Replication entwickelt, die genau hier entgegenwirkt und nun erlaubt, AAC auch bei niedrigen Bitraten, z.B. 32, oder 48kBit/s joint stereo zu verwenden.
Dabei werden über 90% der verwendeten Bitrate weiterhin für die klassische AAC-Codierung und nur ein sehr kleiner Teil (<4kBit/s) für die SBR-Information verwendet. Der konventionell codierte AAC-Teil der Codierung wird mit halber Abtastrate, also 16, 22.05 oder 24kHZ durchgeführt. Dies resultiert in einer Erhöhung der Codiereffizienz,
Die Verbindung von SBR und AAC ist ein qualitativ hochwertiges Format. Man verabschiedet sich zwar vom Anspruch der Transparenz, da die Frequenzen oberhalb 7, bzw. 8 kHz nicht mehr transparent übertragen werden, man erreicht jedoch mit wesentlich niedrigeren Bitraten eine CD-ähnliche Qualität. CD-ähnlich heißt im Fall von HE AAC sehr gut, was sich insbesondere durch die mittlerweile sehr weite Verbreitung dieses Formats im Rundfunk, aber auch bei Übertra- gungssystemen zeigt.
Da SBR die Bitrate generell um ca. 30-50% optimiert hat HE AAC eine Zielda- tenrate von 48 kBit/s für Stereosignale. In Verbindung mit einer sogenannten „parametric stereo“ Codierung heißt das Verfahren HE AACv2 und es werden auch die für das stereofone Bild notwendigen Daten parametrisiert übertragen. Die Zieldatenraten gehen damit sogar auf 16, 20 und 24 kBit/s.
apt-X und Enhanced apt-X
Apt-X wurde erstmalig 1990 als Tonübertragungsverfahren mit sehr kurzer Ver- zögerungszeit bekannt und hat sich seit dem als de-facto Industriestandard ins- besondere in privaten Produktionsstudios hervorgetan. Die Stärken liegen in der hohen Tonqualität verbunden mit sehr kurzen Verzögerungszeiten.
Es kommt die ADPCM (Adaptive Differential Pulse Code Modulation) zum Ein- satz, die bei den verwendeten Datenraten selbst bei mehreren En-/Decodier- Prozessen, der so genannten Kaskadierung noch eine sehr gute Qualität hat. Die theoretische Verzögerungszeit liegt bei 3ms mit eine Abtastrate von 48kHz.
Der Algorithmus ist bei vielen Abtastraten einsetzbar und wurde erst kürzlich um den sogenannten Enhanced apt-X Algorithmus erweitert. Enhanced apt-XTM bringt eine signifikante Verbesserung, speziell bei der Verzögerungszeit und dem Dynamikumfang, da hier Abtastwerte mit einer Wortbreite von bis zu 24 Bit ver- arbeitet werden.
apt-X ist heute eines der weltweit verbreitetsten Systeme für kurze Verzögerungszeiten.
Schlüsselfunktionen sind:
- 4:1:4 Datenreduktion
- Mono/stereo audio encoder/decoder
- Flexible Abtastrate bis zu 96kHz
- Zusatzdaten bis zu 12kbit/s
Lineares Audio und AES/EBU transparent
Mit zunehmender Verfügbarkeit an Bandbreite kommen auch die Übertragung von linearem Audio und „AES/EBU Transparent“ in Betracht. Unter linearem Audio versteht man ein PCM Signal mit einer bestimmten Wortbreite von 16, 20 oder 24 Bit sowie einer festgelegten Abtastrate von im Rundfunk stets 48 oder 96kHz. Die resultierende Bitrate beträgt bei einem Stereosignal demnach zwi- schen 1,5 bis 4,5 MBit/s.
Bei der Übertragung von AES/EBU Transparent geht es darum, dass im AES/ EBU Signal auch encodierte Datensignale wie Dolby E oder DTS, etc. enthalten sein können und dieses Signal keiner Abtastratenkonvertierung unterzogen wird, da ansonsten die encodierte Datensignale irreversible manipuliert wären. Die Datenrate des AES/EBU Signals beträgt 3,072 MBit/s.
Sollen Mehrkanalsignale, z.B. 5.1 oder 7.1 übertragen werden erhöhen sich die Bitraten entsprechend.
Mehrkanalton
Die Encodierung von 5.1 oder 7.1 Mehrkanalsignalen wird von vielen Audiofor- maten unterstützt. Hervorzuheben sind HE AAC mit sehr effizienter Codierung und geringen Bitraten bis 128 kbps, Eapt-X mit diskret encodierten Signalen und Bitraten von 1-2 Mbit/s sowie linearen Formaten mit Bitraten bis zu 18 MBit/s.
![]() |
| Audio Codier Formate: Bitraten in kBits/s |





