Codecs zur Sprachdigitalisierung

Codecs zur Sprachdigitalisierung müssen, bedingt durch die Struktur des Internets, Paketverluste (bis zu 5%) verkraften und Laufzeitunterschiede der einzelnen Pakete ausgleichen und in die richtige Reihenfolge sortieren können(Forward Error Correction und Jitter Buffering).
Im Rahmen von H.323 gibt es verschiedene Codecs, die für Multimedia-Übertragung im IP-Netzwerk geeignet sind. Bei den Codecs handelt es sich um Komprimierungsroutinen. Bei zunehmender Komprimierung nimmt die Sprachqualität ab, und damit die Dekomprimierungszeit, sowie die Rechenleistung zu.
Von Bell Labs wurde der "Mean Opinion Score" (MOS) definiert. Der MOS ermittelt das statische Empfinden der Sprachqualität eines Benutzters.

kleinerMOS 4größer
vergleichbar mit
der Sprachübertragung
im Mobilfunknetz
 vergleichbar mit
der Sprachübertragung
im Festnetz

 

Codec Name/Bezeichnung Übertragungsrate MOS MIPS Delay Audiofrequenz Sprachqualität
G.711 Pulse Code Modulation (PCM) 56 oder 64 kbit/s
(80 kBit/s mit Header)
4,4 1 0,25 ms 300 bis 3400 Hz ISDN
G.726 Adaptive Differential Pulse Code Modulation (ADPCM) 16-40 kbit/s 4,2 - - - Mobilfunk
G.728 Low Delay Code Excited Linear Prediction (LD-CELP) 16 kbit/s 4,2 30 1,25 ms 300 bis 3400 Hz ungefähr ISDN
G.729/ G.729A Conjugate Structure Algebraic Code Excited Linear Prediction (CS-ACELP) 8 kbit/s 4,2 20/11 25 ms 300 bis 3400 Hz besser als G.723.1
G.723.1 Multiple Maximum Likelihood Quantization (MPMLQ) 6,3 kbit/s 3,9 18 67,5 ms 300 bis 3400 Hz Gut
G.723 Algebraic Code Excited Linear Prediction (ACELP) 5,3 kbit/s 3,5 - - - -


Für VoIP-Anwendungen wird der Codec G.729A verwendet und ist damit die Grundlage für eine gute Sprachqualität in VoIP-Netzen. Unter Berücksichtigung des IP-Overheads, der Sprachkomprimierung und der Sprechpausenunterdrückung wird eine Bandbreite von ca. 10 kbit/s (1,25 kByte/s) pro Sprachverbindung benötigt. Diese Bandbreite muss das Datennetz für jedes Gespräch gewährleisten.
Alternativ-Anbieter von Festnetz-Telefonie setzen auf G.711. Es ist dasselbe Verfahren wie bei ISDN. Der Vorteil liegt in der einfachen Durchleitung der Sprachdaten vom Festnetz ins IP-Netz bzw. umgekehrt. Die Umkodierung der Sprachdaten ist nicht notwendig. Allerdings beträgt die Nettobandbreite wie bei ISDN 64 kBit/s in jede Richtung. Der fehlende ISDN-D-Kanal (Signalisierung) erhöht die erforderliche Bandbreite auf ca. 80 kBit/s. Für schmalbandige Internet-Zugänge oder Netzwerkverbindungen ist das ein Problem.
Alternativ stellen VoIP-Anbieter Verbindungen mit G.729 zu Verfügung. Dei eingesetzte Kompression drückt die Datentransferrate auf fast 10%. Obwohl Abstriche bei der Sprachqualität zu machen sind ist das deutlich besser als bei Handygesprächen.

Delay - Verzögerung

Egal welcher Codec, das Kodieren benötigt einige Zeit. Neben dem Kodieren bestimmt der Übertragungsweg zwischen zwei Gesprächsteilnehmern die Verzögerung. Eine Verzögerung unter 150 ms ergibt eine sehr gute Sprachqualität. Ab einem Delay von 250 ms wird ein Gespräch bereits negativ beeinflusst. Bis zu 400 ms gilt ein Gespräch noch als akzeptabel. Alle Zeiten darunter führen zu einer unangenehmen Verzögerung, bei der man den Gesprächspartner zu oft ins Wort fällt. Dieses Problem kennt man bei Mobilfunkgesprächen, wenn der Empfang einseitig schlecht ist. Dann kommt es zu unangenehmen Verzögerungen und Unterbrechungen.
Als Jitter wird eine ungleichmäßige Übertragungszeit bezeichnet. Codecs müssen über einen Jitter-Buffer eingehende Datenpakete zwischenspeichern und ungleichmäßigen, wiederholten oder fehlerhaften Datenfluss ausgleichen. Bis zu 5% Datenverlust muss ein Codec ausgleichen, was beim Telefonieren ungehört bleibt. Die Verweildauer der Datenpakete im Puffer erhöhen folglich das Delay des Codecs.