FMUSER Wireless Video- und Audioübertragung einfacher!

[E-Mail geschützt] WhatsApp + 8618078869184
Sprache

    Audio-Grundkenntnisse und Codierungsprinzipien

     

     1. Grundlegende Konzepte

     

    1) Bitrate: Gibt an, wie viele Bits pro Sekunde die codierten (komprimierten) Audiodaten dargestellt werden müssen, und die Einheit ist normalerweise kbps.

     

    2) Lautheit und Intensität: Die subjektiven Eigenschaften eines Klangs. Loudness gibt an, wie laut ein Ton ertönt. Die Lautstärke variiert hauptsächlich mit der Intensität des Schalls, wird aber auch durch die Frequenz beeinflusst. Im Allgemeinen sind reine Mittelfrequenztöne besser als reine Niederfrequenz- und Hochfrequenztöne.

     

    3) Abtastung und Abtastrate: Die Abtastung dient dazu, ein kontinuierliches Zeitsignal in ein diskretes digitales Signal umzuwandeln. Die Abtastrate bezieht sich darauf, wie viele Abtastungen pro Sekunde erfasst werden.

     

    Nyquist-Abtastgesetz: Wenn die Abtastrate größer oder gleich dem Zweifachen der höchsten Frequenzkomponente des kontinuierlichen Signals ist, kann das abgetastete Signal verwendet werden, um das ursprüngliche kontinuierliche Signal perfekt zu rekonstruieren.

     

    2. gängige Audioformate

     

    1) Das WAV-Format ist ein von Microsoft entwickeltes Audiodateiformat, das auch als Wave-Sounddatei bezeichnet wird. Es ist das früheste digitale Audioformat, das von der Windows-Plattform und ihren Anwendungen weithin unterstützt wird und eine niedrige Komprimierungsrate hat.

     

    2) MIDI ist die Abkürzung für Musical Instrument Digital Interface, auch bekannt als Musical Instrument Digital Interface, einem einheitlichen internationalen Standard für digitale Musik/elektronische synthetische Musikinstrumente. Es definiert die Art und Weise, wie Computermusikprogramme, digitale Synthesizer und andere elektronische Geräte Musiksignale austauschen, und spezifiziert das Datenübertragungsprotokoll zwischen Kabeln und Hardware und Geräten, die elektronische Musikinstrumente verschiedener Hersteller mit Computern verbinden, und kann den Klang mehrerer Musikstücke simulieren Instrumente. Eine MIDI-Datei ist eine Datei im MIDI-Format, und einige Befehle werden in der MIDI-Datei gespeichert. Senden Sie diese Anweisungen an die Soundkarte, und die Soundkarte synthetisiert den Sound gemäß den Anweisungen.

     

    3) Der vollständige Name von MP3 lautet MPEG-1 Audio Layer 3, der 1992 in die MPEG-Spezifikation aufgenommen wurde. MP3 kann digitale Audiodateien mit hoher Klangqualität und niedriger Abtastrate komprimieren. Die häufigste Anwendung.

     

    4) MP3Pro wurde von der Swedish Coding Technology Company entwickelt, die zwei Haupttechnologien enthält: Eine ist die einzigartige Decodierungstechnologie der Coding Technology Company und die andere ist die Integration des MP3-Patentinhabers, der französischen Thomson Multimedia Company und der deutschen Fraunhofer A-Decodierungstechnologie, die gemeinsam erforscht wurden vom Kreisverband. MP3Pro kann die Klangqualität der ursprünglichen MP3-Musik verbessern, ohne die Dateigröße grundlegend zu ändern. Es kann die Tonqualität vor der Komprimierung weitestgehend beibehalten, während Audiodateien mit einer niedrigeren Bitrate komprimiert werden.

     

    5) MP3Pro wurde von der Swedish Coding Technology Company entwickelt, die zwei Haupttechnologien enthält: Eine ist die einzigartige Decodierungstechnologie der Coding Technology Company und die andere ist die Integration des MP3-Patentinhabers, der französischen Thomson Multimedia Company und der deutschen Fraunhofer A-Decodierungstechnologie, die gemeinsam erforscht wurden vom Kreisverband. MP3Pro kann die Klangqualität der ursprünglichen MP3-Musik verbessern, ohne die Dateigröße grundlegend zu ändern. Es kann die Tonqualität vor der Komprimierung weitestgehend beibehalten, während Audiodateien mit einer niedrigeren Bitrate komprimiert werden.

     

    6) WMA (Windows Media Audio) ist Microsofts Meisterwerk im Bereich Internet-Audio und -Video. Das WMA-Format erreicht eine höhere Kompressionsrate, indem es den Datenverkehr reduziert, aber die Klangqualität beibehält. Die Kompressionsrate kann in der Regel 1:18 erreichen. Darüber hinaus kann WMA auch das Urheberrecht durch DRM (Digital Rights Management) schützen.

     

    7) RealAudio ist ein von Real Networks eingeführtes Dateiformat. Das größte Merkmal ist, dass es Audioinformationen in Echtzeit übertragen kann, insbesondere wenn die Netzwerkgeschwindigkeit langsam ist, kann es dennoch Daten reibungslos übertragen, sodass RealAudio hauptsächlich für das Online-Spielen im Netzwerk geeignet ist. Zu den aktuellen RealAudio-Dateiformaten gehören hauptsächlich RA (RealAudio), RM (RealMedia, RealAudio G2), RMX (RealAudio Secured) usw. Die Gemeinsamkeit dieser Dateien besteht darin, dass sich die Klangqualität mit der unterschiedlichen Netzwerkbandbreite ändert. Unter der Prämisse, dass die meisten Menschen einen sanften Klang hören, können Hörer mit einer größeren Bandbreite eine bessere Klangqualität erzielen.

     

    8) Audible hat vier verschiedene Formate: Audible1, 2, 3, 4. Die Website Audible.com verkauft hauptsächlich Hörbücher im Internet und bietet Schutz für die von ihnen verkauften Waren und Dateien über eines der vier speziellen Audioformate von Audible.comcom . Jedes Format berücksichtigt hauptsächlich die Audioquelle und das verwendete Abhörgerät. Die Formate 1, 2 und 3 verwenden unterschiedliche Stufen der Sprachkomprimierung, während Format 4 eine niedrigere Abtastrate und dieselbe Decodierungsmethode wie MP3 verwendet. Die resultierende Stimme ist klarer und kann effizienter aus dem Internet heruntergeladen werden. Audible verwendet ein eigenes Desktop-Wiedergabetool, den Audible Manager. Mit diesem Player können Sie Dateien im Audible-Format wiedergeben, die auf einem PC gespeichert oder auf einen tragbaren Player übertragen wurden.

     

    9) AAC ist eigentlich eine Abkürzung für Advanced Audio Coding. AAC ist ein gemeinsam von Fraunhofer IIS-A, Dolby und AT&T entwickeltes Audioformat. Es ist Teil der MPEG-2-Spezifikation. Der von AAC verwendete Algorithmus unterscheidet sich von dem von MP3. AAC kombiniert andere Funktionen, um die Codierungseffizienz zu verbessern. Der Audioalgorithmus von AAC übertrifft einige frühere Komprimierungsalgorithmen (wie MP3 usw.) in Bezug auf die Komprimierungsfunktionen bei weitem. Es unterstützt auch bis zu 48 Audiospuren, 15 Niederfrequenz-Audiospuren, mehr Abtastraten und Bitraten, Mehrsprachenkompatibilität und höhere Decodierungseffizienz. Kurz gesagt, AAC kann eine bessere Klangqualität bieten, wenn es 30 % kleiner als MP3-Dateien ist.

     

    10) Ogg Vorbis ist ein neues Audiokompressionsformat, das den bestehenden Musikformaten wie MP3 ähnlich ist. Ein Unterschied besteht jedoch darin, dass es völlig kostenlos, offen und ohne Patentbeschränkungen ist. Vorbis ist der Name dieses Audiokompressionsmechanismus, und Ogg ist der Name eines Projekts, das beabsichtigt, ein vollständig offenes Multimediasystem zu entwerfen. VORBIS ist ebenfalls eine verlustbehaftete Kompression, verwendet jedoch fortschrittlichere akustische Modelle, um den Verlust zu reduzieren. Daher klingt OGG, das mit der gleichen Bitrate codiert ist, besser als MP3.

     

    11) APE ist ein verlustfreies komprimiertes Audioformat, unter der Prämisse, dass die Tonqualität nicht reduziert wird, wird die Größe auf die Hälfte der traditionellen WAV-Datei im verlustfreien Format komprimiert.

     

    12) FLAC ist die Abkürzung für Free Lossless Audio Codec, einem Satz bekannter kostenloser verlustfreier Audiokompressionscodes, der sich durch verlustfreie Komprimierung auszeichnet.

     

    3. das Grundprinzip der Audiocodierung

     

    Die Sprachcodierung dient dazu, die für die Übertragung erforderliche Kanalbandbreite zu reduzieren und gleichzeitig die hohe Qualität der eingegebenen Sprache aufrechtzuerhalten.

     

    Das Ziel der Sprachcodierung besteht darin, einen Codierer mit geringer Komplexität zu entwerfen, um eine Datenübertragung mit hoher Qualität bei der niedrigstmöglichen Bitrate zu erreichen.

     

    1) Mute-Schwellenwertkurve: Der Schwellenwert, bei dem das menschliche Ohr nur in einer ruhigen Umgebung Schall mit verschiedenen Frequenzen hören kann.

    2) Kritisches Frequenzband

    Da das menschliche Ohr unterschiedliche Auflösungen für unterschiedliche Frequenzen hat, unterteilt MPEG1 / Audio den wahrnehmbaren Frequenzbereich innerhalb von 22 kHz in 23 bis 26 kritische Frequenzbänder entsprechend unterschiedlichen Codierungsschichten und unterschiedlichen Abtastfrequenzen. Die folgende Abbildung listet die Mittenfrequenz und Bandbreite des idealen kritischen Frequenzbandes auf. Wie in der Abbildung zu sehen ist, hat das menschliche Ohr eine bessere Auflösung bei niedrigen Frequenzen

    3) Maskierungseffekt im Frequenzbereich: Ein Signal mit einer größeren Amplitude maskiert ein Signal mit einer ähnlichen Frequenz und einer kleineren Amplitude, wie in der folgenden Abbildung gezeigt:

     

    4) Maskierungseffekt im Zeitbereich: Wenn in kurzer Zeit zwei Töne auftreten, überdeckt der Ton mit einem größeren SPL (Schalldruckpegel) den Ton mit einem kleineren SPL. Der Zeitbereichs-Maskierungseffekt wird in Vorwärts-Maskierung (Pre-Maskierung) und Rückwärts-Maskierung (Post-Maskierung) unterteilt. Die Zeit nach der Maskierung ist länger, etwa 10 Mal länger als die der Vormaskierung.

    Der Zeitbereichsmaskierungseffekt hilft, das Vorecho zu eliminieren.

     

    4. die grundlegenden Mittel der Codierung

     

    1) Quantisierer und Quantisierer

     

    Quantisierung und Quantisierer: Die Quantisierung wandelt ein kontinuierliches Signal in diskreter Zeit in ein diskretes Signal in diskreter Zeit um. Übliche Quantisierer sind: einheitlicher Quantisierer, logarithmischer Quantisierer und ungleichmäßiger Quantisierer. Das Ziel des Quantisierungsprozesses besteht darin, den Quantisierungsfehler und die Komplexität des Quantisierers zu minimieren (die beiden sind an sich ein Widerspruch).

     

    (A) Einheitlicher Quantisierer: die einfachste, die schlechteste Leistung, nur für Telefonstimme geeignet.

     

    (B) Logarithmischer Quantisierer: Es ist komplizierter als ein einheitlicher Quantisierer und leicht zu implementieren, und seine Leistung ist besser als die eines einheitlichen Quantisierers.

     

    (C) Ungleichmäßiger Quantisierer: Entwerfen Sie den Quantisierer entsprechend der Verteilung des Signals. Eine detaillierte Quantifizierung wird durchgeführt, wenn das Signal dicht ist, und eine grobe Quantifizierung wird durchgeführt, wenn das Signal dünn ist.

     

    2) Sprachencoder

     

    Es gibt drei Arten von Sprachcodierern: (a) Wellenformcodierer; (b) Vocoder; (c) Hybridcodierer.

     

    Der Wellenformcodierer zielt darauf ab, eine analoge Wellenform einschließlich des Hintergrundrauschblatts zu konstruieren. Wenn auf alle Eingangssignale reagiert wird, werden qualitativ hochwertige Samples erzeugt und eine hohe Bitrate verbraucht. Der Vocoder regeneriert die ursprüngliche Wellenform nicht. Dieser Satz von Codierern extrahiert einen Satz von Parametern, die an das empfangende Ende gesendet werden, um das Sprachgenerierungsmodell abzuleiten. Die Sprachqualität des Vocoders ist nicht gut genug. Hybrid-Encoder, der die Vorteile von Wellenform-Encoder und Echolot bietet.

     

    2.1 Wellenformgeber

     

    Das Design des Wellenformcodierers ist häufig unabhängig vom Signal. Es eignet sich also zur Codierung verschiedener Signale und ist nicht auf Sprache beschränkt.

     

    1) Codierung im Zeitbereich

     

    a) PCM: Pulscodemodulation ist die einfachste Codierungsmethode. Es ist nur die Diskretisierung und Quantisierung des Signals, und häufig wird eine Logarithmisierung verwendet.

     

    b) DPCM: Differenzielle Pulscodemodulation, die nur die Differenz zwischen Abtastwerten codiert. Die vorherigen ein oder mehrere Stichproben werden verwendet, um den aktuellen Stichprobenwert vorherzusagen. Je mehr Stichproben zur Vorhersage verwendet werden, desto genauer ist der vorhergesagte Wert. Die Differenz zwischen dem wahren Wert und dem vorhergesagten Wert wird als Residuum bezeichnet, das Gegenstand der Codierung ist.

                       

     

    c) ADPCM: Adaptive Differentialpulscodemodulation, Adaptiver Differentialpulscode. Das heißt, auf der Basis von DPCM werden der Quantisierer und der Prädiktor entsprechend den Änderungen des Signals entsprechend eingestellt, so dass der vorhergesagte Wert näher am realen Signal liegt, der Rest kleiner ist und die Komprimierungseffizienz höher ist.

     

    (2) Frequenzdomänencodierung

     

    Die Frequenzdomänencodierung besteht darin, ein Signal in eine Reihe verschiedener Frequenzelemente zu zerlegen und eine unabhängige Codierung durchzuführen.

     

    a) Subbandcodierung: Die Subbandcodierung ist die einfachste Frequenzbereichscodierungstechnik. Es handelt sich um eine Technologie, die das ursprüngliche Signal vom Zeitbereich in den Frequenzbereich umwandelt, es dann in mehrere Teilbänder unterteilt und jeweils eine digitale Codierung durchführt. Es verwendet eine Bandpassfiltergruppe (BPF), um das ursprüngliche Signal in mehrere (z. B. m) Teilbänder (als Teilbänder bezeichnet) zu unterteilen. Führen Sie jedes Teilband durch die Modulationseigenschaften, die der Einseitenband-Amplitudenmodulation entsprechen, bewegen Sie jedes Teilband auf eine Frequenz nahe Null bzw. durchlaufen Sie BPF (insgesamt m) und übertragen Sie dann jedes Teilband mit einer vorgeschriebenen Rate ( Nyquist-Rate) Das Subband-Ausgangssignal wird abgetastet, und der abgetastete Wert wird normalerweise digital codiert, und m digitale Codierer werden eingestellt. Senden Sie jedes digital codierte Signal an den Multiplexer und geben Sie schließlich den subbandcodierten Datenstrom aus.

     

    Für verschiedene Teilbänder können verschiedene Quantisierungsverfahren verwendet werden und den Teilbändern können gemäß dem menschlichen Ohrwahrnehmungsmodell unterschiedliche Anzahlen von Bits zugewiesen werden.

     

    b) Transformationscodierung: DCT-Codierung.

     

    5. Vocoder

     

    Kanalvocoder: Nutzt die Unempfindlichkeit des menschlichen Ohrs gegenüber Phasen.

     

    homomorpher Vocoder: Kann synthetische Signale effektiv verarbeiten.

     

    Formant-Vocoder: Die meisten Informationen des Sprachsignals befinden sich an der Position und Bandbreite des Formanten.

     

    linear prädiktiver Vocoder: Der am häufigsten verwendete Vocoder.

     

    6. Hybrid-Encoder

     

    Der Wellenformcodierer versucht, die Wellenform des codierten Signals beizubehalten und kann qualitativ hochwertige Sprache mit einer mittleren Bitrate (32 kbps) liefern, kann jedoch nicht auf Gelegenheiten mit niedriger Bitrate angewendet werden. Der Vocoder versucht, ein Signal zu erzeugen, das dem codierten Signal akustisch ähnlich ist und verständliche Sprache mit einer niedrigen Bitrate liefern kann, aber die resultierende Sprache klingt unnatürlich. Der Hybrid-Encoder kombiniert die Vorteile von beidem.

     

    RELP: Auf der Grundlage einer linearen Vorhersage wird der Rest codiert. Der Mechanismus besteht darin, nur einen kleinen Teil der Residuen zu übertragen und alle Residuen am Empfangsende zu rekonstruieren (die Residuen des Basisbandes kopieren).

     

    MPC: Mehrfachimpulscodierung, die die Korrelation der Residuen beseitigt und verwendet wird, um die einfache Klassifizierung von Stimmen in stimmhafte und stimmlose Stimmen durch den Vocoder ohne die Fehler von Zwischenzuständen zu kompensieren.

     

    CELP: Codebuch-angeregte lineare Vorhersage, bei der die Vorhersage des Vokaltrakts und die Kaskade des Tonhöhenprädiktors verwendet werden, um das ursprüngliche Signal besser zu approximieren.

     

    MBE: Multiband-Anregung, der Zweck besteht darin, eine große Anzahl von CELP-Berechnungen zu vermeiden, um eine höhere Qualität als der Vocoder zu erhalten.

     

     

     

     

    Alle auflisten Frage

    Nickname

    E-Mail

    Fragen

    Unsere anderen Produkt:

    Professionelles UKW-Radiosender-Ausrüstungspaket

     



     

    IPTV-Lösung für Hotels

     


      Geben Sie eine E-Mail-Adresse ein, um eine Überraschung zu erhalten

      fmuser.org

      es.fmuser.org
      it.fmuser.org
      fr.fmuser.org
      de.fmuser.org
      af.fmuser.org -> Afrikaans
      sq.fmuser.org -> Albanisch
      ar.fmuser.org -> Arabisch
      hy.fmuser.org -> Armenisch
      az.fmuser.org -> Aserbaidschanisch
      eu.fmuser.org -> Baskisch
      be.fmuser.org -> Weißrussisch
      bg.fmuser.org -> Bulgarisch
      ca.fmuser.org -> Katalanisch
      zh-CN.fmuser.org -> Chinesisch (vereinfacht)
      zh-TW.fmuser.org -> Chinesisch (traditionell)
      hr.fmuser.org -> Kroatisch
      cs.fmuser.org -> Tschechisch
      da.fmuser.org -> Dänisch
      nl.fmuser.org -> Niederländisch
      et.fmuser.org -> Estnisch
      tl.fmuser.org -> Philippinisch
      fi.fmuser.org -> Finnisch
      fr.fmuser.org -> Französisch
      gl.fmuser.org -> Galizisch
      ka.fmuser.org -> Georgisch
      de.fmuser.org -> Deutsch
      el.fmuser.org -> Griechisch
      ht.fmuser.org -> Haitianisches Kreol
      iw.fmuser.org -> Hebräisch
      hi.fmuser.org -> Hindi
      hu.fmuser.org -> Ungarisch
      is.fmuser.org -> Isländisch
      id.fmuser.org -> Indonesisch
      ga.fmuser.org -> Irisch
      it.fmuser.org -> Italienisch
      ja.fmuser.org -> Japanisch
      ko.fmuser.org -> Koreanisch
      lv.fmuser.org -> Lettisch
      lt.fmuser.org -> Litauisch
      mk.fmuser.org -> Mazedonisch
      ms.fmuser.org -> Malaiisch
      mt.fmuser.org -> Malteser
      no.fmuser.org -> Norwegisch
      fa.fmuser.org -> Persisch
      pl.fmuser.org -> Polnisch
      pt.fmuser.org -> Portugiesisch
      ro.fmuser.org -> Rumänisch
      ru.fmuser.org -> Russisch
      sr.fmuser.org -> Serbisch
      sk.fmuser.org -> Slowakisch
      sl.fmuser.org -> Slowenisch
      es.fmuser.org -> Spanisch
      sw.fmuser.org -> Suaheli
      sv.fmuser.org -> Schwedisch
      th.fmuser.org -> Thai
      tr.fmuser.org -> Türkisch
      uk.fmuser.org -> Ukrainisch
      ur.fmuser.org -> Urdu
      vi.fmuser.org -> Vietnamesisch
      cy.fmuser.org -> Walisisch
      yi.fmuser.org -> Jiddisch

       
  •  

    FMUSER Wireless Video- und Audioübertragung einfacher!

  • Kontakt

    Adresse
    Nr.305 Zimmer HuiLan Gebäude Nr.273 Huanpu Road Guangzhou China 510620

    E-Mail:
    [E-Mail geschützt]

    Telefon / WhatApps:
    +8618078869184

  • Kategorien

  • Newsletter

    ERSTER ODER VOLLSTÄNDIGER NAME

    E-Mail

  • paypal Lösung  Western UnionBank von China
    E-Mail:[E-Mail geschützt]    WhatsApp: +8618078869184 Skype: sky198710021 Rede mit mir
    Copyright 2006-2020 Powered By www.fmuser.org

    Kontakt