오디오 형식 AAC 및 MP3 비교. AAC 형식이란 무엇입니까? 새로운 aac 고급 오디오 코딩

발표

AAC 오디오 파일 형식

AAC 파일은 MP3 파일을 대체하기 위해 개발되었습니다. 손실 압축을 사용하면 동일한 비트 전송률에서 더 나은 사운드를 얻을 수 있습니다. AAC 파일은 ISO/IEC에 의해 MPEG-2 및 MPEG-4 파일 제품군의 일부로 표준화되었습니다(원래 MPEG-2 Part 7 파일 그룹의 일부임). AAC 파일에는 MP3에 비해 더 많은 샘플 속도와 최대 48개의 채널이 포함되어 있습니다. 더 많은 필터 세트를 포함하여 코딩 효율성이 크게 향상되었습니다. 과도 신호의 코딩 정확도가 향상되었습니다. MP3 파일과 마찬가지로 AAC 파일은 사람이 들을 수 없는 주파수를 차단합니다. 이렇게 하면 파일 크기를 줄일 수 있습니다. MP3에 비해 AAC 파일은 훨씬 작습니다.

AAC 파일에 대한 기술 정보

MPEG-2 파트 7 파일은 복잡도가 낮은 AAC-LC, 기본 유형(AAC Main) 및 가변 샘플링 속도가 있는 파일(AAC-SSR)의 세 가지 유형으로 표시됩니다. AAC 파일을 사용하면 시간적 노이즈 형성, 비균일 샘플링 및 비트스트림 형식의 재포맷(단일 비트스트림에서 16개의 스테레오 채널, 16개의 모노 채널, 16개의 저주파 채널 및 16개의 주석 채널)이 가능합니다. 1999년에는 MPEG-2 part 7 형식이 MPEG-4 Part 3 형식에 통합되어 오디오 개체 유형과 지속적인 잡음 대체 기술이 도입되었습니다. AAC 형식은 현재 ISO/IEC 14496-3 표준에 설명되어 있습니다. 오디오 마스킹은 품질을 유지하면서 원치 않는 정보를 제거하기 위해 손실 압축에 사용됩니다.

AAC 형식에 대한 추가 정보

현재까지 AAC 형식은 아직 오디오 미디어에서 대량 배포되지는 않았지만 여러 매개변수에서 오늘날 존재하는 모든 유형의 오디오 압축을 능가하므로 우리의 주의를 기울일 가치가 있습니다.

그것은 무엇입니까?

정의부터 시작하겠습니다. AAC는 오디오 파일에 대한 독점(독점) 압축 옵션입니다. 동시에 동일한 비트 전송률에서 MP3에 비해 인코딩 시 품질 손실이 적습니다. 또한 AAC 형식은 고품질 디지털 오디오를 전송하는 데 필요한 데이터 양을 크게 줄이기 위해 두 가지 주요 코딩 원칙을 사용하는 광대역 오디오 코딩 알고리즘입니다. 이 솔루션은 손실 압축 기술을 사용하여 구현된 최고 품질 중 하나로 인정받고 있습니다. 이 형식은 대부분의 최신 장비, 심지어 휴대용 장비에서도 지원됩니다. AAC 벨소리는 iTunes Store에서 구입할 수 있으며 이 스토어는 이 솔루션으로 압축된 음악만 제공합니다. 또한 AAC 형식은 원래 향상된 인코딩 품질을 제공할 수 있는 MP3의 후속 제품으로 만들어졌다고 해야 합니다. 이 솔루션은 MPEG-2 제품군의 새로운 7번째 제품으로 1997년에 발표되었습니다.

작동 원리

이 형식으로 인코딩할 때 다음 프로세스가 수행됩니다. 감지할 수 없는 구성 요소가 신호에서 제거되고 인코딩된 오디오 신호가 중복이 제거됩니다. 이후 복잡도에 따라 MDCT 방식으로 데이터를 처리한다. 다음 단계에서는 다양한 내부 오류를 수정하기 위해 코드가 추가됩니다. 마지막으로 신호가 전송되거나 저장됩니다.

모든 세부 사항

흥미롭게도 AAC 형식은 8-96kHz 범위의 샘플링 속도와 1-48 범위의 채널 수를 가지고 있습니다. MP3는 필터의 하이브리드 세트를 사용합니다. 차례로 AAC는 2048 포인트에 도달하는 창 크기가 증가된 수정된 이산 코사인 변환을 나타냅니다.

따라서 AAC는 MP3에 비해 구형파뿐만 아니라 복잡한 펄스 스트림을 갖는 오디오를 인코딩하는 데 훨씬 적합합니다. 이 형식은 2048-256 포인트 범위의 MDCT 블록 길이에서 동적 전환 기능을 얻었습니다. 짧은 또는 단일 변경이 있는 경우 더 나은 해상도를 얻기 위해 256포인트의 작은 창이 적용됩니다. 인코딩 효율성을 최대화하기 위해 기본값은 2048포인트 큰 창입니다. AAC는 기존 MP3에 비해 여러 가지 장점이 있습니다. 그 중에서도 많은 수의 오디오 채널(최대 48개)의 구현, 고정 및 가변 비트 전송률 조건에서 상당한 코딩 효율성, 8Hz ~ 96kHz 범위의 샘플링 속도(MP3의 경우 이 수치는 8Hz ~ 48kHz임) 및 조인트 스테레오라고 하는 보다 유연한 특수 모드입니다. 솔루션에 관해서는 "AAC +"는 낮은 비트 전송률로 작업하는 데 중점을 둔 코덱입니다. SBR과 AAC LC의 조합 덕분에 이미 32-48kbps 범위에서 좋은 사운드를 얻을 수 있습니다.

파일 확장자: .m4a , .aac , .mp4

가장 일반적인 AAC LC 모드 사양:

형식은 MPEG 오디오 표준의 일부입니다. ISO/IEC 13818-7. 독일 기관 Fraunhofer IIS에서 만들었으며 MP3 형식의 추가 개발입니다.

형식 자체는 독점이며 상업적 사용을 위해 라이선스를 구매해야 합니다.

이야기

이 형식의 개발은 Fraunhofer IIS, AT&T, Dolby 및 Sony의 공동 노력에 의해 1994년에 시작되었습니다. 형식이 MPEG-2 AAC로 MPEG 표준의 일부가 된 것은 3년 후였습니다. MPEG-4 오디오 표준의 후속 개발로 AAC가 개선되고 개선되었습니다.

일반적으로 형식 개발의 연대기는 다음과 같습니다.

  • 1997 - 표준화 MPEG-2 AAC-LC.
  • 1999 - 표준화 MPEG-4 AAC-LC. PNS(Perceptual Noise Substitution) 기술이 추가되었습니다.
  • 2003 - 표준화 MPEG-4 HE-AAC. SBR(Spectral Band Replication) 기술이 추가되었습니다.
  • 2004 - 표준화 MPEG-4 HE-AAC v2. PS(파라메트릭 스테레오) 기술이 추가되었습니다.

HE-AAC낮은 비트 전송률 지향 형식입니다. 여기에 사용된 AAC LC와 SBR의 조합은 32~48kbit/s의 비트 전송률에서 우수한 품질을 제공합니다. 당연히, HE-AAC다중 채널을 지원하고 다양한 샘플 속도를 선택할 수 있습니다. HE-AAC또한 ~으로 알려진 aac 플러스.

파라메트릭 스테레오와 결합 시 HE-AAC v2스테레오의 경우 약 16kbit/s의 비트 전송률에서 우수한 오디오 품질을 제공합니다. HE-AAC v2또한 ~으로 알려진 aac 플러스 v2.

프로필

  • LTP/장기 예측, MPEG-4 전용

일부 프로필은 복잡성이 낮기 때문에 휴대용 장치에 선호되지만 약간 낮은 품질도 제공합니다. 그러나 현재 가장 일반적인 프로파일은 입니다. 다른 더 까다로운 프로파일(Main , LTP)은 더 많은 계산을 요구하는 만큼 많은 품질을 제공하지 않기 때문입니다.

제목

AAC에는 4가지 유형의 헤더가 있습니다.

  • LTM(낮은 오버헤드 MPEG-4 오디오 전송 다중화)
  • LOAS(낮은 오버헤드 오디오 스트림)

ADIF

이 헤더 형식은 AAC 모바일 전송을 위한 ADTS 및 LATM/LOAS와 달리 간단한 로컬 저장을 위한 것입니다.

ADTS

까악

Windows에서만 작동하는 개발자 nu774의 qaac라는 Core Audio 및 ALAC의 AAC에 대한 오픈 소스 래퍼 구현이 있습니다. 기사 업데이트 당시 가장 최신 AAC 코덱입니다.

네로 디지털 오디오

다섯 번째 버전부터 Nero 패키지는 AAC 코덱과 함께 제공됩니다. 이제 그는 디지털 비디오 및 오디오 세계의 새로운 표준을 만들기 위한 프로젝트인 Nero Digital의 일원입니다. Nero AAC에서는 LC와 HE의 두 가지 AAC 유형을 만들 수 있습니다. Low Complexity(LC)는 일반적인 AAC 표준인 반면 High Efficiency(HE)는 SBR 기술(mp3PRO와 유사)을 사용하며 플레이어가 이 기술을 이해하면 추가 주파수 정보를 디코딩할 수 있습니다. 그렇지 않으면 오디오 품질의 절반이 재생 중에 손실됩니다. 재생. 현재 코덱은 상당히 구식이며 품질은 Apple의 구현보다 열등합니다. 이 코덱은 dBpowerAMP Music Converter 및 해당 코덱(dBpowerAMP Nero MP4 코덱)과 함께 사용하면 매우 편리합니다.

Nero MPEG-4 AAC(LC 프로필)의 장점:

  • 모든 경우에 품질은 작은 파일 크기에서 LAME MP3보다 눈에 띄게 좋습니다.
  • 최신 버전의 LAME MP3(VBR/ABR)에 비해 리소스 소모가 적습니다.

Psytel AACenc 및 Fastenc

PsyTEL® FAST MPEG-2 AAC LC 인코더 v2.0(2002년 3월 4일 빌드) / Copyright © 1999-2001 PsyTEL Research / Copyright © 1999-2001 Ivan Dimkovich

유고슬라비아 기업인 Psytel Research는 MPEG-2/4 AAC 표준을 개선하기 위해 노력하고 있습니다. 1998년경 프로그래머 Ivan Dimkovich에 의해 설립되었습니다.

첫 번째 버전(1.0)은 ISO 소스 코드의 대략적인 편집이었지만 품질이 빠르게 향상되기 시작했으며 잠시 후 이것은 대중이 사용할 수 있는 유일하게 진정으로 ISO 최적화된 AAC 인코더였습니다(FhG 및 Dolby 버전만 사용 가능). 기술 개선에 관심이 있는 개발자에게). Liquifier도 사용할 수 있었지만 생성된 데이터 스트림은 암호화되었습니다.

2002년 중반까지 Psytel Research와 모든 자산은 Ahead Software GmbH에 의해 인수되었으며 AACEnc는 Nero AAC Encoder가 되었습니다.

FAAC(프리웨어 고급 오디오 코더)

1999년 말, Menno Bakker는 개발 소스 코드를 공개하고 FAAC(Freeware Advanced Audio Coder) 프로젝트를 정당화했습니다. FAAD2 디코더는 오늘날 가장 빠르고 가장 좋은 AAC 디코더 중 하나로 간주됩니다. FAAD2(프리웨어 고급 오디오 디코더) 프로젝트에는 Copyright © 2003-2004 M. Bakker, Nero Software AG가 있습니다. 라이센스에 대해서는 Nero Software AG에 문의하십시오.

홈보이 AAC

HomeBoy는 1998년에 Windows용으로 공개적으로 사용 가능한 최초의 ISO AAC 인코더를 만든 프로그래머 그룹의 이름이었습니다. 그들은 또한 Winamp용 첫 번째 타사 플러그인(그들의 AAC 입력 플러그인)을 만든 것으로 보고되어 이를 사용할 수 있게 했습니다. 일반 대중 최초의 ISO AAC 디코더. 인코더는 원본 ISO 링크 소스의 편집일 뿐이므로 품질이 좋지 않았습니다. 그러나 흥미로운 점은 그가 생성한 데이터 스트림이 여전히 현대식 디코더에서 디코딩된다는 것입니다.

버전

Dicas/zPlane 컴팩트!

AAC 코덱 컴팩트! 독일 DSP 엔지니어 Alexander Lerch가 개발했습니다. 출시는 2003년에 이루어졌습니다. 코덱은 출시 당시 호평을 받았습니다. 여기에는 몇 가지 흥미로운 기능도 포함되어 있었습니다. 세 가지 품질 수준(빠른 품질에서 고품질 인코딩까지)이 있었고 지원되는 기본 프로필, TNS 또는 PNS, 다중 채널 인코딩 지원, 일부 사전 처리 작업 및 매우 흥미로운 사전 설정과 같은 기술을 활성화 또는 비활성화할 수 있었습니다. - 압축 후 노래가 어떻게 들리는지 실시간으로 들을 수 있는 듣기 기능. 알 수 없는 이유로 이 프로젝트는 2005년에 중단되었습니다.

버전

엠비소프트 AAC

이 프로젝트는 독일 프로그래머 Menno Bakker가 AAC 소스 코드에 대한 작업을 시작한 1998년경에 시작되었습니다. 인코더 엠바엑센트프론트엔드가 좋은 ISO 소스 빌드였습니다. Winamp용 플러그인도 사용 가능했습니다.

1999년 말, Menno는 자신의 개발 소스 코드를 공개하고 FAAC(Freeware Advanced Audio Coder) 프로젝트를 정당화했습니다. 이 프로젝트는 여전히 유효하며 디코더인 FAAD2는 오늘날 가장 빠르고 가장 좋은 AAC 디코더 중 하나로 간주됩니다.

나는 당신에게 동일한 오디오 형식을 소개하고 싶습니다 AAC.

이것의 장점은 무엇입니까 AAC 형식예를 들어 mp3보다?

최대 48개의 오디오 채널;
고정 및 가변 비트 전송률 모두에서 더 높은 코딩 효율성;
8Hz ~ 96kHz(MP3: 8Hz ~ 48kHz)의 샘플링 속도
보다 유연한 조인트 스테레오 모드.

> 간단히 말해서 AAC는 다른 형식보다 더 나은 형식일 뿐만 아니라 장점도 있습니다.

아직도 MP3와 LOSSLESS에 음악을 저장하시나요?

이에 대한 우리의 대답은 AAC뿐입니다! 스스로 판단하십시오. 가장 큰 소셜 네트워크는 비디오에 이 형식을 사용하므로 하드 드라이브에 많은 공간이 절약됩니다. 형식은 mp3, wma를 재생할 수 있는 대부분의 최신 휴대폰에서 지원됩니다. 예를 들어 Nokia Corporation은 전화기에 있는 표준 벨소리를 AAC 형식으로 녹음합니다. 아직 그 우수성을 확신하지 못하셨습니까? 그럼 숫자로 넘어가 볼까요...

MP3에서 3GPP AAC+ 형식으로 압축하면 음악 파일의 무게가 적어도 타임스!

즉, 320kbps의 사운드 비트 전송률을 가진 파일을 가져오고 출력에서 ​​48kbps의 비트 전송률을 얻습니다. 320/48=6.666을 고려합니다. 즉, MP3 파일은 잠재적으로 다음으로 축소될 수 있습니다. 여섯 번!

이제 MP3 형식의 40GB 오디오 라이브러리가 40/3=13으로 줄어들었다고 상상해 봅시다! 총 열셋 GB! 그러나 음질은 아무것도 가질 수 없습니다. 확신이 서지 않는다면 이렇게 말할 것입니다. 저는 모든 음악을 AAC 형식으로 저장하므로 3년 전에는 40GB 하드 드라이브가 있었습니다. 네, 네, 놀라지 마세요) 그래서 오디오 라이브러리를 줄이는 방법을 찾기 시작했습니다. 나는 음악을 삭제하고 싶지 않고 그냥 모든 것을 AAC로 변환했습니다. 물론 내 AMD 1500+에서 이것은 단계적으로 발생했으며 원하는 만큼 빠르지는 않았지만 해냈습니다!

더 많은 정보를 원하십니까?

현재까지 하드 드라이브 제조업체는 제품 구매에 관심이 있습니다. 이와 관련하여(믿거나 말거나) 당신은 점점 더 많은 것을 다운로드하고, 가장 성가신 파일 크기로 디스크에 가장 많은 정보를 저장해야 합니다. 예를 들어 Modern BluRay 비디오 형식입니다. 나는 당신이 거대한 화면을 가지고 있다면 이 형식을 사용해야 한다고 주장하지 않습니다. 그러나 일반 모니터를 사용한다면 최대 22인치까지 사진 이미지가 당신의 모니터?

무손실은 어떻습니까?

얘들 아, 마침내이 형식이 실제로 필요한 장소에서 특별히 사용하기 위해 만들어졌다는 것을 이해하십시오. 컴퓨터의 플레이어를 통해 정상적인 청취를 위해 그는 필요하지 않습니다! 무손실은 시간유용한 디스크 공간 낭비. 귀로는 고품질 AAC와 무손실의 차이를 인지할 수 없습니다. 따라서 이 형식을 권장합니다. 물론, 당신은 즉시 불신으로 반응하겠지만 ... 나는 당신에게 그것을 시도하는 것이 좋습니다. 그리고 당신은 당신이 최고를 찾을 수 없다는 것을 스스로 이해할 것입니다!

AAC의 단점은 무엇입니까?

이 형식의 장점을 이해하지만 내 음악을 어떻게 트랜스코딩할 수 있습니까?

나는 당신이 사용하는 것이 좋습니다 미디어코더. 이것은 미디어 파일을 위한 훌륭한 인코더입니다. 수많은 형식을 지원하며, 시간유급의.

정확히 어떻게 인코딩합니까?

2. 몇 번의 클릭으로 설치하고 다음>...을 클릭합니다.

3. 음악이 있는 폴더를 열고 미디어코더그리고 형식을 선택합니다.

2009-09-30T20:52

2009-09-30T20:52

오디오파일의 소프트웨어

음향심리학적 마스킹을 사용하여 오디오 데이터를 압축하는 방법에 대한 첫 번째 아이디어는 1979년으로 거슬러 올라갑니다. 그러나 해당 오디오 인코더는 90년대 중반부터 개인용 컴퓨터의 컴퓨팅 성능이 압축된 오디오를 실시간으로 재생할 수 있을 만큼 충분하기 시작하고 MP3로 더 잘 알려진 MPEG-1 오디오 레이어 3 표준, 나타났다. 압축 오디오 형식은 128kbps 이상의 비트 전송률에서 "거의 투명한" 스테레오 음질(즉, 인코딩된 신호는 대부분의 청취자에게 원본과 구별할 수 없음)을 제공하여 인터넷을 통해 오디오를 전송하는 데 없어서는 안될 필수 요소가 되었습니다. MP3 형식의 기본 원칙은 K. Glasman의 기사(2...8/2005)에서 찾을 수 있습니다.

데이터 압축 방법 및 심리 음향학의 발전은 MP3 표준이 오디오 코딩의 새로운 아이디어 구현에 "가까워졌다"는 사실로 이어졌습니다. 그 결과 1997년까지 90년대 초반 MP3를 만든 프라운호퍼 연구소(Fraunhofer IIS)와 돌비, AT&T, 소니, 노키아는 새로운 오디오 압축 방식인 AAC(Advanced Audio Coding), MPEG-2 및 MPEG-4 표준에 포함되었습니다. MP3 표준과의 주요 차이점은 다음과 같습니다.

  • 더 넓은 범위의 형식(최대 48개 채널) 및 오디오 샘플링 속도(8kHz~96kHz) 지원
  • 보다 효율적이고 단순한 필터 뱅크: MP3 하이브리드 필터 뱅크가 기존 MDCT(Modified Discrete Cosine Transform)로 대체되었습니다.
  • 필터 뱅크에서 주파수-시간 분해능의 더 넓은 한계 - 8배(MP3에서 - 3배) - 오디오 신호의 과도(과도) 및 고정 섹션 코딩이 향상되었습니다.
  • 16kHz 이상의 주파수에 대한 더 나은 코딩;
  • 다른 주파수 대역에서 독립적으로 M / S ( "공동 스테레오") 모드로 전환 할 수있는보다 유연한 스테레오 코딩 모드;
  • 압축 효율을 높이는 표준의 추가 기능: 시간 영역(TNS)에서 잡음 생성 기술, 시간에 따른 MDCT 계수 예측(장기 예측), 파라메트릭 스테레오 코딩 모드(파라메트릭 스테레오), 잡음 합성(지각 잡음) 대체), 고주파수 복구 기술(SBR).

이러한 기능 덕분에 AAC 표준은 보다 유연하고 효율적이며 더 나은 품질의 오디오 코딩을 달성할 수 있습니다. MP3 형식이 널리 사용되면서 AAC 표준은 아직 MP3에 버금가는 인기를 얻지 못했습니다. 그러나 AAC는 인기 있는 iTunes Store, iPod, iTunes, iPhone, PlayStation 3, Nintendo Wii 및 DAB+/DRM 디지털 방송의 주요 형식입니다.

AAC의 주요 기능을 더 자세히 고려하십시오.

필터 뱅크

다른 심리 음향 오디오 인코더와 마찬가지로 AAC는 다음과 같은 방식으로 작동합니다. 입력 신호는 필터 뱅크를 통과합니다. 이 변환은 신호를 시간 영역에서 주파수-시간 영역으로 변환하는 변환입니다(스펙트로그램 작성과 유사). 이와 병행하여 심리음향 모델은 신호를 분석하고 심리음향 마스킹에 대한 임계값을 결정합니다. 다음으로, 필터 뱅크의 출력에서 ​​신호의 스펙트럼 계수는 양자화되어 잡음 스펙트럼이 가능한 경우(비트 전송률이 허용하는 경우) 마스킹 임계값 미만이고 들을 수 없습니다. 양자화된 계수는 무손실 AAC 출력 파일로 압축됩니다. 따라서 필터 뱅크 자체는 신호를 압축하지 않고 압축에 더 적합한 형식으로 변환할 뿐입니다.

각 필터 뱅크의 특징은 주파수 분해능, 즉 신호 스펙트럼을 나누는 주파수 대역의 수입니다. 오디오 압축에 사용되는 대부분의 필터 뱅크에는 수백 개의 대역이 있습니다. 이는 불확실성 관계로 인해 이러한 필터 뱅크가 수십 밀리초 정도의 시간 분해능을 갖는다는 것을 의미합니다. 신호의 스펙트럼 계수가 양자화될 때 신호 디코딩 동안 도입된 양자화 오류는 필터뱅크 창의 전체 길이에 걸쳐 시간이 지남에 따라 확산됩니다. 어떤 경우에는 프리 에코라는 원치 않는 효과가 발생합니다. 과도 현상(신호의 급격한 에너지 폭발)의 양자화 오류가 과도 현상보다 앞선 시간 세그먼트로 시간에 따라 전파되어 들을 수 있을 때 나타납니다(그림 1). 이 효과를 줄이기 위해 가변 시간-주파수 분해능을 가진 필터 뱅크가 사용됩니다. 예를 들어 MP3는 26~9ms 사이의 전환 가능한 필터 뱅크 시간 분해능을 사용합니다. 고정 신호는 26ms 창을 사용하여 우수한 주파수 분해능을 제공하는 반면 과도 신호는 9ms 창을 사용하여 사전 에코 효과를 줄입니다(그림 1 참조).

AAC 알고리즘은 MDCT 창 크기 전환도 사용합니다. 이 경우 창 크기의 차이는 6과 48ms(256 및 2048 샘플)의 8배입니다. 이로 인해 알고리즘은 더 넓은 범위의 신호에 적응하고 더 나은 압축 수준을 달성할 수 있습니다.

TNS 기술 - 노이즈 진폭 엔벨로프 쉐이핑

현대 심리 음향 오디오 신호 인코더의 문제 중 하나는 과도 현상(오디오 신호의 과도 현상)으로 작업하는 것입니다. 투명한 코딩을 보장하려면 양자화 노이즈가 시간에 따라 달라지는 마스킹 임계값 아래에 있도록 해야 합니다. 그러나 실제로 이 요구 사항은 거의 과도 상태를 충족하기 어렵습니다. 인코딩 과정에서 발생하는 양자화 잡음은 MDCT 윈도우의 전체 길이에 걸쳐 디코딩 과정에서 시간적으로 확산된다. 이는 시간 마스킹 임계값에 대해 양자화 노이즈의 상당한 초과를 초래할 수 있습니다.

AAC 표준의 TNS(시간적 잡음 형성) 기술을 사용하면 각 MDCT 창 내에서 시간 양자화 잡음의 전파를 제어할 수 있습니다. TNS 기술은 신호의 진폭 포락선과 스펙트럼 포락선의 유사성(시간-주파수 이원론)과 스펙트럼을 양자화할 때 주파수에서 선형 예측(LPC)을 사용하는 것을 기반으로 합니다.

스펙트럼이 흰색과 매우 다른 신호(예: 톤)의 경우 시간 영역에서 선형 예측(LPC)을 사용하면 스펙트럼을 효과적으로 "백색"하고 분해하여 이러한 신호를 인코딩할 수 있습니다. 그것들을 예측 계수와 상대적으로 작은 진폭 예측 오차(잔차)로 변환합니다. 디코딩 시 선형 예측 필터는 원래 신호의 스펙트럼에 따라 오류 스펙트럼을 생성합니다.

AAC 인코더에서 선형 예측은 주파수 영역에서 스펙트럼 샘플을 예측하는 반대 방식으로 사용됩니다. 원래 MDCT 계수와 예측된 MDCT 계수 간의 차이는 은닉 임계값에 따라 양자화됩니다(기존 인코더에서는 원래 MDCT 계수가 양자화됨). 선형 예측 계수도 출력 파일에 기록됩니다. 신호를 디코딩할 때 주파수 영역(양자화 오차 포함)의 차 신호에 적용된 선형 예측 필터는 시간 영역에서 원래 신호(및 양자화 오차)의 진폭 포락선을 생성합니다. 따라서 양자화 오류의 진폭 포락선은 원래 신호의 진폭 포락선에 가까워집니다(그림 2).

TNS 기술은 일부 펄스 고조파 신호(연설, 일부 관악기 및 현악기)에서 프리 에코의 영향과 양자화 오류의 가시성을 줄입니다. 무화과에. 도 2는 AAC 및 MP3 알고리즘에 의해 음성 신호에 도입된 양자화 오류를 동일한 비트 전송률로 비교합니다. 양자화 오류의 일반적인 감소(AAC의 더 큰 효율성으로 인해)와 함께 시간에 따른 양자화 오류의 진폭 포락선 형성이 원래 신호의 포락선에 따라 관찰됩니다.

AAC 표준에서 TNS 기술은 스펙트럼의 개별 주파수 대역에 독립적으로 적용하거나 완전히 끌 수 있습니다.

SBR 기술 - 고음 복원

넓은 주파수 범위의 안정적인 전송은 고품질 코딩을 위한 중요한 요구 사항입니다. 그러나 오디오 범위의 각 다음 옥타브 전송은 기존 오디오 인코더의 비트 전송률 요구 사항을 1.5배에서 2배까지 증가시킵니다. 비트레이트를 줄이는 동시에 인코딩된 자료의 고주파수를 보존하기 위해 고주파수 SBR(스펙트럼 대역 복제)을 인공적으로 합성하는 기술이 만들어졌습니다.

이 기술은 우리의 청력이 중저음보다 낮은 정확도로 고주파를 분석한다는 사실에 기반합니다. 고주파의 존재 효과를 생성하기 위해 파형을 수학적으로 정확하게 재구성할 필요는 없지만 고주파에서 일부 중요한 심리 음향 신호 매개변수를 복원하는 것으로 충분합니다. 이러한 필수 매개변수에는 신호 에너지의 시간-주파수 분포(엔벨로프) 및 톤/노이즈 정도가 포함됩니다.

알고리즘의 아이디어는 이것이다. 인코딩할 때 원래 오디오 신호의 고주파수 분석이 수행되고 해당 매개변수가 추출됩니다. 우선 여러(보통 8개) 주파수 대역의 진폭 엔벨로프입니다. 또한 높은 주파수는 레코드에서 제거되고 나머지 저주파 및 중간 주파수만 인코딩됩니다. 이 경우 손실된 고주파수 매개변수에 대한 비교적 작은 정보 스트림도 출력 파일에 추가됩니다.

재생하는 동안 저음 및 중간 주파수가 먼저 디코딩됩니다. 또한(플레이어에 있는 경우) SBR 디코더가 작동하기 시작합니다. 첫 번째 단계는 사용 가능한 중간 주파수를 전치(보다 정확하게는 주파수 편이)하여 고주파수 신호를 합성하는 것입니다. 중간 및 고주파에서 스펙트럼의 음조/잡음 정도가 거의 같기 때문에 이 단계의 결과로 그럴듯한 스펙트럼 구조를 갖는 고주파 신호가 얻어진다. 두 번째 단계에서 SBR 디코더는 고주파수에 대해 저장된 추가 정보를 사용하여 각 주파수 대역에서 원하는 진폭 엔벨로프를 제공합니다. 결과는 원래의 높은 주파수의 사운드를 유지하면서 중간에서 완전히 합성된 높은 주파수의 신호입니다.

SBR 기술은 기존의 많은 오디오 코딩 방법에 추가될 수 있습니다. 예를 들어, MP3와 결합된 SBR을 MP3 PRO라고 하고, AAC와 결합된 SBR을 HE-AAC(고효율 AAC)라고 합니다. 기본적으로 SBR은 64kbps 이하의 비교적 낮은 비트율로 인코딩하는 데 사용됩니다. 이 기술을 사용하면 비트 전송률(수 kbps)을 최소한으로 증가시키면서 오디오 신호의 주파수 범위를 크게 확장할 수 있습니다.

파라메트릭 스테레오 기술

스테레오 신호 전송에는 일반적으로 모노 신호 전송보다 인코더에서 거의 2배 더 많은 비트 전송률이 필요합니다. 동시에, 스테레오 채널은 M/S 변환 후에 독립적으로 인코딩될 수 있습니다. 후자의 경우, S-채널은 종종 M-채널보다 더 적은 비트 전송률을 소비합니다. 이 인코딩 모드를 조인트 스테레오라고도 합니다. AAC 표준에서 이 모드는 각 주파수 대역에 대해 인코더에 의해 독립적으로 켜고 끌 수 있습니다.

매우 낮은 비트레이트(16...32 kbit/s)에서 스테레오 신호를 보다 효율적으로 코딩하기 위해 파라메트릭 스테레오 코딩(파라메트릭 스테레오) 기술이 개발되었습니다. 인코딩하기 전에 스테레오 신호가 모노로 축소되지만 원본 스테레오 파일의 스테레오 파노라마에 대한 정보가 포함된 작은 스트림(2 ... 3kbit/s)이 출력 파일에 추가된다는 사실에 있습니다. 이 스트림은 시간-주파수 평면에 대한 일종의 "파노라마 맵"을 (압축된 형태로) 포함합니다.

디코딩 단계에서는 수신된 모노 신호에 주파수 종속 패닝이 적용됩니다. 이것은 초기에 왼쪽 및 오른쪽 채널의 동일한 MDCT 계수에 적절한 진폭 계수를 적용하여 디코딩과 동시에 수행할 수 있습니다.

파라메트릭 스테레오 기술은 모노 인코딩에 비해 비트 전송률이 약간만 증가하면 원래 스테레오 사운드에 대한 좋은 인상을 줍니다. 그러나 스테레오 채널 간의 위상 변화와 같은 스테레오 파노라마의 모든 뉘앙스를 고려할 수 없기 때문에 완전히 투명한 사운드를 얻을 수 없습니다.

파라메트릭 스테레오 기술은 HE-AAC v2 표준에 포함되었습니다.

PNS 기술 - 노이즈 생성

잡음 신호 코딩의 효율성을 더욱 높이기 위해 AAC 표준은 잡음 합성을 위한 PNS(지각 잡음 대체) 기술을 제공합니다. 우리의 귀는 위상 스펙트럼보다 신호의 진폭 스펙트럼에 더 민감한 것으로 알려져 있습니다. 따라서 잡음 영역에서 원래 신호의 MDCT 계수를 인코딩하는 대신 잡음 매개변수만 전송할 수 있습니다. 즉, 주파수와 시간의 함수로서의 전력입니다.

이것이 PNS 기술이 작동하는 방식입니다. 코딩하는 동안 노이즈인 스펙트럼 영역이 식별되고 해당 MDCT 계수 그룹은 코딩 프로세스에서 제외됩니다. 주파수 대역은 잡음이 있는 것으로 표시되고 총 잡음 에너지가 저장됩니다.

디코딩하는 동안 필요한 총 전력이 있는 의사 랜덤 MDCT 계수가 노이즈로 표시된 주파수 대역으로 대체됩니다. 그 결과, 지정된 주파수 범위에서 원래의 노이즈에 가까운 소리로 노이즈가 합성됩니다.

장기 예측 기술 - 시간 예측

심리음향 톤 코딩은 잡음 코딩보다 더 높은 국부 신호 대 잡음비(예: 각각 20dB 및 6dB)를 요구합니다. 그리고 이것은 차례로 증가된 비트 전송률을 필요로 합니다. 그러나 MDCT 톤 계수는 시간이 지남에 따라 예측할 수 있습니다. 이 상황에서 우리는 비트 전송률을 줄이기 위해 시간 의존성을 이용할 수 있습니다.

AAC 표준은 선형 예측을 사용하여 MDCT 계수를 시간에 추가로 코딩하는 장기 예측 모드를 제공합니다. "장기"라는 용어는 예측이 인접 샘플에 의해 수행되는 것이 아니라 주어진 주파수에서 가장 가능성 있는 톤 주기로 분리된 샘플에 의해 수행됨을 의미합니다.

MDCT 계수의 양자화 및 압축

MP3 표준과 유사하게 AAC는 MDCT 계수의 비선형 양자화 및 Huffman 방법에 의한 압축을 사용합니다. MDCT 계수는 0.75의 지수화 후 양자화되어 각 주파수 대역 내에서 강한 신호에 대한 양자화 오차를 증가시키고 약한 신호에 대해 감소시킬 수 있습니다. 따라서 노이즈 스펙트럼의 추가 암시적 형성이 수행됩니다.

양자화 후 MDCT 계수는 고정된 허프만 테이블 세트를 사용하여 압축됩니다. AAC 표준에는 MP3보다 이러한 테이블이 더 많고 계수를 그룹화할 수 있는 기회가 더 많습니다. 이로 인해 압축이 추가로 증가합니다.

소리 품질

오디오 인코더의 음질을 평가할 때 일반적으로 주관적인 테스트가 사용됩니다. 청취자에게는 서로 다른 인코더로 압축된 녹음 조각이 표시되며 각 조각의 사운드 순도를 1에서 5까지의 척도로 평가합니다. 최고의 코덱은 경쟁업체보다 높은 음질을 얻을 수 있는 코덱입니다. 주어진 비트레이트.

그러한 테스트의 결과가 제공되는 상당히 권위 있는 인터넷 소스는 http://www.rjamorim.com/test/ 사이트입니다. 다양한 비트 전송률에서 다양한 코덱의 테스트를 제공합니다. 이러한 결과는 일반적으로 다른 출처와 잘 일치합니다. 다음은 품질을 비교하는 데 도움이 되는 MP3 및 AAC 인코더에 대한 몇 가지 결과입니다.

최고의 MP3 인코더는 무료 Lame입니다. 그러나 대부분의 비트 전송률에서는 최신 압축 표준에 비해 품질이 떨어집니다. 높은 비트 전송률(128kbps 이상)에서 이 지연은 작고 Ogg Vorbis 인코더가 선두입니다.

64kbps에서 AAC의 이점은 이미 눈에 띕니다. HE-AAC 변형에서 알고리즘은 3.68점을 얻습니다. 이것은 대략 96kbps의 비트 전송률을 가진 Lame에 해당하며 MP3에 비해 AAC의 이점이 약 1.5배임을 의미합니다. 128kbps에서 Lame 점수는 4.29입니다.

32kbps의 비트 전송률에서 Nero의 AAC 인코더는 MP3에 비해 품질 면에서 각각 3.23 및 1.72점을 얻었습니다. 그러나 AAC는 3.08점을 받은 MP3PRO 형식보다 약간 앞서 있습니다. 이는 SBR 기술이 낮은 비트 전송률에서 품질을 크게 향상시킨다는 것을 나타냅니다.

결론

AAC 표준에 적용된 새로운 기술 덕분에 이 형식은 MPEG-1 Layer 3(MP3)보다 눈에 띄는 이점이 있어 동일한 비트 전송률에서 더 나은 음질을 얻을 수 있습니다. 96kbps 이하의 낮은 비트 전송률 영역에서 특히 강한 이득이 관찰됩니다. 이것은 디지털 방송을 위한 AAC 형식의 약속을 확인합니다.

오늘날 인터넷에서 음악 배포를 위한 AAC의 인기는 MP3 형식에 비해 낮은 수준입니다. 사용자는 계속해서 강력한 AAC 압축보다 MP3의 더 나은 휴대성을 선호합니다. 음악 배포 사이트에 있는 음악 아카이브의 상당 부분은 이미 기본적으로 MP3 형식이며 공급자는 압축되지 않은 녹음에 액세스할 수 없습니다. 즉, 이러한 녹음을 AAC 형식으로 레코딩하는 것은 의미가 없습니다. 품질이 이미 손실되는 경우가 많습니다. 그러나 새로운 포켓 플레이어와 일부 온라인 상점은 종종 콘텐츠 적법성 검증과 함께 이미 AAC 형식을 지원합니다.

매우 유망하지만 AAC 형식이 유일한 최고 품질의 오디오 압축 형식은 아닙니다. 높은 비트 전송률(128kbps 이상)에서 AAC는 종종 Ogg Vorbis 및 Musepack 인코더보다 열등합니다. 가장 낮은 비트 전송률(32kbps 미만)에서 AAC는 음성 압축을 위한 특수 인코더를 포함하여 매개변수 오디오 인코더보다 열등할 수 있습니다. 그러나 중간-낮은 비트 전송률 범위에서 AAC는 현재 손바닥을 유지합니다.

알렉세이 루킨
매거진 "사운드엔지니어" 2008 #1

공유하다
Copyright 2022. shonggames.com. 기계적 인조 인간. 운영 체제. 멀티미디어. 소셜 네트워크. 도구. 코덱. 제도법. 판권 소유.
파일 확장자 .aac
파일 카테고리
샘플 파일 (1.2MiB)
관련 프로그램 윈도우 미디어 플레이어
아이튠즈
KMPlayer
리얼플레이어
VideoLAN VLC 미디어 플레이어