스펙스

Speex
스펙스
Speex logo 2006.svg
파일 이름 확장명
.spx
인터넷 미디어 유형
오디오/x 스피커, 오디오/스피드, 오디오/오디오
개발자시프.오르크 재단, 장마르크 발린
형식 유형로시 오디오의
포함자오그
표준RFC 5574
오픈 포맷?[1]
웹사이트www.speex.org
립스펙스
개발자시프.오르크 재단, 장마르크 발린[2]
초기 릴리즈1.0 / 2003년 3월
안정적 해제
1.2.0[3] / 2016년 12월 7일; 5년(2016-12-07)
운영 체제크로스 플랫폼
유형오디오 코덱, 참조 구현
면허증BSD 형식 라이센스[4][5]
웹사이트Xiph.org 다운로드

Speex는 인간 스피치의 재현을 위해 특별히 튜닝된 오디오 압축 코덱과 VoIP 애플리케이션과 팟캐스트에서 사용될 수 있는 무료 소프트웨어 음성 코덱이다.[6]그것은 CELP 음성 코딩 알고리즘을 기반으로 한다.[7]Speex는 어떠한 특허 제한도 없다고 주장하며 개정된 (3-clause) BSD 라이선스에 따라 라이선스를 받는다.Ogg 컨테이너 형식과 함께 사용하거나 UDP/RTP를 통해 직접 전송할 수 있다.또한 FLV 컨테이너 형식과 함께 사용할 수 있다.[8]

Spex 설계자들은 그들의 프로젝트를 Vorbis 범용 오디오 압축 프로젝트를 보완하는 것으로 본다.

Speex는 파일 크기를 줄이기 위해 영구적으로 품질이 저하되는 손실 형식이다.

Spex 프로젝트는 2002년 2월 13일에 만들어졌다.[9]Speex의 첫 번째 개발 버전은 LGPL 라이선스에 따라 출시되었지만 버전 1.0 베타 1을 기준으로 Speex는 Xiph의 (개정) BSD 라이선스 버전에 따라 출시된다.[10]Speex 1.0은 1년간의 개발 끝에 2003년 3월 24일에 발표되었다.[11]Speex 인코더와 디코더의 마지막 안정 버전은 1.2.0이다.[3]

이제 Xiph.Org는 Speex를 쓸모없다고 생각한다; 그 후계자는 마이크로소프트의 라이센스에 따라 실크 포맷을 사용하고 가장 낮은 샘플링 속도를 제외한 대부분의 영역에서 그것의 성능을 능가하는 보다 현대적인 Opus 코덱이다.[12]

설명

Speex는 VoIP(Voice over IP)와 파일 기반 압축을 목표로 한다.설계 목표는 고품질 음성 및 낮은 비트 전송률에 최적화된 코덱을 만드는 것이었습니다.이를 위해 코덱은 다중 비트 전송률을 사용하며, 초광대역(32kHz 샘플링 속도), 광대역(16kHz 샘플링 속도), 협대역(전화 품질, 8kHz 샘플링 속도)을 지원한다.Speex는 휴대폰 사용 대신 VoIP용으로 설계되었기 때문에 코덱은 손실된 패킷에는 강력해야 하지만 손상된 패킷에는 강력하지 않아야 한다.이 모든 것이 Speex에 사용할 인코딩 기법으로서 CELP(code enjusted linear expecting)를 선택하게 되었다.[7]주요 이유 중 하나는 CELP가 이 작업을 수행하고 낮은 비트 전송률(DoD CELP @ 4.8 kbit/s)과 높은 비트 전송률(G.728 @ 16 kbit/s)에 모두 잘 확장할 수 있다는 것을 오랫동안 입증했기 때문이다.주요 특성은 다음과 같이 요약할 수 있다.

특징들

샘플링 속도
스피엑스는 주로 8kHz(전화를 송신하는 것과 동일한 샘플링 속도), 16kHz, 32kHz의 세 가지 샘플링 속도를 위해 설계된다.이를 각각 협대역, 광대역, 초광대역이라고 한다.
품질
Speex 인코딩은 대부분 0~10 범위의 품질 파라미터에 의해 제어된다.일정한 비트 전송률(CBR) 작동에서 품질 파라미터는 정수인 반면 가변 비트 전송률(VBR)의 경우 파라미터는 실제(부동점) 번호로 한다.
복잡성(변수)
Speex를 사용하면 인코더에 허용되는 복잡성을 변화시킬 수 있다.이 작업은 gzip 압축 유틸리티에 -1 ~ -9 옵션과 유사한 방식으로 1 ~ 10 범위의 정수로 검색이 수행되는 방법을 제어함으로써 수행된다.정상적인 사용의 경우 복잡도 1의 소음 수준은 복잡도 10의 경우보다 1 ~ 2dB 높지만 복잡도 10의 CPU 요구 사항은 복잡도 1의 경우보다 약 5배 높다.실제로 가장 좋은 절충은 복잡성 2와 4사이에 있다.[13] 단, DTMF 톤과 같이 비 스피치 사운드를 인코딩하거나 인코딩이 실시간이 아닌 경우 더 높은 설정이 유용할 수 있다.
가변 비트 전송률(VBR)
가변 비트 전송률(VBR)은 코덱이 인코딩되는 오디오의 "어려움"에 적응하기 위해 비트 전송률을 동적으로 변경할 수 있도록 한다.Speex의 예에서 모음과 고에너지 과도현상과 같은 소리는 좋은 품질을 얻기 위해 더 높은 비트 전송률을 요구하는 반면, 프릭제(예: s와 f 소리)는 더 적은 비트로 적절하게 코딩될 수 있다.이러한 이유로 VBR은 동일한 품질에 대해 더 낮은 비트 전송률을 달성하거나 특정 비트 전송률에 대해 더 나은 품질을 달성할 수 있다.VBR의 장점에도 불구하고, VBR은 세 가지 주요 단점을 가지고 있다: 첫째, 품질을 명시함으로써 최종 평균 비트 전송률에 대한 보장이 없다.둘째, VoIP(Voice over IP)와 같은 일부 실시간 애플리케이션의 경우, 중요한 것은 통신 채널에 충분히 낮아야 할 최대 비트 전송률이다.셋째, VBR로 인코딩된 스피치의 암호화는 비트 전송률의 변화 패턴을 분석하여 최소한 작은 사전의 통제된 환경에서 구문을 여전히 식별할 수 있기 때문에 완전한 프라이버시를 보장하지 못할 수 있다.[14]
평균 비트 전송률(ABR)
평균 비트 전송률은 특정 목표 비트 전송률을 충족하기 위해 VBR 품질을 동적으로 조정하기 때문에 VBR의 문제점 중 하나를 해결한다.퀄리티/비트 레이트가 실시간(오픈 루프)으로 조정되기 때문에 목표 평균 비트 레이트를 만족시키기 위해 정확하게 퀄리티 설정을 가진 VBR로 인코딩하여 얻은 것보다 글로벌 품질이 약간 낮을 것이다.
음성 활동 감지(VAD)
활성화된 경우 음성 활동 감지 기능은 인코딩되는 오디오가 음성인지 또는 음소거/백그라운드 노이즈인지 여부를 감지한다.VBR에서 인코딩할 때 VAD가 항상 암시적으로 활성화되므로 이 옵션은 비 VBR 작업에서만 유용하다.이 경우 스피엑스는 비음성 기간을 감지해 배경 노이즈를 재현할 수 있을 정도의 비트만으로 인코딩한다.이를 "편안한 소음 발생"(CNG)이라고 한다.마지막 VAD 버전은 1.1.12로 정상 작동하며, v 1.2 이후 간단한 Any Activity Detection으로 대체되었다.
불연속 변속기(DTX)
불연속 전송은 VAD/VBR 작동에 추가된 것으로, 배경 노이즈가 정지해 있을 때 전송을 완전히 중단시킬 수 있다.파일에서는 누락된 각 프레임에 대해 5비트가 사용된다(250비트/s에 대응함).
지각 향상
지각 증강은 디코더의 일부로서, 켰을 때 코딩/디코딩 과정에서 발생하는 소음을 (인식) 줄이려고 한다.대부분의 경우 지각력 향상은 소리를 객관적으로 원음(신호 대 잡음 비율)에서 멀어지게 하지만, 결국 여전히 더 좋게 들린다(주체적 개선).
알고리즘 지연
모든 코덱은 전송 지연을 초래한다.Speex의 경우, 이러한 지연은 프레임 크기와 동일하며, 각 프레임을 처리하는 데 필요한 어느 정도의 "모양-아헤드"가 필요하다.협대역 작동(8kHz)에서 지연은 30ms인 반면 광대역(16kHz)의 경우 지연은 34ms이다.이러한 값은 프레임을 인코딩하거나 디코딩하는 데 걸리는 CPU 시간을 고려하지 않는다.

적용들

음성 코덱 비교

Speex 코덱을 지원하는 많은 어플리케이션들이 있다.예를 들면 다음과 같다.

대부분 DirectShow 필터 또는 Open을 기반으로 함마이크로소프트 윈도우즈의 ACM 코덱(예: 마이크로소프트 NetMeeting) 또는 리눅스(예: Ekiga)의 Xiph.org의 참조 구현인 libvorbis.또한 많은 오디오 플레이어를 위한 플러그인도 있다.자세한 내용은 speex.org 사이트의 플러그인 및 소프트웨어 페이지를 참조하십시오.[16]

Speex의 미디어 유형은 Ogg가 포함하는 동안 오디오/옥스이며, RTP를 통해 운송되거나 컨테이너가 없는 경우 오디오/스피어(이전의 오디오/x-스피어)이다.

제너럴 다이내믹스가 설계한 미 육군랜드워리어 시스템도 레이시온이 설계한 EPLRS 라디오에서 Speex for VoIP를 사용한다.

이어 바이블은[17] 1GB의 플래시 메모리를 가진 스피렉스 플레이어가 내장된 싱글 이어 헤드폰으로,[18] 아메리칸 스탠더드 바이블의 레코딩이 미리 탑재되어 있다.

ASL Safety & Security의 Linux[19] 기반 VIPA OS 소프트웨어는[20] 주요 국제 항공 운송 허브와 철도 네트워크의 롱 라인 공공 주소 시스템과 음성 경보 시스템에 사용된다.

록박스 프로젝트는 Speex를 음성 인터페이스로 사용한다.그것은 또한 애플 아이팟이나 아이리버 H10과 같이 지원되는 플레이어에서 스피렉스 파일을 재생할 수 있다.

버니어 랩퀘스트[21] 과학 교육용 휴대용 데이터 수집 장치는 학생과 교사가 내장 마이크나 외부 마이크를 사용하여 만든 음성 주석을 위해 Speex를 사용한다.

아이폰용 구글 모바일 앱에는 현재 스피엑스가 통합돼 있다.[22]새로운 구글 음성검색 아이폰 앱이 구글 서버에 음성을 전송해 해석하는 데 Speex를 이용하고 있다는 제안도 나왔다.[23]

Adobe Flash Player는 2008년 10월에 출시된 Flash Player 10.0.12.36을 시작으로 Spex를 지원한다.[24]Flash Player의 일부 버그 때문에 Speex 지원을 위한 첫 번째 권장 버전은 10.0.22.87 이상이다.Flash Player의 Speex는 Flash Media Server 또는 P2P를 통해 두 가지 종류의 통신에 모두 사용할 수 있다.스피엑스는 이전 버전의 플래시 플레이어에서 유일한 음성 포맷이었던 넬리모저 오디오와 달리 디코딩하거나 어떤 형식으로든 변환할 수 있다.[25][26]Spex는 비디오 파일 형식 사양 버전 10(2008년 11월 발행)부터 플래시 비디오 컨테이너 형식(.flv)으로도 사용할 수 있다.[27]

JavaSonics ListenUp[28] 음성 녹음기는 Speex를 사용하여 브라우저에 녹음된 다음 웹 서버에 업로드되는 음성 메시지를 압축한다.주요 애플리케이션은 언어 훈련, 전사 및 소셜 네트워킹이다.

Speex는 아이폰4SSiri 음성 지원에서 음성 압축 알고리즘으로 사용된다.[29]문자 대 음성(text-to-speech)은 애플의 서버에서 발생하기 때문에 네트워크 대역폭을 최소화하기 위해 Speex 코덱을 사용한다.

참고 항목

원천

본 기사는 Speex Codec Manual의 자료를 사용하며, 이 자료는 Jean-Marc Valin의 저작권이며 GFDL의 조항에 따라 허가되었다.

참조

  1. ^ "PlayOgg! - FSF - Free Software Foundation". 2010-03-17. Retrieved 2013-10-01.
  2. ^ Jean-Marc Valin (2009). "people.xiph.org - personal webspace of the xiphs - Jean-Marc Valin". Xiph.Org. Retrieved 2009-09-11.
  3. ^ a b "Speex News". Xiph.Org Foundation. Retrieved 2017-04-11.
  4. ^ "The Speex Codec Manual - Speex License". Xiph.Org Foundation. Retrieved 2009-09-01.
  5. ^ "Sample Xiph.Org Variant of the BSD License". Xiph.Org Foundation. Retrieved 2009-08-29.
  6. ^ Xiph.Org Speex: 무료 음성 코덱, 2009-09-01 검색
  7. ^ a b 2009-09-01 검색된 CELP 코딩에 대한 Xiph.Org 소개
  8. ^ Adobe FLV 형식 사양, 2016-04-18 검색
  9. ^ Xiph.org Spex 릴리즈 - 1.0 이전 버전 - NEWS ChangeLog in Spex-0.0.1.tar.gz, Retried 2009-09-01
  10. ^ Xiph.Org Speex FAQ Speex는 어떤 라이센스에 따라 출시되었는가?, 2009-09-01 검색됨
  11. ^ Siph.Org(2003-03-24) Speex는 1.0; Xiph에 이른다.현재 501(c)(3) 비영리 단체, 2009-09-01 검색
  12. ^ [1] Speex 홈페이지, 2017-04-11 검색
  13. ^ 코덱 설명
  14. ^ 할 수 있다면 날 찾아봐:암호화된 VoIP 대화에서 구문 검색(Charles V)라이트 루카스 발라드 스콧 E쿨 파비안 몬로즈 제럴드 M.마손)
  15. ^ Theora 코덱 유지관리자인 Ralph Giles가 LugRadio 에피소드 29에 발표한 내용
  16. ^ "A free codec for free speech". Speex. Retrieved 2012-12-29.
  17. ^ Lascelles, LLC. "The worlds most convenient Audio Bible". Ear Bible. Retrieved 2012-12-29.
  18. ^ Lascelles, LLC. "Support". Ear Bible. Retrieved 2012-12-29.
  19. ^ "PA/VA, PSIM Software and Station Management Systems > ASL Safety & Security". Asl-control.co.uk. Retrieved 2012-12-29.
  20. ^ IPAM 400: IP 기반 지능형 공용 주소 앰프 - 사용 설명서
  21. ^ "LabQuest 2 > Vernier Software & Technology". Vernier.com. 2012-05-23. Retrieved 2012-12-29.
  22. ^ "Legal Notices". Google Inc. Retrieved 2014-12-05.
  23. ^ 아이폰에서 구글 모바일 음성 검색 해체
  24. ^ Adobe(2008) Flash Player 10 데이터시트, 2009-09-01 검색
  25. ^ AskMeFlash.com (2009-05-10) Speex for Flash, 2009-08-12에 검색됨
  26. ^ AskMeFlash.com (2009-05-10) Speex vs Nellymoser 2009-04-15 Wayback Machine에 보관, 2009-08-12에 검색
  27. ^ Adobe Systems Incorporated (November 2008). "Video File Format Specification, Version 10" (PDF). Adobe Systems Incorporated. Archived from the original (PDF) on 2010-09-23. Retrieved 2014-12-05. {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)
  28. ^ Phil Burk. "JavaSonics ListenUp voice recording Applet for Java that uploads messages to a web server". Javasonics.com. Retrieved 2012-12-29.
  29. ^ "Applidium — News". Applidium.com. Archived from the original on 2011-11-16. Retrieved 2012-12-29.

외부 링크