프로그래밍/AI

머신 러닝을 사용한 오디오 분석방법

에이티에스 2024. 10. 7. 09:17
728x90

음향 신호는 현대 기술을 사용하여 분석하면 훨씬 더 많은 것을 알려줄 수 있습니다. 말, 목소리, 코골이, 음악, 산업 및 교통 소음, 기타 유형의 음향 신호에서 인간이 들을 수 없는 통찰력을 추출하는 AI와 머신 러닝을 가지고 있습니다. 


오디오 데이터를 얻고, 분석을 위해 준비하고, 최고의 예측 정확도를 달성하기 위해 올바른 ML 모델을 선택하는 방법에 대해 알아보도록 하겠습니다. 

 

 

 

1. 오디오 분석이란?

오디오 분석은 디지털 장치에서 녹음한 오디오 신호를 변환, 탐색 및 해석하는 프로세스입니다. 건전한 데이터를 이해하는 것을 목표로 최첨단 딥 러닝 알고리즘을 포함한 다양한 기술을 적용합니다. 오디오 분석은 이미 엔터테인먼트에서 의료, 제조에 이르기까지 다양한 산업 분야에서 널리 채택되고 있습니다. 아래에서는 가장 인기 있는 사용 사례를 제공합니다.

 

스피치 인식은 컴퓨터가 자연어 처리 기술로 구어를 구별하는 능력에 관한 것입니다. 음성 명령을 통해 PC, 스마트폰 및 기타 장치를 제어하고 수동 입력 대신 기계에 텍스트를 지시할 수 있습니다. Apple의 Siri, Amazon의 Alexa, Google Assistant 및 Microsoft의 Cortana는 기술이 일상 생활 사용되는 예입니다.

 

목소리 인식은 별도의 단어를 분리하는 것이 아니라 음성의 고유한 특성으로 사람을 식별하기 위한 것입니다. 이 접근 방식은 사용자 인증을 위해 보안 시스템에서 응용 프로그램을 찾습니다. 예를 들어, Nuance Gatekeeper 생체 인식 엔진은 은행 부문에서 직원과 고객의 목소리를 통해 직원과 고객을 확인합니다.

 

음악 인식은 짧은 샘플에서 알 수 없는 노래를 식별하는 데 도움이 되는 Shazam과 같은 앱의 인기 있는 기능입니다. 음악 오디오 분석의 또 다른 응용 분야는 장르 분류입니다 : 예를 들어, Spotify는 독점 알고리즘을 실행하여 트랙을 범주로 그룹화합니다 (데이터베이스에는 5,000 개 이상의 장르가 있습니다)

 

환경 소리 인식은 주변의 소음을 식별하는 데 중점을 두어 자동차 및 제조 산업에 많은 이점을 약속합니다. IoT 애플리케이션에서 주변 환경을 이해하는 데 매우 중요합니다.

Audio Analytic과 같은 시스템은 차량 내부 및 외부의 이벤트를 '수신'하여 운전자의 안전을 높이기 위해 차량을 조정할 수 있도록 합니다. 또 다른 예로, 기계 소음을 분석하고 예측 유지보수를 용이하게 하여 장비 상태를 모니터링하고 비용이 많이 드는 고장을 방지할 수 있는 Bosch의 SoundSee 기술이 있습니다.

의료 분야는 환경 소리 인식이 유용한 또 다른 분야입니다. 낙상과 같은 이벤트를 감지하기 위해 비침습적 유형의 원격 환자 모니터링을 제공합니다. 그 외에도 기침, 재채기, 코골이 및 기타 소리에 대한 분석을 통해 사전 검사, 환자 상태 식별, 공공 장소에서의 감염 수준 평가 등을 용이하게 할 수 있습니다.

 

 

 

반응형

 

 

2. 오디오 데이터

오디오 데이터는 아날로그 사운드를 디지털 형식으로 표현하여 원본의 주요 속성을 보존합니다. 물리학 수업에서 알 수 있듯이 소리는 공기나 물과 같은 매체를 통해 이동하여 최종적으로 귀에 도달하는 진동의 파동입니다. 오디오 데이터를 분석할 때 고려해야 할 세 가지 주요 특성인 기간, 진폭 및 주파수가 있습니다.

주기는 특정 소리가 얼마나 오래 지속되는지, 즉 한 번의 진동 주기를 완료하는 데 몇 초가 걸리는지를 나타냅니다.

진폭은 우리가 음량으로 인식하는 데시벨(dB)로 측정된 소리 강도입니다.

헤르츠(Hz)로 측정된 주파수는 초당 얼마나 많은 소리 진동이 발생하는지를 나타냅니다. 사람들은 주파수를 낮거나 높은 피치로 해석합니다.

주파수는 객관적인 매개변수이지만 피치는 주관적입니다. 인간의 청력 범위는 20Hz에서 20,000Hz 사이입니다. 과학자들은 대부분의 사람들이 비행기 엔진 굉음과 같은 500Hz 미만의 모든 소리를 저음으로 인식한다고 주장합니다. 차례로 우리에게 고음은 2,000Hz 이상의 모든 것(예: 휘파람)입니다.

 

1) 오디오 데이터 파일 형식

텍스트 및 이미지와 마찬가지로 오디오는 비정형 데이터이므로 연결된 행과 열이 있는 표로 정렬되지 않습니다. 대신 다음과 같은 다양한 파일 형식으로 오디오를 저장할 수 있습니다

  • WAV 또는 WAVE(파형 오디오 파일 형식)는 Microsoft와 IBM에서 개발했습니다. 무손실 또는 원시 파일 형식이므로 원본 사운드 녹음을 압축하지 않습니다.
  • Apple에서 개발한 AIFF(Audio Interchange File Format). WAV와 마찬가지로 압축되지 않은 오디오에서 작동합니다.
  • 무료 멀티미디어 형식 및 소프트웨어 도구를 제공하는 Xiph.Org Foundation에서 개발한 FLAC(Free Lossless Audio Codec). FLAC 파일은 음질을 잃지 않고 압축됩니다.
  • MP3(MPEG-1 오디오 레이어 3)는 독일 프라운호퍼 소사이어티(Fraunhofer Society)에서 개발하여 전 세계적으로 지원됩니다. 휴대용 장치에 음악을 쉽게 저장하고 인터넷을 통해 주고받을 수 있기 때문에 가장 일반적인 파일 형식입니다. mp3는 오디오를 압축하지만 여전히 허용 가능한 음질을 제공합니다.

aiff 및 wav 파일은 아날로그 사운드에 있는 정보를 놓치지 않으므로 분석을 위해 사용하는 것이 좋습니다. 동시에 이러한 오디오 파일과 다른 오디오 파일 중 어느 것도 기계 학습 모델에 직접 공급될 수 없다는 점을 명심하십시오. 컴퓨터에서 오디오를 이해할 수 있도록 하려면 데이터를 변환해야 합니다.

 

2) 오디오 데이터 분석 변수

오디오 분석에는 청취가 아닌 이미지로 작업하는 것이 포함된다는 점은 알고 있어야 합니다. 

파형은 시간이 지남에 따라 진폭이 어떻게 변하는지를 반영하는 오디오 신호의 기본적인 시각적 표현입니다. 그래프는 가로(X) 축에 시간을 표시하고 세로(Y) 축에 진폭을 표시하지만 주파수에 무슨 일이 일어나는지는 알려주지 않습니다.

 

 

반응형

 

스펙트럼 또는 스펙트럼 플롯은 X축은 음파의 주파수를 나타내고 Y축은 음파의 진폭을 나타내는 그래프입니다. 이러한 유형의 사운드 데이터 시각화는 주파수 콘텐츠를 분석하는 데 도움이 되지만 시간 구성 요소를 놓치게 됩니다.

 

 

스펙트로그램은 소리의 세 가지 특성을 모두 포괄하는 신호의 상세한 보기입니다. x축에서는 시간을, y축에서는 주파수를, 색상에서는 진폭을 학습할 수 있습니다. 이벤트가 클수록 색상이 더 밝아지고 침묵은 검은색으로 표현됩니다. 하나의 그래프에 3차원이 있는 것은 매우 편리합니다:

 

시간이 지남에 따라 주파수가 어떻게 변하는지 추적하고, 소리를 완전히 검사하고, 다양한 문제 영역(예: 소음)과 패턴을 시각으로 찾아낼 수 있습니다.

 

 

반응형

 

멜이 멜로디를 의미하는 멜 스펙트로그램은 사람들이 소리 특성을 인식하는 방식을 설명하는 멜 스케일을 기반으로 하는 스펙트로그램 유형입니다. 귀는 고주파보다 저주파를 더 잘 구별할 수 있습니다. 500Hz에서 1000Hz까지, 그런 다음 10,000Hz에서 10,500Hz까지 톤을 재생해 보면 전자의 주파수 범위는 후자보다 훨씬 더 넓어 보이지만 실제로는 동일합니다. 멜 스펙트로그램은 인간 청력의 이러한 고유한 기능을 통합하여 헤르츠 단위의 값을 멜 스케일로 변환합니다. 이 접근 방식은 장르 분류, 노래의 악기 감지 및 음성 감정 인식에 널리 사용됩니다.

 

푸리에 변환(FT)은 신호를 진폭과 주파수가 다른 스파이크로 나누는 수학 함수입니다. 이를 사용하여 파형을 해당 스펙트럼 플롯으로 변환하여 다른 각도에서 동일한 신호를 보고 주파수 분석을 수행합니다. 신호를 이해하고 신호의 오류를 해결할 수 있는 강력한 도구입니다.

FFT(Fast Fourier Transform)는 푸리에 변환을 계산하는 알고리즘입니다.

 

 

단시간 푸리에 변환(STFT)은 파형을 스펙트로그램으로 변환하는 푸리에 변환의 시퀀스입니다.

 

 

반응형

 

3) 오디오 데이터 분석 단계

엔드 투 엔드 오디오 분석 프로젝트의 주요 단계를 살펴보겠습니다.

  1. 표준 파일 형식으로 저장된 프로젝트별 오디오 데이터를 가져올 수 있습니다.
  2. 소프트웨어 도구를 사용하여 기계 학습 프로젝트를 위한 데이터 준비합니다.
  3. 사운드 데이터의 시각적 표현에서 오디오 특징을 추출합니다.
  4. 기계 학습 모델을 선택하고 오디오 기능에 대해 학습시킵니다.

 

 

3. 음성 및 사운드 데이터 수집

기계 학습 모델을 훈련시키기 위한 데이터를 얻는 방법에는 무료 사운드 라이브러리 또는 오디오 데이터 세트를 사용하거나, 데이터 공급자로부터 구매하거나, 도메인 전문가를 통해 수집하는 세 가지 옵션이 있습니다.

 

1) 무료 데이터 원본

웹에는 그러한 소스가 많이 있습니다. 그러나 이 경우 통제할 수 없는 것은 데이터 품질과 양, 그리고 기록에 대한 일반적인 접근 방식입니다.

사운드 라이브러리는 테마별로 그룹화된 무료 오디오 조각입니다. Freesound  BigSoundBank와 같은 소스는 음성 녹음, 환경 소리, 소음 및 솔직히 모든 종류의 것들을 제공합니다. 예를 들어, 박수 소리의 사운드 스케이프와 스케이트 보드 소리가있는 세트를 찾을 수 있습니다.

가장 중요한 것은 사운드 라이브러리가 기계 학습 프로젝트를 위해 특별히 준비되어 있지 않다는 것입니다. 따라서 세트 완성, 라벨링 및 품질 관리에 대한 추가 작업을 수행해야 합니다.

반대로 오디오 데이터 세트는 특정 기계 학습 작업을 염두에 두고 생성됩니다. 예를 들어, Machine Listening Lab Bird Audio Detection 데이터 세트에는 생체 음향 모니터링 프로젝트 중에 수집된 7,000개 이상의 발췌문이 있습니다. 또 다른 예는 2,000개의 레이블이 지정된 오디오 녹음이 포함된 ESC-50: Environmental Sound Classification 데이터 세트입니다. 각 파일의 길이는 5초이며 5개의 범주로 구성된 50개의 의미론적 클래스 중 하나에 속합니다.

가장 큰 오디오 데이터 수집 중 하나는 Google의 AudioSet입니다. 여기에는 YouTube 동영상에서 추출한 200만 개 이상의 인간 라벨링 10초 사운드 클립이 포함되어 있습니다. 이 데이터 세트는 음악과 말에서 파편 및 칫솔 소리에 이르기까지 632개의 클래스를 다룹니다.

 

2) 상용 데이터 세트

기계 학습용 상용 오디오 세트는 무료 오디오 세트보다 데이터 무결성 측면에서 확실히 더 안정적입니다. 음성 인식, 환경 소리 분류, 오디오 소스 분리 및 기타 응용 프로그램을 위한 모델을 훈련하기 위해 데이터 세트를 판매하는 ProSoundEffects를 추천할 수 있습니다. 전체적으로 이 회사는 영화 사운드 전문가가 녹음한 357,000개의 파일을 보유하고 있으며 500+ 범주로 분류됩니다.

하지만 찾고 있는 사운드 데이터가 너무 구체적이거나 희귀하다면 어떻게 될까요? 녹음 및 레이블링을 완전히 제어해야 하는 경우 어떻게 해야 합니까? 글쎄, 그렇다면 기계 학습 프로젝트와 같은 업계의 신뢰할 수 있는 전문가와 협력하여 수행하는 것이 좋습니다.

 

3) 전문가 데이터 세트

Sleep.ai 와 함께 작업할 때 우리의 임무는 이갈이가 있는 사람들이 일반적으로 수면 중에 내는 갈리는 소리를 식별할 수 있는 모델을 만드는 것이었습니다. 분명 오픈 소스를 통해서가 아닌 특별한 데이터가 필요했습니다. 또한 신뢰할 수 있는 결과를 얻을 수 있도록 데이터 신뢰성과 품질이 최고여야 했습니다.

이러한 데이터 세트를 얻기 위해 이 스타트업은 과학자들이 사람들이 잠자는 동안 모니터링하여 건강한 수면 패턴을 정의하고 수면 장애를 진단하는 수면 연구소와 파트너십을 맺었습니다. 전문가들은 다양한 장치를 사용하여 뇌 활동, 움직임 및 기타 이벤트를 기록합니다. 우리를 위해 그들은 약 12,000개의 갈퀴 및 코고는 소리 샘플이 포함된 레이블이 지정된 데이터 세트를 준비했습니다.

 

 

반응형

 

4. 오디오 데이터 준비

Sleep.io 의 경우, 우리 팀은 이 단계를 건너뛰고 수면 전문가에게 프로젝트의 데이터 준비 작업을 맡겼습니다. 데이터 공급자로부터 주석이 달린 사운드 컬렉션을 구입하는 사람들도 마찬가지입니다. 그러나 원시 데이터, 즉 오디오 파일 형식 중 하나로 저장된 녹음만 있는 경우 기계 학습을 위해 준비해야 합니다.

1) 오디오 데이터 라벨링

데이터 레이블 지정 또는 주석은 지도 기계 학습을 실행하기 위해 정답으로 원시 데이터에 태그를 지정하는 것입니다. 학습 과정에서 모델은 새 데이터의 패턴을 인식하고 레이블을 기반으로 올바른 예측을 수행하는 방법을 학습합니다. 따라서 품질과 정확성은 ML 프로젝트의 성공에 매우 중요합니다.

라벨링은 소프트웨어 도구와 어느 정도의 자동화의 지원을 제안하지만, 대부분의 경우 여전히 전문 어노테이터 및/또는 도메인 전문가에 의해 수동으로 수행됩니다. 

 

2) 오디오 데이터 전처리

의미 있는 태그로 데이터를 보강하는 것 외에도 더 나은 예측 정확도를 달성하기 위해 사운드 데이터를 전처리해야 합니다. 다음은 음성 인식 및 소리 분류 프로젝트를 위한 가장 기본적인 단계입니다.

프레이밍(framing)은 추가적인 세그먼트 별 처리를 위해 연속적인 사운드 스트림을 동일한 길이(일반적으로 20-40ms)의 짧은 조각(프레임)으로 자르는 것을 의미합니다.

윈도잉(Windowing)은 주파수를 더럽히고 진폭 정확도를 저하시키는 일반적인 오류인 스펙트럼 누출을 최소화하기 위한 기본적인 오디오 처리 기술입니다. 다양한 유형의 신호에 적용되는 여러 윈도우 함수(Hamming, Hanning, Flat Top 등)가 있지만 Hanning 변형은 95%의 경우에 잘 작동합니다.

기본적으로 모든 창은 동일한 작업을 수행합니다 : 각 프레임의 시작과 끝에서 진폭을 줄이거나 매끄럽게 만들고 중앙에서 진폭을 늘려 평균 값을 유지합니다.

 

 

 


OLA(Overlap-add) 방법은 윈도우로 인해 발생할 수 있는 중요한 정보의 손실을 방지합니다. OLA는 인접한 프레임 간에 30-50%의 겹침을 제공하므로 왜곡의 위험 없이 수정할 수 있습니다. 이 경우 원래 신호는 창에서 정확하게 재구성 할 수 있습니다.

 

 

 

반응형

 

3) 특징 추출

오디오 특징 또는 디스크립터는 전처리된 오디오 데이터의 시각화에서 계산된 신호의 속성입니다. 다음 세 가지 도메인 중 하나에 속할 수 있습니다

  • 파형으로 표현되는 시간 영역
  • 스펙트럼 플롯으로 표현되는 주파수 영역
  • 스펙트로그램으로 표현되는 시간 및 주파수 영역

 

 

 

3-1)시간 영역 기능

앞서 언급했듯이 시간 도메인 또는 시간적 특징은 원래 파형에서 직접 추출됩니다. 파형에는 조각이 실제로 어떻게 들릴지에 대한 많은 정보가 포함되어 있지 않습니다. 시간에 따라 진폭이 어떻게 변하는지만 나타냅니다. 아래 이미지에서 공기 상태와 사이렌 파형이 비슷해 보이는 것을 볼 수 있지만 분명히 그 소리는 비슷하지 않을 것입니다.

 


진폭 엔벨로프(AE)는 프레임 내의 진폭 피크를 추적하고 시간이 지남에 따라 어떻게 변하는지 보여줍니다. AE를 사용하면 사운드의 특정 부분의 지속 시간을 자동으로 측정할 수 있습니다(아래 그림 참조). AE는 특정 신호가 시작될 때를 나타내기 위한 시작 감지와 음악 장르 분류에 널리 사용됩니다.

 

 

단시간 에너지(STE)는 짧은 음성 프레임 내의 에너지 변화를 보여줍니다.

유성음과 무성음 세그먼트를 분리하는 강력한 도구입니다.

RMSE(Root Mean Square Energy)를 사용하면 신호의 평균 에너지를 이해할 수 있습니다. 파형 또는 스펙트로그램에서 계산할 수 있습니다. 첫 번째 경우에는 결과를 더 빨리 얻을 수 있습니다. 그러나 스펙트로그램은 시간 경과에 따른 에너지를 보다 정확하게 표현합니다. RMSE는 오디오 세분화 및 음악 장르 분류에 특히 유용합니다.

ZCR(Zero-crossing Rate)은 신호파가 프레임 내에서 수평 축을 가로지르는 횟수를 계산합니다. 이는 가장 중요한 음향 기능 중 하나이며, 말의 유무를 감지하고 소음과 침묵, 음악과 음성을 구별하는 데 널리 사용됩니다.

 

 

반응형

 

3-2) 주파수 영역 기능

주파수 영역 특징은 FT 또는 STFT를 사용하여 파형을 스펙트럼 플롯 또는 스펙트로그램으로 변환하는 프로세스와 관련되어 있기 때문에 시간적 특징보다 추출하기가 더 어렵습니다. 그러나 시간 영역에서 보이지 않거나 보기 어려운 많은 중요한 사운드 특성을 드러내는 것은 주파수 내용입니다.

가장 일반적인 주파수 영역 기능은 다음과 같습니다

  • 평균 또는 평균 빈도
  • 스펙트럼을 진폭이 같은 두 영역으로 나눌 때의 중간 주파수
  • 신호 대 잡음비(SNR)는 배경 소음에 대한 원하는 소리의 강도를 비교합니다
  • 대역 에너지 비율(BER)은 높은 주파수 대역과 낮은 주파수 대역 간의 관계를 나타냅니다. 즉, 주파수가 높은 주파수보다 얼마나 낮은 주파수가 지배적인지 측정합니다.

물론 이 도메인에는 다른 많은 속성이 있습니다. 요약하자면, 소리 에너지가 주파수에 걸쳐 어떻게 확산되는지 알려주고 시간 영역은 시간이 지남에 따라 신호가 어떻게 변하는지 보여줍니다.

 

3-3) 시간-주파수 영역 특징

이 영역은 시간 및 주파수 구성 요소를 결합하고 다양한 유형의 스펙트로그램을 소리의 시각적 표현으로 사용합니다. 단시간 푸리에 변환을 적용하는 파형에서 스펙트로그램을 얻을 수 있습니다.

시간-주파수 영역 기능의 가장 인기 있는 그룹 중 하나는 멜-주파수 켑스트랄 계수(MFCC)입니다. 그들은 인간의 가청 범위 내에서 작동하므로 앞에서 논의한 멜 척도 및 멜 스펙트로그램을 기반으로 합니다.

 

 

 

반응형

 

5. 기계 학습 모델 선택 및 학습

오디오 기능은 시각적 형태(대부분 스펙트로그램)로 제공되기 때문에 심층 신경망에 의존하는 이미지 인식 대상이 됩니다. 소리 감지 및 분류에서 좋은 결과를 보여주는 몇 가지 인기 있는 아키텍처가 있습니다. 

 

1) 장단기기억망(LSTM)

장단기기억망(LSTM)은 데이터의 장기 종속성을 찾아내고 수많은 이전 단계의 정보를 기억하는 능력으로 잘 알려져 있습니다. 수면 무호흡증 감지 연구에 따르면 LSTM은 MFCC 기능을 입력으로 사용하여 정상적인 코골이 소리와 비정상적인 코골이를 구분할 때 87%의 정확도를 달성할 수 있습니다.

또 다른 연구에서는 더 나은 결과를 보여주었습니다: LSTM은 95.3%의 정확도로 정상 및 비정상 코골이 이벤트를 분류했습니다. 신경망은 MFCC와 시간 도메인의 단시간 에너지를 포함한 5가지 유형의 기능을 사용하여 훈련되었습니다. 이 둘은 함께 코골이의 다양한 특성을 나타냅니다.

 

2) 컨볼루션 신경망(CNN)

컨볼루션 신경망(Convolutional Neural Network)은 의료 및 기타 산업에서 컴퓨터 비전을 선도하고 있습니다. 종종 이미지 인식 작업을 위한 자연스러운 선택이라고 합니다. 스펙트로그램 처리에서 CNN 아키텍처의 효율성은 이 진술의 타당성을 다시 한 번 증명합니다.

이스턴 미시간 대학교 공과대학의 프로젝트에서 CNN 기반 딥 러닝 모델은 코고는 소리와 코를 골지 않는 소리의 분류에서 96%의 정확도를 기록했습니다.

CNN과 LSTM 아키텍처의 조합에 대해서도 거의 동일한 결과가 보고됩니다. 아인트호벤 공과대학(Eindhoven University of Technology)의 과학자 그룹은 CNN 모델을 적용하여 스펙트로그램에서 특징을 추출한 다음 LSTM을 실행하여 CNN 출력을 코골이 이벤트와 코골이 이벤트가 아닌 이벤트로 분류했습니다. 정확도 값의 범위는 코골이 소리를 녹음하는 데 사용되는 마이크의 위치에 따라 94.4%에서 95.9%까지입니다.

Sleep.io 프로젝트를 위해 AltexSoft 데이터 사이언스 팀은 두 개의 CNN(코골이 및 그라인딩 감지용)을 사용하고 TensorFlow 플랫폼에서 훈련시켰습니다. 모델이 80% 이상의 정확도를 달성한 후 생산에 착수했습니다. 그들의 결과는 실제 사용자로부터 수집된 입력의 수가 증가함에 따라 지속적으로 개선되고 있습니다.

 

 

 

728x90
반응형
그리드형