[Ncodi|SW] TTS

[ 기술 스택 ]

•

Backend: Python 3.11, Pyinstaller (lib), sce-tts (opensource)

[ 개요 ]

TTS 는 Text To Sound의 약자로 텍스트를 소리로 변환해주는 인공지능 프로젝트입니다.

SCE-TTS 오픈소스를 활용하여 텍스트를 원하는 소리로 변환해 주는 프로그램을 개발했습니다.

[ 서비스 설명 ]

사용자의 목소리 또는 목소리 데이터를 학습합니다.

(리춘희 영상 자료를 가공하여서, 학습에 적합한 데이터로 만들었습니다.)

인공지능에 음성 파일을 학습시켜서, 모델을 만듭니다.

만들어진 모델로 새로운 텍스트 파일을 입력하여서, 음성파일로 전환하여 저장합니다.

[ 느낀점 ]

데이터 가공에 대한 시간이 많이 소요됨. 리춘희 음성을 담긴 데이터셋이 없었습니다.

직접 유투브 채널에서 북한 방송을 다운로드 받은 후, 학습에 활용될 수 있는 또렷한 발음들을 구별하는 작업이 오래 걸렸습니다. (데이터 가공할 때 힘듬을 체험함)

학습시킨 자료는 100개로 매우 부족한 데이터 셋의 양임을 체험했습니다.

더 나은 목소리의 품질을 위해서는 그 이상의 학습데이터가 필요함을 느꼈습니다.

오픈 소스인 SCE-TTS 자료를 통해서 파이썬을 활용한 머신 러닝을 학습하였습니다.

머신 러닝 학습을 시킬 수 있는 코드에 대해서 분석하였습니다.

학습된 데이터를 바탕으로 Text를 음성 파일로 만들어 내는 코드를 작성하였습니다.

해당 소스를 윈도우 exe파일로 생성하여서, 로컬환경에서 사용가능하도록 배포함.

예시) 첨부파일

리춘희 학습데이터 공유

voice_text.zip

52603.0KB