TTS 커스텀 보이스 학습을 위한 성우 홈 레코딩 가이드

1. 홈 레코딩 환경 및 장비 요건 (매우 중요)

전문 녹음실이 아닌 홈 레코딩 환경에서는 '울림(Reverb)'과 '배경 소음'을 완벽히 제어하는 것이 음질의 90%를 좌우합니다.

마이크 장비: 노트북 내장 마이크, 블루투스 이어폰, 게이밍 헤드셋은 절대 사용 불가합니다. 별도의 콘덴서 마이크 또는 오디오 인터페이스가 연결된 마이크를 사용해 주세요.
공간 울림 통제 (가장 중요): 텅 빈 방이나 화장실처럼 목소리가 벽에 부딪혀 울리는 곳은 피해야 합니다. 주변에 이불, 커튼, 흡음재를 두거나 옷장 안쪽을 향해 발성하여 메아리(공간감)를 최대한 없애주세요. 건조하고 먹먹하게 녹음된 소리가 AI 학습에 가장 이상적입니다.
환경의 일관성: 녹음 중간에 쉬었다가 다시 녹음하거나, 추후 추가 녹음(AS)을 진행할 때 반드시 '동일한 방', '동일한 장비', '마이크와의 동일한 거리'를 유지해야 합니다. 데이터마다 톤이나 공간감이 다르면 모델이 혼란을 겪습니다.

2. 녹음 규격 및 파일 규칙

2.1. 웹 플랫폼 이용 및 오디오 포맷

제공해 드린 웹 플랫폼의 대본 리스트를 확인하시면서, 본인의 PC(오디오 프로그램)에서 직접 고음질로 녹음하신 후 웹의 [파일 업로드] 기능을 통해 전송해 주세요.
오디오 스펙: 압축되지 않은 고품질 WAV 포맷 24,000Hz (24kHz) 단일 샘플레이트 필수, 16-bit, Mono(모노 1채널)을 권장합니다. MP3 등 손실 압축 포맷은 피해주세요.
오디오 편집 프로그램에서 노이즈 리덕션, 컴프레서, 이퀄라이저(EQ) 등의 후보정 이펙트를 절대 넣지 마세요. AI는 가공되지 않은 날것(Raw)의 음성이 필요합니다.

2.2. 오디오 길이 및 자르기(절단) 규칙

길이 제한 업로드하는 파일 1개의 길이는 5초 ~ 10초 사이가 가장 이상적입니다. 제공된 대본의 호흡(쉼표, 마침표) 단위에 맞춰 자연스럽게 끊어 저장해 주세요.
무음(Silence) 여백 파일 앞뒤에는 약 1초 ~ 2초 정도의 넉넉한 여유 공간(무음)을 남겨두고 편안하게 잘라주시면 됩니다. 정확한 길이를 맞추기 위해 애쓰지 않으셔도 됩니다.
사내 평준화 시스템에서 앞뒤 무음을 자동으로 정밀하게 다듬어 처리하므로, 오디오가 너무 일찍 잘려서 말이 뚝 끊기는 형태(예: "진행합니-" 에서 끊기는 경우)만 없도록 충분히 여유를 두고 컷오프 해주세요.

2.3. 클리핑(Clipping) 찌그러짐 방지

큰 소리를 낼 때 마이크 허용 음량을 초과하여 음성이 '찌그러지는(Peak/Clipping)' 현상이 없도록 마이크 입력 감도(Gain)를 적절히 조절하세요. 파형 윗부분이 잘려 나간 오디오는 사용할 수 없습니다.

3. 녹음 스타일 (Tone & Manner)

📌 이러닝 콘텐츠에서 사용되는 2가지 유형에 대하여 해당 샘플을 참조하여 음성을 녹음해 주시기 바랍니다.(해당 음성 길이는 참조를 위한 것이니 제공 되는 각 대본 길이에 맞춰주세요.)

이번 프로젝트는 용도에 따라 [내레이션 모드]와 [진행 모드] 두 가지 대본으로 나뉘어 녹음됩니다. 대본 성격에 맞게 톤을 분리하여 일관성 있게 연기해 주시기 바랍니다.

3.1. 내레이션(Narration) 모드

목적: 지식 전달, 역사/개념 해설 등 사실 중심의 스크립트.
말하기 톤: 신뢰감을 주는 차분하고 평탄한 억양(Flat tone)을 사용하며, 템포가 빨라지지 않도록 끝까지 안정적으로 유지해 주세요.

🎧 내레이션 샘플 듣기:

📝 대본 자막
"우리가 일반적으로 '악취'라고 하면 하나의 특정한 냄새를 떠올릴 수 있는데요, 예를 들어 암모니아는 특유의 자극적인 냄새가 있고, 황화수소는 썩은 달걀 냄새로 잘 알려져 있죠. 이와 같이 하나의 화학물질이 특정 냄새를 유발하는 경우를 '단일악취' 라고 합니다."

3.2. 진행자(Host/Instructor) 모드

목적: 학습자의 주의 환기, 질문형 멘트, 챕터 전환 등의 소통형 스크립트.
말하기 톤: 친절하고 생동감 있는 억양으로, 내레이션 톤보다 반 톤(Half-tone) 정도 높은 밝은 목소리로 활기차게 연기해 주세요.

🎧 진행자 샘플 듣기:

📝 대본 자막
"여러분, 안녕하세요. 오늘은 조금 특별한 주제를 준비했습니다. 어쩌면 'SF 영화 같은 이야기'처럼 들릴지도 모르지만, 우리가 충분히 고민해 볼 현실적인 미래전략에 대해 이야기해보려 합니다. 바로 북한의 무기 공장을 로봇 공장으로 전환하는 이른바 '평화 로봇 로드맵'입니다. 과연 이게 현실적인 이야기일지, 저와 함께 꼼꼼히 짚어보시죠!"

🚨 (매우 중요) 딕션과 대본의 100% 일치

AI는 들리는 소리 그대로 문자를 1:1로 매칭하여 학습합니다. 대본의 단어를 임의로 추가/삭제하거나 "있습니다"를 "있고요"로 바꾸어 읽으시면 절대 안 됩니다. 혀가 꼬이거나 발음이 뭉개진 경우, 해당 문장은 반드시 다시 녹음해 주세요.

💡 요약 체크리스트

오디오 스펙: wav 저장 포맷, 24,000Hz (24kHz) 단일 샘플레이트 필수, 16-bit, Mono(모노 1채널)
콘덴서 마이크 등 전문 장비가 세팅되어 있는가? (블루투스/내장 마이크/게이밍 헤드셋 금지)
조용하고 메아리(공간 울림)가 전혀 없는 환경인가? (밀폐공간 녹음 및 흡음 환경 조성)
업로드할 각 파일의 길이가 대본 호흡에 맞게 5초~10초 사이로 적절히 녹음해주세요.
말이 중간에 뚝 끊기지 않도록, 파일 앞뒤에 1~2초 정도 넉넉한 여유 공간(무음)을 남겨두고 저장해주세요.
내레이션 모드와 진행 모드의 톤이 일관적으로 잘 구분되도록 유지해주섿요.
도중에 쉬었다가 녹음하더라도, 마이크 세팅과 거리를 그대로 유지하여 공간감의 일관성을 지켰는가?

🎙️ TTS 보이스 모델을 위한 성우 홈 레코딩 가이드

1. 홈 레코딩 환경 및 장비 요건 (매우 중요)

2. 녹음 규격 및 파일 규칙

2.1. 웹 플랫폼 이용 및 오디오 포맷

2.2. 오디오 길이 및 자르기(절단) 규칙

2.3. 클리핑(Clipping) 찌그러짐 방지

3. 녹음 스타일 (Tone & Manner)

3.1. 내레이션(Narration) 모드

3.2. 진행자(Host/Instructor) 모드

🚨 (매우 중요) 딕션과 대본의 100% 일치

💡 요약 체크리스트