음성 업로드
1:00
음성 파일 1
음성 파일 2
텍스트 변환
시간 추출