본문 바로가기

STT

[google cloud] 여러 채널로 오디오 스크립트 작성 - transcribe_multichannel.py 여러 채널로 오디오 스크립트 작성 transcribe_multichannel.py 이 페이지에서는 Speech-to-Text를 사용하여 둘 이상의 채널이 포함된 오디오 파일을 텍스트로 변환하는 방법을 설명합니다. 오디오 데이터에는 녹음된 화자에 대한 각각의 채널이 포함되어 있는 경우가 많습니다. 예를 들어 두 사람의 전화 통화를 녹음한 오디오라면 각 회선이 별도로 녹음된 채널 두 개가 포함될 수 있습니다. 여러 채널이 포함된 오디오 데이터를 텍스트로 변환하려면 Speech-to-Text API에 대한 요청에 채널 수를 제공해야 합니다. 요청의 audioChannelCount 필드를 오디오에 있는 채널 수로 설정합니다. 여러 채널이 포함된 요청을 보내면 Speech-to-Text가 오디오에 있는 서로 다른.. 더보기
상위 10가지 음성 처리 API의 비교 상위 10가지 음성 처리 API의 비교 언어 처리는 머신러닝에서 매우 인기 있는 영역입니다. 인간의 발화를 텍스트로 변환하거나 텍스트를 말로 변환하는 일에 상당한 수요가 있지요. 매장이나 공항, 호텔과 같은 다양한 장소에서 셀프 서비스가 발전함에 따라 이 기술은 특히 중요해졌습니다. 기계가 인간의 노동력을 대체하기 위해서는 우리의 언어를 활용해 우리 인간과 소통할 수 있는 능력이 필수적이니까요. 이것이 바로 인공지능과 머신러닝이 언어처리에 집중하는 이유입니다. 오늘날 많은 수의 대기업들이 각기 다른 머신러닝 임무를 수행하는 API를 제공하고 있으며 언어 처리 영역 또한 예외가 아닙니다. 독자 여러분께서 API를 사용하기 위해 자연어 처리의 전문가가 될 필요는 전혀 없습니다. 일반적으로 API와 함께 현리.. 더보기
naver AI CSR naver AI CSR 더보기
[NAVER AI] stt (Speech-To-Text) apidocs.ncloud.com/ko/ai-naver/clova_speech_recognition/stt/ stt (Speech-To-Text) - API 참조서 개요 Clova Speech Recognition REST API (이하 CSR REST API)는 HTTP 기반의 REST API로 제공하는 음성인식 API로, 인식에 사용할 언어와 음성 데이터를 입력받고, 그에 맞는 인식 결과를 텍스트로 반환합니다. 입� apidocs.ncloud.com stt (Speech-To-Text) Clova Speech Recognition REST API (이하 CSR REST API)는 HTTP 기반의 REST API로 제공하는 음성인식 API로, 인식에 사용할 언어와 음성 데이터를 입력받고, 그에 맞는 인.. 더보기