[google cloud] 여러 채널로 오디오 스크립트 작성 - transcribe_multichannel.py

홍반장水_ 2020. 11. 13. 14:34

2020. 11. 13. 14:34

여러 채널로 오디오 스크립트 작성

transcribe_multichannel.py

이 페이지에서는 Speech-to-Text를 사용하여 둘 이상의 채널이 포함된 오디오 파일을 텍스트로 변환하는 방법을 설명합니다.

오디오 데이터에는 녹음된 화자에 대한 각각의 채널이 포함되어 있는 경우가 많습니다. 예를 들어 두 사람의 전화 통화를 녹음한 오디오라면 각 회선이 별도로 녹음된 채널 두 개가 포함될 수 있습니다.

여러 채널이 포함된 오디오 데이터를 텍스트로 변환하려면 Speech-to-Text API에 대한 요청에 채널 수를 제공해야 합니다. 요청의 audioChannelCount 필드를 오디오에 있는 채널 수로 설정합니다.

여러 채널이 포함된 요청을 보내면 Speech-to-Text가 오디오에 있는 서로 다른 채널을 식별하는 결과를 반환하며 channelTag 필드를 사용하여 각 결과를 대신하는 항목에 라벨을 지정합니다.

오디오 채널 설명 : https://cloud.google.com/speech-to-text/docs/multi-channel

여러 채널로 오디오 스크립트 작성 | Cloud Speech-to-Text 문서 | Google Cloud

이 페이지에서는 Speech-to-Text를 사용하여 둘 이상의 채널이 포함된 오디오 파일을 텍스트로 변환하는 방법을 설명합니다. 오디오 데이터에는 녹음된 화자에 대한 각각의 채널이 포함되어 있는

cloud.google.com

from google.cloud import speech

client = speech.SpeechClient()

with open(speech_file, "rb") as audio_file:
    content = audio_file.read()

audio = speech.RecognitionAudio(content=content)

config = speech.RecognitionConfig(
    encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
    sample_rate_hertz=44100,
    language_code="en-US",
    audio_channel_count=2,
    enable_separate_recognition_per_channel=True,
)

response = client.recognize(config=config, audio=audio)

for i, result in enumerate(response.results):
    alternative = result.alternatives[0]
    print("-" * 20)
    print("First alternative of result {}".format(i))
    print(u"Transcript: {}".format(alternative.transcript))
    print(u"Channel Tag: {}".format(result.channel_tag))

github.com/googleapis/python-speech/blob/master/samples/snippets/transcribe_multichannel.py

googleapis/python-speech

Contribute to googleapis/python-speech development by creating an account on GitHub.

github.com

저작자표시 비영리 (새창열림)

'프로그래밍 > Python' 카테고리의 다른 글

[python] Package google.cloud.speech.v1 (0)	2020.11.13
[python] 현재 시간, 일시 (0)	2020.11.13
google.api_core.exceptions.InvalidArgument: 400 Request payload size exceeds the limit: 10485760 bytes. (0)	2020.11.13
google.api_core.exceptions.OutOfRange: 400 Exceeded maximum allowed stream duration of 305 seconds (0)	2020.11.13
python. google STT - ImportError: cannot import name 'enums' from 'google.cloud.speech' (0)	2020.11.09

긍정적 사고, 음식의 절제, 규칙적인 운동

[google cloud] 여러 채널로 오디오 스크립트 작성 - transcribe_multichannel.py

여러 채널로 오디오 스크립트 작성

transcribe_multichannel.py

'프로그래밍 > Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바