OpenAIのWhisper APIによる転写と翻訳

Transcription and translation using OpenAI's Whisper API.

録音したものがたくさんあるけど、聞いて書き起こすエネルギーがなくなってしまったという経験はありませんか?私が学生だった頃、毎日何時間もの授業音声を聞いて書き起こしていたことを思い出します。さらに、私の母国語ではないため、Google翻訳に毎回文をドラッグしてイタリア語に変換しなければなりませんでした。

今では、手動の書き起こしと翻訳はただの思い出になりました。ChatGPTの有名な研究会社であるOpenAIは、音声からテキストへの変換のためのWhisper APIをリリースしました!数行のPythonコードで、この強力な音声認識モデルを呼び出し、頭から離れてデータサイエンスのプロジェクトの練習やポートフォリオの改善など、他の活動に集中することができます。早速始めましょう!

Whisperとは?

Whisperは、音声からテキストへの変換のタスクを解決するためにOpenAIによって開発されたニューラルネットワークに基づくモデルです。GPT-3ファミリーに属し、非常に高い精度でオーディオをテキストに変換する能力で非常に人気があります。

英語に限定されず、50以上の言語に拡張されています。あなたの言語が含まれているかどうか理解するには、ここをチェックしてください。さらに、どんな言語のオーディオでも英語に翻訳できます。

他のOpenAI製品と同様に、これらの音声認識サービスにアクセスするためのAPIが提供されており、開発者やデータサイエンティストがWhisperを彼らのプラットフォームやアプリに統合することができます。

Whisper APIにアクセスする方法

先に進む前に、Whisper APIにアクセスするためにいくつかのステップが必要です。まず、OpenAI APIウェブサイトにアクセスしてログインしてください。まだアカウントを持っていない場合は、作成する必要があります。入ったら、ユーザー名をクリックして「APIキーを表示」オプションを押します。次に、「新しいAPIキーを作成」ボタンをクリックして、Pythonコードに新しく作成されたAPIキーをコピーします。

Whisper APIを使用して書き起こす

まず、非常に人気のあるYouTuberであるKevin StratvertのYouTube動画をダウンロードしましょう。Kevin Stratvertは世界中の学生が技術をマスターし、Power BI、ビデオ編集、AI製品などのツールを学んでスキルを向上させるのを手助けするYouTuberです。例えば、「3 Mind-blowing AI Tools」という動画を書き起こしたいとします。

この動画を直接pytubeライブラリを使用してダウンロードできます。インストールするには、次のコマンドラインが必要です。

pip install pytube3
pip install openai

後でチュートリアルで使用するため、openaiライブラリもインストールします。すべてのPythonライブラリがインストールされている場合、単に動画のURLをYoutubeオブジェクトに渡すだけです。その後、最高解像度のビデオストリームを取得して、ビデオをダウンロードします。

from pytube import YouTube

video_url = "https://www.youtube.com/watch?v=v6OB80Vt1Dk&t=1s&ab_channel=KevinStratvert"

yt = YouTube(video_url)
stream = yt.streams.get_highest_resolution()
stream.download()

ファイルがダウンロードされたら、楽しい部分を始めましょう!

import openai

API_KEY = 'your_api_key'
model_id = 'whisper-1'
language = "en"
audio_file_path = 'audio/5_tools_audio.mp4'
audio_file = open(audio_file_path, 'rb')

パラメータを設定し、オーディオファイルを開いた後、オーディオを書き起こしてTxtファイルに保存することができます。

response = openai.Audio.transcribe(
    api_key=API_KEY,
    model=model_id,
    file=audio_file,
    language='en'
)
transcription_text = response.text
print(transcription_text)

出力:

Hi everyone, Kevin here. Today, we're going to look at five different tools that leverage artificial intelligence in some truly incredible ways. Here for instance, I can change my voice in real time. I can also highlight an area of a photo and I can make that just automatically disappear. Uh, where'd my son go? I can also give the computer instructions, like, I don't know, write a song for the Kevin cookie company....

予想通り、出力は非常に正確です。句読点まで正確で、非常に感銘を受けました!

Whisper APIで翻訳する

今回は、イタリア語から英語にオーディオを翻訳します。前回と同様に、オーディオファイルをダウンロードします。私の例では、非常にシンプルかつ面白い方法で機械学習を教える人気のあるイタリアのYouTuber Piero SavastanoのこのYouTube動画を使用しています。前のコードをコピーして、URLだけを変更する必要があります。ダウンロードしたら、前と同じようにオーディオファイルを開きます:

audio_file_path = 'audio/ml_in_python.mp4'
audio_file = open(audio_file_path, 'rb')

次に、イタリア語から英語の翻訳を生成できます。

response = openai.Audio.translate(
    api_key=API_KEY,
    model=model_id,
    file=audio_file
)
translation_text = response.text
print(translation_text)

出力:

私たちは統計的なスタイルでいくつかのグラフも見るので、それらを読み取る方法も理解する必要があります。1つは、箱ひげ図であり、中央値、第1四分位数、第3四分位数を見ることができます。今から何を意味するか話します。常にデータフレームからデータを取得します。Xは季節です。Yには借りられた自転車の数を置きます。そして、それが祝日の日であるかどうかに基づいてこれらの箱ひげ図を区別したいと思います。このグラフが出てきます。これをどのように読み取りますか?ここにあるXには、数値で符号化された季節があります。青色は祝日でない日、オレンジ色は祝日です。そして、ここに自転車の数があります。これらの四角形は何ですか?ここにあるボックスを取ります。マウスで回しています....

最終的な考え

以上です!このチュートリアルがWhisper APIを使い始めるのに役立ったことを願っています。このケーススタディでは、YouTube動画で適用されましたが、ポッドキャスト、Zoom通話、会議でも試すことができます。転写と翻訳後の出力は非常に印象的でした!このAIツールは、今多くの人々を助けていることでしょう。唯一の制限は、英語のテキストにしか翻訳できないことですが、OpenAIが近日中に提供することを確信しています。読んでいただきありがとうございました!素晴らしい1日をお過ごしください!

リソース

  • Whisper APIの音声からテキストへのガイド
  • PythonでOpenAI Whisper APIを始める| Youtubeビデオ

Eugenia Anelloは、現在、イタリアのパドヴァ大学情報工学科の研究員です。彼女の研究プロジェクトは、異常検知と組み合わされた継続的な学習に焦点を当てています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ウェイモのMotionLMを紹介します:最新型のマルチエージェントモーション予測アプローチで、大規模言語モデル(LLM)が自動車の運転をサポートできるようにする可能性のあるものです

オートリグレッション言語モデルは、あらかじめ定義された文法や構文解析の概念を必要とせずに、文章内の次のサブワードを予...

機械学習

「改善された推論のためのアナロジー提示による言語モデルの拡張」

近年、言語モデルは人間のようなテキストの理解と生成能力を見せるにおいて驚異的な優れた性能を示しています。しかし、これ...

機械学習

LOMO(LOw-Memory Optimization)をご紹介します:メモリ使用量を削減するために、勾配計算とパラメータの更新を1つのステップで融合する新しいAIオプティマイザです

Large Language Models(LLMs)は、出現やグロッキングのような素晴らしいスキルや、モデルサイズの持続的な増加などを通じて...

人工知能

NVIDIA RTXビデオスーパーレゾリューションのアップデートがビデオ品質や詳細の保全を向上させ、GeForce RTX 20シリーズのGPUへの拡張も行われました

今日、NVIDIAはRTXビデオスーパーレゾリューション(VSR)のアップデートを発表しました。このアップデートにより、全体的な...

機械学習

「FACTOOLにご紹介いたします:大規模言語モデル(例:ChatGPT)によって生成されたテキストの事実エラーを検出するためのタスクとドメインに依存しないフレームワーク」

GPT-4は、自然言語処理のいくつかのタスクを1つのシーケンス生成問題に統合した生成型の人工知能(AI)技術の一例です。この...

AIテクノロジー

「ジェネレーティブAIの企業導入」

「こんにちは、私はマイケルです2018年からエンタープライズAIの導入に没頭しており、私たちはAi4というAIカンファレンスを開...