OpenAIのWhisper APIによる転写と翻訳

Transcription and translation using OpenAI's Whisper API.

録音したものがたくさんあるけど、聞いて書き起こすエネルギーがなくなってしまったという経験はありませんか?私が学生だった頃、毎日何時間もの授業音声を聞いて書き起こしていたことを思い出します。さらに、私の母国語ではないため、Google翻訳に毎回文をドラッグしてイタリア語に変換しなければなりませんでした。

今では、手動の書き起こしと翻訳はただの思い出になりました。ChatGPTの有名な研究会社であるOpenAIは、音声からテキストへの変換のためのWhisper APIをリリースしました!数行のPythonコードで、この強力な音声認識モデルを呼び出し、頭から離れてデータサイエンスのプロジェクトの練習やポートフォリオの改善など、他の活動に集中することができます。早速始めましょう!

Whisperとは?

Whisperは、音声からテキストへの変換のタスクを解決するためにOpenAIによって開発されたニューラルネットワークに基づくモデルです。GPT-3ファミリーに属し、非常に高い精度でオーディオをテキストに変換する能力で非常に人気があります。

英語に限定されず、50以上の言語に拡張されています。あなたの言語が含まれているかどうか理解するには、ここをチェックしてください。さらに、どんな言語のオーディオでも英語に翻訳できます。

他のOpenAI製品と同様に、これらの音声認識サービスにアクセスするためのAPIが提供されており、開発者やデータサイエンティストがWhisperを彼らのプラットフォームやアプリに統合することができます。

Whisper APIにアクセスする方法

先に進む前に、Whisper APIにアクセスするためにいくつかのステップが必要です。まず、OpenAI APIウェブサイトにアクセスしてログインしてください。まだアカウントを持っていない場合は、作成する必要があります。入ったら、ユーザー名をクリックして「APIキーを表示」オプションを押します。次に、「新しいAPIキーを作成」ボタンをクリックして、Pythonコードに新しく作成されたAPIキーをコピーします。

Whisper APIを使用して書き起こす

まず、非常に人気のあるYouTuberであるKevin StratvertのYouTube動画をダウンロードしましょう。Kevin Stratvertは世界中の学生が技術をマスターし、Power BI、ビデオ編集、AI製品などのツールを学んでスキルを向上させるのを手助けするYouTuberです。例えば、「3 Mind-blowing AI Tools」という動画を書き起こしたいとします。

この動画を直接pytubeライブラリを使用してダウンロードできます。インストールするには、次のコマンドラインが必要です。

pip install pytube3
pip install openai

後でチュートリアルで使用するため、openaiライブラリもインストールします。すべてのPythonライブラリがインストールされている場合、単に動画のURLをYoutubeオブジェクトに渡すだけです。その後、最高解像度のビデオストリームを取得して、ビデオをダウンロードします。

from pytube import YouTube

video_url = "https://www.youtube.com/watch?v=v6OB80Vt1Dk&t=1s&ab_channel=KevinStratvert"

yt = YouTube(video_url)
stream = yt.streams.get_highest_resolution()
stream.download()

ファイルがダウンロードされたら、楽しい部分を始めましょう!

import openai

API_KEY = 'your_api_key'
model_id = 'whisper-1'
language = "en"
audio_file_path = 'audio/5_tools_audio.mp4'
audio_file = open(audio_file_path, 'rb')

パラメータを設定し、オーディオファイルを開いた後、オーディオを書き起こしてTxtファイルに保存することができます。

response = openai.Audio.transcribe(
    api_key=API_KEY,
    model=model_id,
    file=audio_file,
    language='en'
)
transcription_text = response.text
print(transcription_text)

出力:

Hi everyone, Kevin here. Today, we're going to look at five different tools that leverage artificial intelligence in some truly incredible ways. Here for instance, I can change my voice in real time. I can also highlight an area of a photo and I can make that just automatically disappear. Uh, where'd my son go? I can also give the computer instructions, like, I don't know, write a song for the Kevin cookie company....

予想通り、出力は非常に正確です。句読点まで正確で、非常に感銘を受けました!

Whisper APIで翻訳する

今回は、イタリア語から英語にオーディオを翻訳します。前回と同様に、オーディオファイルをダウンロードします。私の例では、非常にシンプルかつ面白い方法で機械学習を教える人気のあるイタリアのYouTuber Piero SavastanoのこのYouTube動画を使用しています。前のコードをコピーして、URLだけを変更する必要があります。ダウンロードしたら、前と同じようにオーディオファイルを開きます:

audio_file_path = 'audio/ml_in_python.mp4'
audio_file = open(audio_file_path, 'rb')

次に、イタリア語から英語の翻訳を生成できます。

response = openai.Audio.translate(
    api_key=API_KEY,
    model=model_id,
    file=audio_file
)
translation_text = response.text
print(translation_text)

出力:

私たちは統計的なスタイルでいくつかのグラフも見るので、それらを読み取る方法も理解する必要があります。1つは、箱ひげ図であり、中央値、第1四分位数、第3四分位数を見ることができます。今から何を意味するか話します。常にデータフレームからデータを取得します。Xは季節です。Yには借りられた自転車の数を置きます。そして、それが祝日の日であるかどうかに基づいてこれらの箱ひげ図を区別したいと思います。このグラフが出てきます。これをどのように読み取りますか?ここにあるXには、数値で符号化された季節があります。青色は祝日でない日、オレンジ色は祝日です。そして、ここに自転車の数があります。これらの四角形は何ですか?ここにあるボックスを取ります。マウスで回しています....

最終的な考え

以上です!このチュートリアルがWhisper APIを使い始めるのに役立ったことを願っています。このケーススタディでは、YouTube動画で適用されましたが、ポッドキャスト、Zoom通話、会議でも試すことができます。転写と翻訳後の出力は非常に印象的でした!このAIツールは、今多くの人々を助けていることでしょう。唯一の制限は、英語のテキストにしか翻訳できないことですが、OpenAIが近日中に提供することを確信しています。読んでいただきありがとうございました!素晴らしい1日をお過ごしください!

リソース

  • Whisper APIの音声からテキストへのガイド
  • PythonでOpenAI Whisper APIを始める| Youtubeビデオ

Eugenia Anelloは、現在、イタリアのパドヴァ大学情報工学科の研究員です。彼女の研究プロジェクトは、異常検知と組み合わされた継続的な学習に焦点を当てています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「科学者たちが歴史的なコードを解読し、失われた秘密を明らかにする方法」

「DECRYPTプロジェクトは、言語学者とコンピュータ科学者の共同作業で、歴史的な暗号を解読するプロセスを自動化することを目...

AIニュース

「人種は心臓病を予測するために使用できません」

アメリカ心臓協会は広く使用されている心臓リスクアルゴリズムから人種を予測する要素を取り除く予定です

機械学習

Google AIは、スケールで事前に訓練されたニューラルネットワークを剪定するための最適化ベースのアプローチ、CHITAを紹介します

今日のニューラルネットワークの成果は、言語、数学、ビジョンなど、さまざまな分野で驚くべきものです。ただし、これらのネ...

機械学習

NVIDIA NeMoを使ったスタートアップが生成AIの成功ストーリーをスタートさせました

機械学習は、ワシーム・アルシークが大学の教科書を読み進めるのを助けました。現在、彼は生成型AIを活用し、数百の企業向け...

AI研究

「トランスフォーマーは長い入力をどのように扱うのか?CMUとGoogleの研究者が新しいアプローチを発表(FIRE):相対位置エンコーディングのための機能的補間」

Transformerベースの言語モデルは、近年、自然言語処理(NLP)の領域を引き上げてきました。人間らしいテキストを理解し生成...

機械学習

PoisonGPTとは:それ以外は信頼されたLLMサプライチェーンに悪意のあるモデルを導入するためのAI手法

人工知能についての話題が盛り上がる中、企業はそれがどのように役立つかについて多くの方法を認識し始めています。しかし、M...