【磐田,浜松,袋井】パソコンサポートと出張修理 はてな版

読んで役に立つような日々のIT関連のサポート情報をまとめていきます。パソコン&スマホ販売、修理&故障&トラブル対応、定期保守、クラウド(Microsoft 365、Google Workspace)、モバイル、ネットワーク構築、テレワーク、WEB会議(Zoom)など、お気軽にモストまでご相談ください。

Googleドキュメントの音声入力で、文字起こしを試してみました

静岡県浜松市のお客様からのご要望で、ICレコーダーの文字起こしのご依頼があり出張サポートにお伺いしてきました。ICレコーダーはSONY製で、その音声データを文字起こししてテキストデータにして保存したいとのこと。

 

文字起こしの方法は色々とありますが、個人的にあまり使ったことはないので、これを機に調べてみました。いちばん簡単で手軽、そして無料で導入できるのは、やはりGoogleです。Googleドキュメント(Googleのワード版)の音声入力機能が標準で実装されているので、これを使ってみました。

support.google.com

 

音声入力機能はPC版もモバイル版もともに実装されており、Googleアカウントさえあれば誰でも無料ですぐに使用は可能。Googleのサーバ側に人工知能(AI)がいて、データを食べてどんどん賢くなっていくわけです。ですので、インターネット接続は必要となります。

 

実際に試してみると、スムーズに文字起こしが進むときもあれば、途中で止まってしまうときもあり、現状では動作が少し不安定な気がします。

 

1人の話し手が、きれいなはっきりした言葉で、ハキハキと大きなゆっくりした声で話すと、きれいな文字起こしができます。例えて言うと、ニュースキャスターのニュースを読むときの話し方でしょうか。

 

YouTubeのニュースを流して、Googleドキュメント側で文字起こしをしたみると、かなり正確な文字起こしができていました。文字起こしの際に変換しているタイムラグのような表示があり、その間にGoogleサーバ側で一生懸命変換していると思われます。

f:id:pc-most:20200501145637j:plain


上記画像は、とあるYouTubeのニュースを文字起こししてみたところです。しっかりと認識していますが、途中で止まってしまったり、文章が一部抜けてしまったりといった具合です。ニュースキャスターの音声は聞き取りやすいんでしょうね。

 

文章の途切れ部分の句点「。」や読点「、」は、さすがに現在のレベルではここまでの対応はできません。句点も読点もない状態で文字起こしがされます。

 

それとは別に、複数人の一般の会話では、文字起こしはかなり乱れてしまい、誤変換や途中で止まってしまうことが多々あり、ちょっと使い物にならないレベルでした。さすがに、ここまでの技術レベルにはまだ達しておらず、現状の技術的な限界だと感じました。逆に言うと、人間はこうした高度な会話も難なく処理できる頭脳を持っているということにもなりますね。人間もまだまだ捨てたものではありません(笑)

 

音声入力での文字起こしは、日本語だけではなく世界各国のあらゆる言語も可能で、試しに英語のニュースを文字起こししてみたら、スムーズに英語での文字起こしが可能でした。もちろん、英語→英語、日本語→日本語といった変換で、リアルタイムで英語→日本語やポルトガル語→フランス語といった変換はまだ無理なようです(使うこともありませんが)。

 

文字起こしの精度については、ネットワーク回線やPC性能、マイク&スピーカー性能もどうやら影響しているようで、事前にこちらのPCでテストしたときにはスムーズに文字起こしができましたが、客先で試すとなぜかからっきしダメという結果になり、トホホな状況となりました。

 

通常のWindowsソフトでも探してみましたが、無料ではなかなか無さそうで、間違って「文字起こし支援ツール」をインストールして、これは違った!と気がつくことも。はじめての経験で、これはこれで勉強になります。

 

最終的には、スマホの「音声文字変換」アプリを使用しました。Google製の聴覚障がい者向けユーザー補助アプリということで、こちらもGoogleがサポートしているということで、現状では世界有数の機能を要しているということでしょう。

play.google.com

 

Androidのバージョンも5.0(Lollipop)以降と優しく、お客様の古いスマホAndroid 6.0でも何とかインストールでき使用可能。精度もかなり良かったです。

 

Googleドキュメントでの音声入力と違って、自動的にドキュメント等のファイルに書き込んでくれるわけではなく、アプリ内にテキストデータが溜まっていくだけですので、最終的にそのテキストデータをコピーして、別のファイル等に貼り付ける必要があります。それを差し引いても、なかなかの出来栄えで驚きました。

 

お客様もそのリアルタイム変換に非常に驚かれていました。と同時に、現在の技術の限界も知ることになりました。今後の技術・AIの発展で、ますます高度に文字起こしは可能になっていくことでしょう( ・∇・)