生成AIで自分の声で話すアバターを作る。ChatGPT×ElevenLabs×D-IDからのCanvaで仕上げ
どうも。奈良県広陵町議会議員のちぎた慎也です。2020年、2024年と2期連続最年少でトップ当選させていただきました。
政治家たるもの、社会の変化には敏感であるべきだよね、という考えのもと、自分の活動にも生成AIを取り入れられないかと試行錯誤をしています。
今回は、一般質問質問(後述)の要約を僕の声で行うアバターを作成したのでその記録をまとめておきます。
アウトプットはこちらです。
議会のやりとりは大体長い。
議会と言えば、今後まちがどうなるか、とか、まちの予算をどう使うのか、とか、まちのルール(地方自治体だと、条例)をどうするのか、話し合っている大変重要な場でして、そのやりとりを市民のみなさんに見ていただくことは非常に意義があると思います。
特に、一般質問、という機会では、各議員が、自分はこれが大事だと思う!ということをたっぷり1時間の間自治体の幹部とやりとりができる非常に大切な場です。
しかし、1時間長い。
広陵町議会は、傍聴に出向かなくてもインターネット(広陵町議会 インターネット録画配信)で見れるようになってますが、なんせ長い。見ないですよね。なかなか。
もちろん要約動画とかあればいいのですが、2024年4月現在、広陵町議会では、アップされている動画の2次的活用は認められていません(許可している議会もあります)。そこで、なんとかしてこの一般質問の要約動画を作ろう!というのがことの発端です。
議会のやりとりは全てテキストで残っている。まずは、ChatGPTで要約
議会でのやりとりは町としての公式の記録として全てテキストで残っており、公開されています(広陵町議会 会議録検索システム)。僕はこれとは別に自分の発言をHPにまとめたりしていますが、今回はいったんこのテキストの記録を使います。
一般質問のやりとりを全てコピーして、以下のプロンプトをフォーマットにして、ChatGPTで要約!
あなたは政治や行政の情報をわかりやすく発信して、政治やまちづくりに興味を持つ人を増やす活動に力を入れている若手政治家です。 以下のやりとりについて、次の点を踏まえて要約してください。
・15秒程度で読める文量にしてください。
・過度に砕けた表現はNGですが、口語的な文章で親しみのある表現にしてください。
・読んだ人が、これは続きが気になる!と思える内容にしてください。
・最後に、詳細は概要欄からどうぞ!、と入れてください。
(※ちなみに、ここからの一連の作業は全てマニュアルにし、スタッフにお願いしていたのですが、なぜかやりとり全文を張り付けたあとに↑の文章を張り付けてプロンプトにしていました、、、泣)
出てきたアウトプットは多少校正しました。
声はElevenLabsで作る
次に、音声ですが、ElevenLabsで作成しました。Starterプランにして、特に問題ないかな、という感じですが、もう少し精度を出したいなら、Creatorでもよかったかなと思っています。
微調整とかなんやかんや試行錯誤してラベルとディスクリプションはこんな感じに落ち着きました。
喋らせるときのセッティングはこんな感じでした。というか直近でUI変わりました?
難しかったのは、日本語、特に漢字の読みですね。イントネーションはある程度我慢するにしても読みはなかなか曲者でした。対策としては、間違える漢字は平仮名にする、熟語はまとめて平仮名にする、ややこしいアルファベットの読みはカタカナにする、とかでしょうか。なかなか日本で運用するにはテクニックが必要だと感じました。
動きはD-IDでつけてCanvaでテロップを入れる
動かすのはD-IDに静止画とElevenLabsで作成した音声をアップロードしました。CanvaとD-IDが連携しているのでCanvaからD-IDを呼び出して動くアバターを作ったような感じですね。口の動きはかなりナチュラルなのですごい!
ただ、手も多少動いて欲しいな、という感想もありました。
そのままCanvaでテロップをつけて完成です!元々、テキストは存在するのでテロップつけるのはすぐにできました。
こんな感じで試してみました。生成AIは実務利用しようとすると、複数組み合わせる必要があるよな~というのが所感でして、組み合わせるための設計スキルと、薄く広い知識が必要なのかな、と感じています。とはいえ、触らないと何もはじまらないのでアウトプットが出せてよかったです!
引き続き使いどころがないか探っていきたいと思います。
そうそう、ちなみにですが、アバターを作る一連の作業は、マニュアルを整備した上で、特段ITスキルのない事務所スタッフにお願いしました。もちろん、ChatGPTが出力した要約のチェックなど、僕が介在する部分はありましたが、マニュアル×ツールを組み合わせればかなり精度の高い仕事を属人性を排除しつつ行えるな~ということを実感しましたね。