第30回Podcast 振り返りレポート

今回のポッドキャストは 30 回目ということで、振り返れば結構続いてるなぁと思いつつ、いつも通り竹内(@rikson_en)とジムの行き帰りにトークを録音してきました。内容をざっくりご紹介します。

Play

1. ズンだもんと最新音声補正技術の誤解

前回の Podcast で、竹内が僕の壊れたマイク音声を「ずんだもん」という AI キャラ音声に差し替えたんですが、どうもそれを冗談半分で「最新の音声補正技術を使ってる」と言ってしまったらしく、生成 AI で文字起こししたときに “本当に最先端の技術を使ってるんだ” みたいな内容でまとめられてしまったんですよね。

実際は竹内が手動で文字起こしして、ずんだもんを合成したわけで、そこまでハイテクじゃない(笑)。Whisper などの自動文字起こしを試してはみたものの、音源の質が悪いと精度がイマイチってことで、結局ローテクで何とかしたみたいです。
竹内曰く

「冗談をそのまま記事にしないでほしい」

確かに僕も「ずんだもんでみんな和むよ」みたいな言い方しましたが、竹内いわく「なごばないでしょ」とツッコミが。まぁ、可愛い声で置き換えられれば良いのかなと軽く考えてたら、結構問題視されたというオチです。

2. ライブラリ名とディスクリプションの工夫

もう 1 つ、竹内から「Podcast の説明欄に使用したライブラリ名を入れてほしい」という要望がありました。たとえば ESLint や TypeScript など、会話の中で出てくるライブラリは検索性(Googleability)の観点で重要ということ。

Podcast の広報担当(?)としては、ディスクリプションやブログ記事にこういったキーワードをしっかり入れておくと、検索流入も狙えるというわけですね。今後は気をつけます!

3. 声質の問題と女性ボイスへの検討

30 回も Podcast を続けてきて思うのが、竹内と僕、声が似ているらしいです。竹内いわく「ミスチル系の尖った感じで、トーンも同じだから聴き分けにくい」とか。自分ではあまり実感がないんですけどね。

そこで検討しているのが「女性ボイスへの変換」。ただ、実際にやるとなると

  • 別チャンネル立ち上げる?
  • 混在音源で本当にうまく変換できるの?
  • AB テストできるほどリスナー多くないよね?

みたいな課題が多くて簡単ではない模様。竹内の技術力でどうにかなるのか、ちょっと今後の展開を期待です。

4. ノイズ除去作業の現状と自前運用の可能性

録音後の編集は竹内が大変みたいで、現状はクラウドサービスのノイズリムーバーを使っているものの、ファイルサイズ制限があって

  1. 音源を短く分割
  2. アップロード
  3. ノイズ除去
  4. ダウンロード
  5. 最後に繋ぎ直し

という面倒な手順 。
竹内としては、オープンソースのノイズ除去ツールをローカルに導入してノイズ除去を自前化できれば、ファイル分割作業もなくなるしラクになるとのこと。 でも Mac だと動くか不明、GPU マシンが要るのかも……など、試行錯誤が必要そうです。

5. GPUマシン導入 vs. クラウド利用

ノイズ除去だけでなく、最近は LLM(大規模言語モデル)や Stable Diffusion などをローカルで動かしたいニーズが増えてきましたよね。

  • 「一家に一台 GPU マシン」が当たり前になるのか?
  • それともクラウドの API に投げたほうが安いのか?
  • NVIDIA 製の小型開発用 GPU マシン(30 万円ぐらい?)が出るらしいという噂も…

あれこれ話してたんですが、結論としてはまだお金かかるから悩ましい。NAS 兼 GPU マシンを作るとか、電気代の観点もあるとか、自宅サーバーっぽいロマンと現実のコストがぶつかっております。

6. 紙ストローの話題(雑談)

途中で急に話が逸れたんですが、紙ストローって実はあんまり環境に良くないんじゃないかという話に。

  • ウミガメの動画バズりで「プラスチックストローは可哀想」となり紙に置き換え
  • しかし重量や燃やすときの CO2 排出などでむしろ負荷が高いという指摘がある

という、なんだか「意味あるの?」と思うようなムーブメントでした。まぁ、こういうエモーショナルな動きは SNS で起こりがちというわけですね。

7. Devin AIのレビュー

今回のメインは実はここ。「Devin AI」という、自然言語で指示を出すと自動でリポジトリをクローンし、環境構築して、コード修正して、Pull Request まで投げてくれる AI。 竹内が触った感想はこんな感じ。

  1. ライブラリのバージョンアップ(ESLint や TypeScript)

    • 小粒タスクだとスムーズに動いてテストが通るまでリトライしてくれる。
    • 使い方はチャット画面に「ESLint を最新版に上げてテスト通して」と入力するだけ。
  2. 複雑なタスク(ユニットテストが通らない修正など)

    • 何度も試行錯誤を繰り返して長時間ループする場合がある。
    • 従量課金(分単位)が高くつきそうで、40 分くらいやらせた時点で「予算がヤバい」と止めた。
  3. レベルの低いエンジニア不要?

    • ルーチンワークやちょっとした修正を任せるには非常に便利。
    • 逆に言えば「バージョンアップ専用の人員」を雇うよりも安いかもしれない。
    • ただし仕様の理解など高い文脈が必要な開発はまだ難しい。

要するに、簡単でコンテキストが浅いタスクは得意だけど、込み入った修正はまだ厳しいという印象ですね。費用と時間を考えると万能ではないものの、近い将来もっと賢くなるだろうと予感するツールでした。

まとめ

  • ズんだもんの声や女性ボイスへの変換は面白いアイデアだが、ちゃんと編集意図や冗談が伝わらないと「最新技術か!?」と誤解されがち。
  • 検索キーワード(ライブラリ名など)はディスクリプションに入れると良し。Podcast 広報的には大事な工夫。
  • ノイズ除去や LLM の活用のために GPU マシンが欲しい……がコストが悩みどころ。
  • Devin AI は小粒タスクの自動化が得意で、Pull Request まで一気にやってくれるものの、長時間ループには注意。
  • 紙ストローみたいに、世間には「一見よさそうだけど実は…」な話題が転がっている。

以上、第 30 回 Podcast の大まかな流れでした。こうして毎回ジムの行き帰りに雑談しているだけなんですが、気がついたら 30 回も続いているのは自分たちでもちょっと驚き。引き続き、マイペースで配信していきたいと思いますので、よろしければお付き合いください。

今回の話に出てきたツール等

項目説明公式ページ
Whisper (音声認識)C++実装の音声認識AIモデルGitHub
ずんだもん (合成音声)日本のボーカルシンセサイザーキャラクターzunko.jp
myedit (クラウド型ノイズリムーバー)オンライン音声ノイズ除去ツールmyedit.online
ESLint / TypeScriptJavaScript/TypeScript開発のリンターtypescript-eslint.io
Devin AI自動コード修正・PR作成AIdevin.ai
GitHub Copilot / Copilotワークスペースコード生成AIツールとその拡張機能GitHub
Stable Diffusionテキストから画像生成AIモデルstability.ai

関連記事