第30回Podcast 振り返りレポート

今回のポッドキャストは 30 回目ということで、振り返れば結構続いてるなぁと思いつつ、いつも通り竹内（@rikson_en）とジムの行き帰りにトークを録音してきました。内容をざっくりご紹介します。

1. ズンだもんと最新音声補正技術の誤解

前回の Podcast で、竹内が僕の壊れたマイク音声を「ずんだもん」という AI キャラ音声に差し替えたんですが、どうもそれを冗談半分で「最新の音声補正技術を使ってる」と言ってしまったらしく、生成 AI で文字起こししたときに “本当に最先端の技術を使ってるんだ” みたいな内容でまとめられてしまったんですよね。

実際は竹内が手動で文字起こしして、ずんだもんを合成したわけで、そこまでハイテクじゃない（笑）。Whisper などの自動文字起こしを試してはみたものの、音源の質が悪いと精度がイマイチってことで、結局ローテクで何とかしたみたいです。
竹内曰く

「冗談をそのまま記事にしないでほしい」

確かに僕も「ずんだもんでみんな和むよ」みたいな言い方しましたが、竹内いわく「なごばないでしょ」とツッコミが。まぁ、可愛い声で置き換えられれば良いのかなと軽く考えてたら、結構問題視されたというオチです。

2. ライブラリ名とディスクリプションの工夫

もう 1 つ、竹内から「Podcast の説明欄に使用したライブラリ名を入れてほしい」という要望がありました。たとえば ESLint や TypeScript など、会話の中で出てくるライブラリは検索性（Googleability）の観点で重要ということ。

Podcast の広報担当（？）としては、ディスクリプションやブログ記事にこういったキーワードをしっかり入れておくと、検索流入も狙えるというわけですね。今後は気をつけます！

3. 声質の問題と女性ボイスへの検討

30 回も Podcast を続けてきて思うのが、竹内と僕、声が似ているらしいです。竹内いわく「ミスチル系の尖った感じで、トーンも同じだから聴き分けにくい」とか。自分ではあまり実感がないんですけどね。

そこで検討しているのが「女性ボイスへの変換」。ただ、実際にやるとなると

別チャンネル立ち上げる？
混在音源で本当にうまく変換できるの？
AB テストできるほどリスナー多くないよね？

みたいな課題が多くて簡単ではない模様。竹内の技術力でどうにかなるのか、ちょっと今後の展開を期待です。

4. ノイズ除去作業の現状と自前運用の可能性

録音後の編集は竹内が大変みたいで、現状はクラウドサービスのノイズリムーバーを使っているものの、ファイルサイズ制限があって

音源を短く分割
アップロード
ノイズ除去
ダウンロード
最後に繋ぎ直し

という面倒な手順。
竹内としては、オープンソースのノイズ除去ツールをローカルに導入してノイズ除去を自前化できれば、ファイル分割作業もなくなるしラクになるとのこと。でも Mac だと動くか不明、GPU マシンが要るのかも……など、試行錯誤が必要そうです。

5. GPUマシン導入 vs. クラウド利用

ノイズ除去だけでなく、最近は LLM（大規模言語モデル）や Stable Diffusion などをローカルで動かしたいニーズが増えてきましたよね。

「一家に一台 GPU マシン」が当たり前になるのか？
それともクラウドの API に投げたほうが安いのか？
NVIDIA 製の小型開発用 GPU マシン（30 万円ぐらい？）が出るらしいという噂も…

あれこれ話してたんですが、結論としてはまだお金かかるから悩ましい。NAS 兼 GPU マシンを作るとか、電気代の観点もあるとか、自宅サーバーっぽいロマンと現実のコストがぶつかっております。

6. 紙ストローの話題（雑談）

途中で急に話が逸れたんですが、紙ストローって実はあんまり環境に良くないんじゃないかという話に。

ウミガメの動画バズりで「プラスチックストローは可哀想」となり紙に置き換え
しかし重量や燃やすときの CO2 排出などでむしろ負荷が高いという指摘がある

という、なんだか「意味あるの？」と思うようなムーブメントでした。まぁ、こういうエモーショナルな動きは SNS で起こりがちというわけですね。

7. Devin AIのレビュー

今回のメインは実はここ。「Devin AI」という、自然言語で指示を出すと自動でリポジトリをクローンし、環境構築して、コード修正して、Pull Request まで投げてくれる AI。竹内が触った感想はこんな感じ。

ライブラリのバージョンアップ（ESLint や TypeScript）
- 小粒タスクだとスムーズに動いてテストが通るまでリトライしてくれる。
- 使い方はチャット画面に「ESLint を最新版に上げてテスト通して」と入力するだけ。
複雑なタスク（ユニットテストが通らない修正など）
- 何度も試行錯誤を繰り返して長時間ループする場合がある。
- 従量課金（分単位）が高くつきそうで、40 分くらいやらせた時点で「予算がヤバい」と止めた。
レベルの低いエンジニア不要？
- ルーチンワークやちょっとした修正を任せるには非常に便利。
- 逆に言えば「バージョンアップ専用の人員」を雇うよりも安いかもしれない。
- ただし仕様の理解など高い文脈が必要な開発はまだ難しい。

要するに、簡単でコンテキストが浅いタスクは得意だけど、込み入った修正はまだ厳しいという印象ですね。費用と時間を考えると万能ではないものの、近い将来もっと賢くなるだろうと予感するツールでした。

まとめ

ズんだもんの声や女性ボイスへの変換は面白いアイデアだが、ちゃんと編集意図や冗談が伝わらないと「最新技術か!?」と誤解されがち。
検索キーワード（ライブラリ名など）はディスクリプションに入れると良し。Podcast 広報的には大事な工夫。
ノイズ除去や LLM の活用のために GPU マシンが欲しい……がコストが悩みどころ。
Devin AI は小粒タスクの自動化が得意で、Pull Request まで一気にやってくれるものの、長時間ループには注意。
紙ストローみたいに、世間には「一見よさそうだけど実は…」な話題が転がっている。

以上、第 30 回 Podcast の大まかな流れでした。こうして毎回ジムの行き帰りに雑談しているだけなんですが、気がついたら 30 回も続いているのは自分たちでもちょっと驚き。引き続き、マイペースで配信していきたいと思いますので、よろしければお付き合いください。

今回の話に出てきたツール等

項目	説明	公式ページ
Whisper (音声認識)	C++実装の音声認識AIモデル	GitHub
ずんだもん (合成音声)	日本のボーカルシンセサイザーキャラクター	zunko.jp
myedit (クラウド型ノイズリムーバー)	オンライン音声ノイズ除去ツール	myedit.online
ESLint / TypeScript	JavaScript/TypeScript開発のリンター	typescript-eslint.io
Devin AI	自動コード修正・PR作成AI	devin.ai
GitHub Copilot / Copilotワークスペース	コード生成AIツールとその拡張機能	GitHub
Stable Diffusion	テキストから画像生成AIモデル	stability.ai

https://amzn.to/3Qx6gPk