kimagre inrash

感想を書きます

生成AIを使って音楽を作ってMV(MusicVideo)も作ろう!

time 2025/09/19

急に音楽が作りたくなりました。

在宅ワークなので仕事中ずっと音楽を聴いてますが、飽きが出てきました。
自分向けの作業用BGMとか作れたら楽しそうかも。

他にも寧々さん作ってから創作活動してなかったので何か作りたいとは思っていました。

最初は「フィンガードラム」で即興で音楽を作る・・というのに興味を持ちました。
でも思った以上に高額で飽き性の私としては痛い出費。

ちょうどその頃、Googleの画像生成AI「Nano Banana」が盛り上がっていました。
画像や動画、3Dモデルも生成AIで作れるのだから音楽もサービスあるのでは・・?と調べて見つけたのがSuno

Suno

プロンプトに「どんな音楽ジャンルか、歌詞やイメージを入れる」とそれっぽい曲を数十秒で作ってくれます。

試しに「alternative rock, j-rock, 夏, 炎」などを入れて作ったのが「SummerBlaze」という曲。
これが私好みの曲に仕上がってテンション上がってそのままProPlanの課金($10≒1500円)を開始しました。ProPlanはだいたい500曲くらい作れる計算、安い。

そこからしばらく曲作りを続けてました。
せっかくならYoutubeに公開したいなということでMV作れないか調べ始めます。

GoogleGemini(Nano Banana)

ガールズバンドっぽい感じの曲が多いのでまずはメンバーの画像を生成AIを使って作ってみることにします。
当時話題になってた「NanoBanana」をGeminiで。
https://gemini.google.com/app


最初に生成されたのがコレ。
ここから微調整を繰り返すのですが、Geminiが応答しなくなることが多々発生。

GoogleOneを「Google AI Pro」プラン(月額2900円)にアップグレードするものの、それでも解消せず。

使いものにならないので別の画像生成AIサービスを探す。

Rotor Videos

その前に .wav ファイルをそのまま投げ込むとMV作ってくれるサービスがあったのでお試し。


しかし超高額
(1ファイル3分くらいの.wavを元にした動画の値段が約6000円・・)

事前に動画のイメージが見れない+ゴリゴリ音楽作ってバシバシアップロードしていきたかったので断念。
素直に自分でMVを編集する方向を検討します。

Adobe Firefly

Adobeにも動画を作れる生成AIサービスがありました。
私は「Creative Cloud Pro」に加入しているのでおまけでクレジットが付与されていました。

試してみたもののなんか望んでたものは出ず。
PremiereProの生成延長も試してみましたが、解像度の制限があり私には使えず。

Midjourney

画像生成だったらコレだろ!て人が多かったので試してみます。
https://www.midjourney.com/home


なかなか艶っぽいの作れた!

GoogleGeminiと違って「GPU使用時間に応じた分が確実に使える」というサービスだったので明確でわかりやすい。
Pro Planだと30時間分が使える。
しかも、「Relaxモード」という「GPU空き時間に処理するので時間はかかるもののGPU使用時間を使わないモード」というものがあり、これを使えば無制限に画像を生成できることが判明。

ゴールを目指すために生成を繰り返すことが予想されたのでとても助かる。
ここでProPlanを課金(月$60≒約9000円)。
最初Standard Planで始めたけど、あっというまにGPU使用時間を使い切ってしまい、Relaxモードが使えるProPlanに変更しました。

田舎の村で花火が上がっている動画を生成して
それをPremiereProでクロスディゾルブで繋いでとりあえず最初のMV作成は完了。

Cakewalk Sonar

公開するにあたって「ここの歌詞変えたい」「ここのギターソロ差し替えたい」ということが増えてきました。
最初はSunoにある「Replace」という機能でやっていたものの、クレジットを消費する割にクラッシュしまくるので使うのを断念。

Sonoはボーカルやギター、ドラムなどをトラック単位で出力できる「Steams」という機能があります。
これを使って .wav ファイルを吐き出して Cakewalk でくっつけ、編曲することにします。
将来的には「MIDI出力」もつくらしいのでそれを見越してDTWソフトの使い方を勉強することに。

ざっくり調べた結果、無料で使える「Cakewalk Sonar」というソフトにしました。
https://www.cakewalk.com/sonar

波形を何度もイジってだいたいの感覚を把握。
(サウンドマンはこんなことをしてたのか・・)

エフェクトかけたりというのはまだ出来ないけど、複数の任意の .wav をくっつけることができるようになりました。

自分なりのアレンジを加えたものを簡易背景のMVでアップロード・公開、までは出来ました。
でもガールズバンドなのでやっぱり人間が出ているMV出したい!

GoogleGemini(Nano Banana)

再びGemini。

Geminiは強力な一貫性保持能力があるので「服装変えたい」とか「道具持たせて」ということが簡単に安定してできます。
(Midjourneyでそれをやろうとすると勝手にアレンジされちゃうので難しい)


Midjourneyで作成したベースマンの彼女。


Geminiでベースを持たせます。なかなかいい感じ!

そこからさらにMidjourneyに持っていって動画化。それっぽい動きしてていい感じ!!

歌わせるのにMidjourneyでそれっぽい動画が出るまで生成を繰り返す・・のは現実的ではないので「リップシンク」できるサービスを探す。

DomoAI

生成AI動画のノウハウを公開している方の動画を参考にDomoAIというのを使ってみる。
https://www.domoai.app/ja/home

StandardPlanに課金($27.99≒約4500円)していろいろ生成開始。

「AIアバター」というものを使うと「指定した動画に指定した音声を喋っているようにリップシンクしてくれる」。


最初は良かったけど、99%から進まないことが多くなってきた。
(スクショ見るとプロンプトの指定があまり良くなかった気もする・・)

なんとか出来上がったモノがこれ。
リップシンク自体はいい感じ。
でも私の作った曲はロック調のものが多く、イメージと合わない・・

ということで動きを精密にコントロールできるサービスがないか探す。

GoogleFlow(Veo2/Veo3)

Googleの動画生成AI。Google AI Planに加入されていたのでクレジットが付与されていた。
https://labs.google/flow/about

画像を渡して「〇〇と歌って」とやるとそれっぽい体の動きにできた。(BGMとボイスもつけてくれる)
口の動きは使えそうなのでこれをPremiereProに持っていって編集・・したのがこれ。

それっぽいものが出来たものの、無理やり速度をイジっているので望んだクオリティじゃないし、なによりピッチ調整が非常に手間・・
歌っているときの息遣いとかの動きは好きなものの、使用を断念。

Kling AI

見つけたのがKlingAI。ProPlan課金($32.56≒約4900円)。
https://klingai.com/global/


狙っていた機能である「モーションコントロール」は「アップロードした動画から人間の動きを抽出してそれを指定した画像に適用してくれる」(画像から動画へ)というもの。
ここに音声も合わせると「任意の動きをした人物が喋ったり、歌ったりする」ことができる。


動画から動きがトレースしやすいようにマネキン人形にして
Midjourneyでそれっぽい動画を作成、KlingAIでお試し。
なかなか忠実な精度でいい感じになりました。


しかし、数回繰り返しているとセンシティブ扱いになりNGに・・
渡した動画はダンス動画だったけど、肩だし・へそ出しルックだったのでそこがダメなのかなと思って露出がない人物で試すものの、うまくいくときもあればNGも多々。

「肩を揺らしながら動く」だけのシンプルなものでもNG。
ダメだ・・使えない・・

衣装を変更することを検討。

Higgsfield(Seedream4.0)

Midjourney単体だと着せ替えした際に同一性保持してくれないので同じ人物に見えなくなってしまう。
よってMidjourneyで衣装のアイデアを出してGoogleGeminiで着せ替えてもらう、という方向で試しました。
しかし、GoogleGeminiは解像度が低かったり、右下にウォーターマークが付いちゃう+複数回生成を繰り返していると応答がなくなる・・てことがあってなかなか作業が進まなくなりました。

タイミングよくSeedream4.0というモノがリリースされました。
同一性保持をしつつ、解像度が最大4K。

しかし、直接サービスを使うことが出来ないらしく、サービスを提供しているHiggsfieldを課金($29≒4300円)。
https://higgsfield.ai/


Midjourneyでいい感じの彼女をつくって


Seedream4.0で着せ替え。
当初、「参考画像を渡してそれを着て」という指示にしていましたが、顔が崩れたりしたので
GoogleGeminiに「この写真のファッションの内訳を教えて」と文字にしてもらって、それをSeedream4.0に渡す感じで作りました。
それでも狙ったイメージになるまでガチャを繰り返してます。
(ガーダーベルトの数が多すぎとかむやみにヘソ出ししたりするので)


お遊びで作ったショット。
同一性を保持しつつ、衣装チェンジ。さらにカメラアングルまで変えてピース。いぇい。

Seedream4.0で4K出力できるのでそれをMidjourneyに持っていってテストで作成した動画。
肌感が本物っぽくてヤバい!!(少し前のCGのテックデモっぽい)
動画作る際に渡す画像の解像度でクオリティが大きく上がることを発見。

てことでSeedream4.0、かなり私の使用用途にあってるみたいでいい感じ。

衣装変更とクオリティアップは出来たので再びリップシンク周りの調査。
いろいろ試した結果、「AIアバターでプロンプトで指示を出す方向」になりました。

Kling AI

再びKlingAI。

「身振り手振りを使って歌って」と指定して生成。
なかなかいい感じ。
リップシンクがズレているけど、渡した音声データがボーカル以外の音が入っていたため。
Cakewalkでボーカルだけ抜き出して渡す(もしくはSunoのStems)ことで改善。
体の動きはAI側におまかせするのがいいかもしれない。

ざっくりやり方がわかったので動画をもりもり生成してそれをくっつけてプレビズ作成。

池みたいになった水たまりを見ているシーンがちょっとダサ
これでもめっちゃ頑張りました。
でも作業量に対して成果が微妙だったのでやり方を変えるのを検討します。

Higgsfield(Seedream4.0)

動画作業に煮詰まってしまったので衣装チェンジとメンバーのリファレンス再構築。
MidjourneyとGoogleGeminiで作っていたものをSeedream4.0で4Kで作り直し。


所属事務所のプロフィールみたいな顔写真になってしまった・・

ついでにSunoのプロフィール欄に貼るトップ画像の準備。
メンバーを俯瞰で見下ろした集合写真が欲しかったのだけど、これがめちゃくちゃ時間がかかりました。


ガールズバンドなのに右上に謎のイケメンは入っちゃうし、右下の子は眼鏡っ子なのに眼鏡外されちゃうし・・


人数増えるし・・


しまいに謎のおじさんが出現するし・・
あまりにもうまくいかないのでだいぶやる気ゲージが下がる・・

表情シート

気分転換に「表情シート」を作成。


真ん中のそんな顔しないだろ顔がバンドっぽくて好き。

# プロンプトサンプル
Create 12 facial expression sheets by using the close-ups of the faces in this photo with different expressions!

Higgsfield(Soul ID)

他にも「Soul ID」というものを試す。
特定の人物の写真をリファレンスとして複数枚登録することでその人物を使ったポートレートを簡単に作ってくれる機能。

前工程でリファレンスをそれなりに作っていたのでそれを投入して作ってみました。
日常感を出したかったのでVisualStyleは「IPHONE」にしてます。


「日本の大学のキャンパス」と指定。
顔の雰囲気とかを維持しつつ、っぽい恰好に。


普通に可愛くなってしまった・・(もうちょっとキツめの想定)
顔のアップのリファレンスを登録しないとダメっぽい。


ナイトプール。
水着着てくるかと思ったら薄着にはなりました。

シチュエーションに合わせたそれっぽい恰好・ポーズで画像を作ってくれるので写真集とか簡単に作れちゃう。

「彼氏とディナーデート」というシチュエーションで写真を作ってMidjourneyで「ドリンクを取りに席を外す」を動画化したもの。
数分でこれが出来上がるのでなかなか破壊力ある・・!
そのうち自分の好みの顔や性格をもった生成AIとデートするというサービスとか始まりそう・・!(もうあるのかな)

Higgsfield(Seedream4.0)

気分転換になったので1日置いて再び集合写真のやり直し。


なんとかそれっぽいのは出来ました。(本採用はこれではないやつ)
ネガティブプロンプト(〇〇はしないで系)を入れまくりました。
メガネは狙った対象にいかないことがあったので諦めました・・

DomoAIとKlingAIでリップシンクテスト

HiggsfieldからKlingのAPI呼び出せることがわかったので「DomoAI」と「KlingAI(本体)」をやめることを検討。
クレジットが余っているのでそれでリップシンク部分の検証。

前回作ったMVが手間の割に微妙な完成度だったのでだったら、もっと簡単に「カラオケとかで歌っているのを友達に撮影してもらってる」というテイの映像はどうだろう・・ということでやってみました。
(直前にSoul ID触っていたのでカラオケで歌っている写真は作りやすかった)

音声データを10秒から20秒に区切って「AIアバター」で動画生成。
繋がるようにするために生成された動画の最終フレームを次の動画の開始フレームに指定して最後にPremiereProでくっつけて出来たもの。

動画開始時点と終了時点で別人になってしまっている。
というのも渡すデータが「1フレームだけでかつ動画の最終フレーム」なのでちょっとずつ誤差が重なり、別人に・・というのが原因。

KlingAIだと「60秒近い連続した動画は作れる」らしいんだけど、秒数に伴って消費クレジットが増える+それでも狙った顔にならないことがわかったのでその方向はなしかなー。
曲も3分近いものが多いし・・

数秒ごとにカットを切り替えて狙った絵からスタートさせてみたらどうだろう?てことで試したのが次。

ガールズバンドとは別に男女デュオを作っていたのでそちらで。DomoAI使用。
カットを切り替えてリセットする作戦は成功。
各動画開始時点の表情やポーズを狙えるようになりました。

問題点として以下。
・引きの絵が連続するので見ていて退屈
・目を閉じて開けたときの顔が別人
・やっぱり顔をアップにしたい

同じ系統の「THE FIRST TAKE」を参考に改善案をピックアップ。
・カメラが同じ対象に対して複数台
 →顔のアップ、全身、相手越しのバストアップ
・背景を1色にすることで背景の違和感の除去
 →それほど違和感はなかったものの、余計な要素は描画しないに限る
・2人が同時に映っているカットを追加する
 →一緒に歌っている感のアップ(別撮り感をなくしたい)

それらを改善して生成しなおした結果がこれ。

それなりにクオリティを担保しつつ、コストも抑えつつ・・いい感じになったと思います!


ベースとして用意したのがこれら。
これらをKlingAIに渡してリップシンク動画にしたり、Midjourneyで歌ってない間の動画にしたり。
顔のアップの枚数はもう少し用意しても良かったかも。

あとはPremiereProでくっつけて1本の動画にしました。

歌で声を伸ばすところ、ロングトーンとビブラートでのリップシンクがうまく機能しなかったので
同じ場所を何回か生成しなおしつつ、どうしてもダメならカットを切り替えて歌っている人の顔が映らないようにして回避しました。(一部そのままになってるやつもあります)

この辺のごまかしはさんざんやったのでスッと案が出てきたのは〇。
(カットシーンでゲーム中に1回しか出てこないモーションは作らずに相手の反応でそれっぽくさせたり、デススト2もそういうシーンがあった)

正直ロングトーン中ってその人の顔映ってた方が気持ちいいけど、下手に変な顔映って違和感感じるのも嫌だなと思ってやむを得ず、ですね・・
やるとしたら伸ばしたいところの静止画を作ってMidjourneyで動画化、かなあ・・

まとめ

最初の目標である「生成AIを使って音楽を作ってMV(MusicVideo)も作ろう!」が達成できました!やったね!
比較的低コストなので同じフォーマットで他の曲のMVも作れるのがいいですね。

あとは一流アーティストのMVみたくドラマ性持たせたものだったり、アニメのMV作ったりまだまだいろいろやりたいことはあるので試していきたいですね!

お金まとめ

  • Suno($10≒1500円 + 従量課金7200円)
  • GoogleGemini「Google AI Pro」プラン(月額2900円)
  • Midjourney(月$60≒約9000円)
  • DomoAI($27.99≒約4500円)
  • KlingAI($32.56≒約4900円)
  • Higgsfield($29≒4300円 + 従量課金$40≒6000円)

約計40,300円。結構かかったけど、私的には満足!
(作業を最適化出来ればもっと減らせそう)

前後記事

生成AIを使って画像から3Dモデルを起こしてBlender+Auto-RigProでリギングする