皆さん、ご機嫌よう! タカミックスです。
AIの進歩が目覚ましく、驚かされることが多いです。AIにとっては“進化”ではなく“進歩”かもしれませんが、我々ユーザーから見ると、まさに進化の一言に尽きます。
そのようなAIの進化の中でも、特に音楽生成AI『Suno AI』の能力には驚かされます。音楽業界に身を置く(ことを希望している)一人として、音楽関連の生成AIについてお話しします。
それでは行ってみまShow!
目次
音楽の生成AIについて
音楽生成AIであるSuno AIとは、全く作曲のイメージがなくても、歌詞も含めて音楽を作ってくれます。Suno AIは歌詞生成AIとメロディーやコードを生成するAIから成り立っているそうです。
さらに、生成AIを使用せずに自分で歌詞を入力することも可能です。そうすると、Suno AIが歌詞の意味まで捉えているかのような、歌付きの曲を生成してくれるのです。
Suno AIは音楽生成だけではなく、他の画像生成AIや動画生成AIと組み合わせることで、無限の可能性が広がって行くAIとなっています。
Suno AIは基本無料で利用できますが、商用目的での使用を考えている場合は、有料プランへの加入が必要です。
全部AIでやってみた
それでは早速、AIに楽曲の全工程を任せてみましょう。最初に、ChatGPTを使用して日本語での歌詞とタイトルを作成しました。
ChatGPTに“1番だけ”と指示したのは、どうやらSuno AIは無料プランですと、精々2分程度までしか楽曲生成ができないからです。
早速ChatGPTは厨二病っぽいタイトルと歌詞を生成しました。タカミックスはこういう厨二病っぽい物が大好きなんですよね。
ChatGPTで歌詞とタイトルが完成したので、後はSuno AIの『Create』内『Custom Mode』をONにしてからコピペするだけです。『Lyrics』に歌詞、『Style of Music』がジャンル、『Title』が題名です。それらを入力したら最後に『Create』を押せば音楽生成が開始されます。
音楽の生成時間は約1分程度でした。さて、どんな曲ができたのでしょうか?
感想
イントロが歌なんだかシャウトなんだか分からない以外、曲になってるじゃないですか! まず何が驚いたかって、日本語ですよ。イントネーションとか、普通に日本語してます。これ音楽生成AIだと言われなければ人間が歌ってると思いますよね?
ところでタカミックスはSuno AIを無料プランで使用しているため、このブログでの紹介が商標利用に該当するのかな? 『タカミックスの音楽情報局』のPVは少ないですが(涙)、Googleアドセンスからの収益はありますからね…
まあ、大丈夫でしょう?
サビは?
そう言えばヴァース(Aメロ)とコーラス(サビ)を入れてなかったので付け足します。この場合は[Verse][Chorus]と角括弧での記入すればOKみたいですね。
改めて作成した『鋼鉄の嵐』ですが、う〜ん、凄いな…
『鋼鉄の嵐 Ver.2』なんて、これってバンドを組んでいたら、バンドに持ち込んでアレンジすれば普通に売り物になるよね?
Suno AIって作曲できない人には有り難いツールですよね? それに作曲できる人でもSuno AIから曲のアイデア貰えるんですからね。
しかし、Suno AIって、その内ギターソロも弾く様になるのでは? まず日本語ボーカルで、ここまで抑揚を付けて歌えるので、伴奏じゃないギターソロまでOKになる気がしているタカミックスです。
男女の指定は?
なお、Suno AIではボーカルの性別を指定することは難しそうです。詳細には調べていませんので確信は持てませんが、歌詞のニュアンスによって性別が変わるようです。
お、『鋼鉄の嵐 Ver.Female』完成度高くないか? ヴァースとコーラスが揃っているので、大サビを加えれば市場で売れる曲になるのではないでしょうか?
ただし、現状のSuno AIでは[Verse][Chorus]以外の[Bridge]や[Pre-Chorus]は入れられないこともないけど難しいみたいです。
タカミックスも少しだけ歌詞をいじり、[Pre-Chorus]を追加してチャレンジしましたが、歌が途中で終わったり、サビがハミングだったりと上手く生成できませんでした。
他にも何曲か試してみたのですが、Pre-Chorusと入れると馬鹿正直に間奏にするっぽいです。これってAメロやBメロがあるのって日本だけなんですよ。Suno AIはアメリカで開発されたソフトなので、仕方ないと言えな仕方ないのですが…
もっともPre-Chorusを入れろとかって、無料AIに対して鬼畜的な要求ですね。
MIDI変換は?
Suno AIのような高性能な音楽生成AIを使用すると、MIDI形式でのエクスポートが可能かどうか気になります。外部ソフトウェアを使用すれば、ボーカルを除く演奏部分のMIDI変換が行えるようです。
細かいことは省略しますが、一般にMIDI変換には有料のサードパーティソフトウェアが必要だと言われています。しかし、実は無料の方法も存在しますが、ここでは省略させて下さい(まぁ、タカミックスがそこまでしてMIDI変換したい訳じゃないからなんだけどね)。
画像生成AI
画像生成AIの進化も凄いですね。タカミックスは画像生成AIについては門外漢ですが、素人目線でも画像生成AIの進化が分かります。
以前は、AIが生成した画像の不自然な手の指を見ればAIの作品と判別できると言われていました。これはAI側が、まだ手の構造を学習しきれていないので、指を描くことが出来なかったと言われていました。
なのでラーメン食べてる女の子とかをリクエストすると、まず箸を持つ指がトンでもないことになっていました。ついでにラーメンの麺も饂飩や針金の様に描かれており、一時期ラーメンチャレンジとか言われてたくらいです。
しかし、この問題は現在解決されているようです。
いや… 凄ぇよ、マジで! ラーメンがラーメンになってる!(語彙力が貧困だな…) 麺もちぢれているし、チャーシューにネギ、ナルト、黒いのはおそらく茎わかめでしょう。そして卵なんて半熟で描かれているじゃないですか! 店もラーメン屋っぽいですしね。
ChatGPTには『ラーメンを食べてる女の子を描いて下さい』としか打ち込んでないんですからね。
AIが仕事を奪って行く?
AIの進化は凄まじく、タカミックスは仕事でサイトの記事制作を、ほぼChatGPTで行っています。
タカミックスは有料版のChatGPT Prusを使用しています。ChatGPTは11月7日にアップデートされ凄まじい性能に生まれ変わりました。なのでプロンプトさえ打ち込めば、たった1行の文ですら、信じられないくらいに内容を強化してくれます。
では例として、以前ChatGPTに質問してみた第4期ディープ・パープルについて聞いてみました。プロンプト以外はタイトルも文章も『DEEP PURPLE IVについて』のみだけの入力です。
以外ChatGPT生成文
タイトル: 「Deep Purple Mark IV:ロック史に残る革命的な転換点」
Deep Purple Mark IVは、バンド史上最も短命ながら影響力のあるラインナップとして、1975年から1976年にかけてのわずかな期間に存在しました。この期間は、バンドが音楽的な探求と実験の頂点に達した時期であり、彼らの音楽の方向性に大きな変革をもたらしました。Mark IVのラインナップは、リッチー・ブラックモアの脱退後、トミー・ボーリンが新たなギタリストとして加入し、バンドに新たな息吹をもたらしました。
トミー・ボーリンの加入により、Deep Purpleの音楽スタイルは、従来のハードロックやヘヴィメタルから、ジャズ、ファンク、そしてブルースの要素を取り入れたより多様なサウンドへと進化しました。特に、1975年にリリースされたアルバム「Come Taste the Band」は、この新しい音楽的方向性を示す代表作となりました。このアルバムは、当時のロックシーンにおける音楽的傾向とは一線を画す、実験的かつ革新的な作品として評価されています。
「Come Taste the Band」のトラックでは、トミー・ボーリンの多彩なギタープレイが際立ち、特に曲「Gettin’ Tighter」や「Love Child」では、彼の技術の幅広さと創造性が光ります。ボーリンのジャズとブルースに根差したスタイルは、ディープ・パープルのサウンドに新たな次元を加え、バンドの音楽的範囲を広げる重要な役割を果たしました。
しかし、この時期のDeep Purpleは、内部の緊張と個々のメンバーの個人的な問題により、困難に直面していました。特に、ボーリンの健康問題やドラッグの問題がバンドの安定性を損ない、彼らのパフォーマンスと創造性に影響を与えました。結果として、Mark IVは1976年に解散し、その後Deep Purpleは1984年まで活動を休止しました。
Deep Purple Mark IVは、バンドの歴史の中で短い期間であったにもかかわらず、彼らの音楽的遺産において重要な役割を果たしました。彼らの音楽は、後の世代のアーティストに影響を与え、ハードロックとジャズ、ファンクの融合という新しい音楽的地平を開拓しました。この時期のDeep Purpleは、音楽の革新性と多様性の追求において、ロック史における重要な一章を形成しています。
凄い…
凄ぇ! メンバー名・年数・曲名・ジャンルを含めて全て合ってる! 元文章は 『DEEP PURPLE IVについて』のみだけですぜ? マジで凄すぎないか、ChatGPT! とか思っていました。
が、なんとここで天下のGoogle様が2023年12月18日にGoogle Bardにて、信じられないアップデートをかましてきました。
驚愕のBardアップデート
このBardのアップデートが何を意味するのかと言うと、メール、YouTube、Googleマップ、GoogleドライブがBard内で全て完結すると言うことです、しかも無料で!
実はタカミックス、なんだかんだ言ってもChatGPTの方がBardより高性能だと思っていたんですね。それがBardのアップデートによって、日常生活においては一気にBardの方が役立つAIになってきました。
回答性能だけは若干不得手
ただBardの方は回答の性能については、ChatGPTに比べると不得手な所が見られました。ただ、その理由は現在日本語版Bardで使われている言語モデルがPalM2だからと言われています。英語版Bardで使われているのはGemini Proという新世代言語モデルなんですね。なので今後は日本語版BardもGemini Pro、そしてGemini Ultraといった言語モデルに切り替わって行くと思います。そうなれば回答性能も劇的に変わるのではないでしょうか?
実際に現状のPalM2使用のBardで第4期ディープ・パープルについて聞いてみましたが、回答内容はてんでんバラバラでした。
同じことはできない? ChatGPT
このBardのアップデート内容って、ChatGPTには無理なんですよ。
何故ならChatGPTを開発しているOpen AIはメールサービスや動画サイトまでは行っていないからです。しかしGoogleはGmailにYouTube、Googleドライブとネットメディアを席巻しています。
もう売上の規模だけで見ると、GoogleはOpenAIよりも約80倍大きいと言われているんですね。
会社規模で優劣を決める訳ではないのですが、ChatGPTがBardに勝る部分を探すなら言語モデルに力を入れるしかないのかな? と思っています。
…なんて知ったかぶりをして書いてしまいましたが、この辺はChatGPT PluginsのZapierあたりで代行できるのでは? と思いました。しかしZapierに代表されるプラグインは有料プランであるChatGPT PLUSに加入しなければならないことを考えると(2023年12月現在)、やはりBardの方に分があると思います。
生成AIの問題点?
様々な生成AIの進化に驚かされる日々です。その進化によって人間の仕事が奪われていってる様な気がしないでもないのです。
しかし、音楽生成AIなんかはアマチュアミュージシャンから見れば、結構活用し甲斐があると思うのですがね…(一部のプロミュージシャンは躍起になって否定してたりするのですが)
生成AIの進化が段々ヒューマナイズ化しているので、人間が作った物か、生成AIが作った物か分からなくなっていますが、果たして生成AIに規制が入る日がくるのでしょうか?
生成AI規制について
2023年12月21日に文化庁が生成AIの無断学習、主に著作権について思案を出したらしいが、例題は出さなかった。う〜ん、そりゃ出せんだろ? 生成AIが行なっているのは、あくまで学習だからね。
世界的に見れば2023年12月8日に欧州連合(EU)で大筋合意されたとする『AI規制法案(以下AI Act)』なのですが、著作権に関する情報だけ取ると、AI Actでは学習元のデータが著作物であった場合は不可との項目があるらしいです。
なので、仮にAI Actが施行されるとSuno AIもダメになるってことですかね? 何故ならSuno AIは「学習元データが著作物の可能性があるので、利用者が著作権侵害で訴えられても責任は取りません」と、最初から宣言しているからです。
しかし、良く良く調べてみるとSuno AIの“著作権侵害で~”と言うのは、あくまで予防線らしく、生成後のデータが既存曲と似ていたら、それはそっちで(例えばタカミックスが作ったデータならタカミックス自身が)責任取ってくれよ、ってことらしいです。
たとえば『ひまわり』
まぁ、極端な話フィンセント・ヴィレム・ファン・ゴッホ(以下ゴッホ)の『ひまわり』を画像生成AIに学習させたとしますよね?
そして画像生成AIにゴッホの色彩感覚やタッチで『ひまわり』を描いてちょんまげ! と指示すると、ゴッホ風のヒマワリを描いてくれる訳ですよ。
ちなみにゴッホが描いた花瓶に挿された『ひまわり』は、合計で7枚存在します。
この画像生成AIが描いた『ひまわり』も、あくまでゴッホの色彩感覚とタッチを学習させた上で『ひまわり』を描いて貰った訳なので、模写やトレースには当たらん訳なのです。
ここで散々著作権云々に関して御高説を垂れてるタカミックスに対して、ゴッホの『ひまわり』は著作物じゃないのかよ? とツッコミが入りそうなのですが、ゴッホの作品は全てパブリックドメイン(著作権の保護期間が終了した物)となっていますので、著作物に当たらないのです。
たとえば『ゲルニカ』
これがパブロ・ディエゴ・ホセ・フランシスコ・デ・パウラ・ホアン・ネポムセーノ・シプリアーノ・デ・ラ・サンティシマ・トリニダード・ルイス・イ・ピカソ(以下ピカソ)の『ゲルニカ』になると話が違ってきます。
ピカソは1973年に亡くなられているので、パブリックドメイン化されるのは著作者の死後70年(ベルク条約なら50年ですが、色々面倒臭いので ここでは70年としておきます)となっています。なので、この場合ピカソの『ゲルニカ』は著作物に当たります。
今回もピカソの『ゲルニカ』を画像生成AIに学習させ、同じような作品を生成して貰いますが、画像生成AIは参考資料としてゲルニカを学習しているだけなので、生成された作品が模写や模倣をしている訳ではないのです。
どこで著作物を判断してるの?
今回パブリックドメインであるゴッホの『ひまわり』と、著作物であるピカソの『ゲルニカ』を画像生成AIに学習させたのですが、この著作物か否かの判断ってユーザーに一任されているんです。よするにAI側では判断できませんよ、ってことです。
なのでAI Actで言及されている“学習元のデータが著作物である場合”という条件の線引きが不明確であるため… と言うより、少なくとも数限りなくある著作物をAI側が判断するのは無理な気がするんですよね。
このように画像生成AIに関する具体的な著作権の規制は現状では不透明なのです。
コンテンツの質は間違いなく上がっているが…
最近の生成AIからは、従来の“AIっぽさ”が薄れてきています。記事制作であればプロンプトで語尾やニュアンスまで高度に指定できるようになったからです。
ちなみに、この記事でChatGPTを使って生成したディープ・パープルの第4期に関する部分では、語尾やニュアンスの細かい指定はしていません(面倒なんで…)。にもかかわらず、高品質な記事が提供されています。
しかし、反面を考えると、AIによる高品質な記事の生成が、結果として内容の均質化を招いているように感じます。
記事、絵、音楽など、AIによって生成されたコンテンツは高品質である一方で、個性を欠いているという矛盾を抱えています。これはタカミックスだけの感想ではないでしょう。
これからはAIを使いながらも、製作者の個性が加えられる作品が真に売れる物となるのでしょうね…
まとめ
AIが人間の仕事を奪うという話は、技術革新と労働市場の未来に関わる問題です。タカミックスの場合、それは創造的な活動に当たるのかもしれませんね。AIの進化により、繰り返し作業や単純なタスクを自動化する能力が向上し、製造業(作曲)やデータ入力などの分野で人間の仕事が減少して行ってます。
人間が指示した上でAIが生み出した業務に、さらに人間のアイデアを加えることで、AIと人間が共存し、相互に進化していくことが今後の鍵となるでしょう。
おしまい