生成AI(その3)

今回も最近話題の「生成AI」に関するサービスを紹介します。

今回は、生成AIの仕組みについて少しお話します。従来AIは識別系と言われて学習した内容に応じて、正誤を判別するのが主体でしたが、生成AIはその名の通り、今まで存在してなかった新しい何かを生成することができます。

機械学習

当然、多くの情報をAIが学習する必要があるのですが、その手法として、機械学習というのがあります。最初は教師あり学習と言って、人間が様々な情報に意味を持たせて、それらを覚えるという方法です。たくさんの猫や犬を猫、犬と情報を与えていきます。そうすることで、どんな特徴があるかを把握することができます。

ただし、これは人間の作業が大変なので、教師なし学習や強化学習という仕組みが考えられました。教師なしは正解はないがグループ分けすることで推定するという仕組みで、強化学習はスコアを付けて高いものほどよいという仕組みです。間をとって、少量の教師ありデータと多くの教師なしデータで学ぶ半教師あり学習というのもあります。GPTはこの半教師あり学習で学んでいるそうです。

深層学習

また、深層学習という仕組みもあります。これは学習する対象を細分化して、階層構造で学習する仕組みです。バナナの特徴を黄色、果物だけでなく、曲がっているとか甘いとか東南アジアが主な生産地といった情報も含めて、細分化して学習していきます。その上で新しい情報を見た時にこれらの判断基準から推測するという仕組みです。

当然、分解度が高いと精度も高まる傾向にあります。隠れ層と呼ばれる層を何層もつくり、重みづけから一定の閾値を超えたものを次に渡すことで答えを推定していきます。当然、隠れ層が多いほど判断が増えるので精度が上がります。つまり、各層ごとに多くの分解できるポイントがあり、さらにその階層が深いとよいということです。

ちなみにGPT-3は層が96層あり、パラメータと呼ばれる分解能力が1750億個あるそうです。凄いですよね。仕組みが人間の神経網を模していることから人工ニューラルネットワークと呼ばれることもあります。GPT-4はさらに凄いとの話です。

今回は動画・音楽系を紹介します。

◆FlexClip
https://www.flexclip.com/jp/

無料で使える動画生成AIです。日本語に対応しているのがありがたいです。基本はオンラインの動画編集サービスですが、テキストから動画を生成することができます。

◆D-ID
https://www.d-id.com/

アバターにテキストで記載した内容をしゃべってもらえる動画AIです。サービスは英語ですが、日本語にも対応しています。自分が書いた言葉をアバターがしゃべるのは衝撃的です。

◆Runway Gen-2
https://research.runwayml.com/gen2

画像やテキストから動画を生成できるサービスです。他にもマスクやレンダーといった動画合成のAIも実現できるようです。有料ですが、少しだけ無料でお試しできます。

◆CREEVO
https://creevo-music.com/

京都大学が開発している自動作曲AIシステムです。歌詞を入れるとおまかせ作曲で音楽ができてしまいます。無料でここまでできるのは驚きです。

◆Jukebox
https://openai.com/research/jukebox

chatGPTを作ったOpenAIが開発した音楽生成サービスです。登録はchatGPTと同じなので、そちらのアカウントが使えます。こちらも機能が充実してきそうなので期待大です。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする