今日から君もラッパーに! カメラで...

16
12

今日から君もラッパーに! カメラで写した猫も楽器もAIでラップ化 「Giorgio Cam」でテンションUPだ

Giorgio Camを試した画面

今日から君もラッパーに! カメラで写した猫も楽器もAIでラップ化 「Giorgio Cam」でテンションUPだ

 「Experiments with Google」は、Googleが人工知能(AI)や拡張現実(AR)といった最新技術の可能性を示すために、実験的な応用例を紹介しているショーケースだ。膨大なコンテンツを公開しており、その多くはスマートフォンやPCで試せる。 この記事では、多種多様な応用例の中から興味深いものをピックアップして紹介。実際に遊んだ体験レポートを通して、裏側にある技術の解説を行っていく。 読者の皆さんも、ぜひ自分の手で試しながらその仕組みを学んでもらえたらうれしい。きっと、最新技術の魅力に気付くはずだ。

カメラを使って即興ラップを味わえる「Giorgio Cam」

 今回は、スマホさえあれば誰でもラッパーになれる「Giorgio Cam」を取り上げる。 Giorgio Camは、スマホやノートPCのカメラを使うWebアプリケーション。カメラで写した物体をAIで認識し、認識したものを題材にラップ風の歌詞を自動生成して、ビートに乗せて歌う。ラップなので「歌詞」でなく「リリック」と呼ぶべきだろうか。 使い方は至って簡単。Webブラウザ上で動くので、Giorgio Camのサイトにアクセスして「LAUNCH EXPERIMENT」をタップするだけ。読み込み完了したら「LET'S GO」ボタンを押せばすぐにプレイできる。 ノリノリの音楽が流れ出してカメラが起動したら、近くにある物を画面に捉えてみよう。写ったものが何かAIで判断して、それをテーマにしたラップを即興演奏する。画面のエフェクトも、DJフロアの照明みたいで気分が上がる。 写真を撮るだけで、その場に合わせた即興のラッププレイを誰でもできてしまう。純粋に楽しいし、AIの物体識別や音声合成などの技術を気軽に体験できる良さもある。まさにExperiments with Googleらしさいっぱいのコンテンツだ。

たとえ誤認識されても、テンションはラップで上がる!

 早速遊んでみよう。ノートPCとAndroidスマホで動くそうだが、さすがにPCを振り回すのは大変なのでスマホにした。 ところが、今回使った「Pixel 3」だと内側カメラでしか撮影できず、被写体を捉えにくかった。しかも画面に表示される映像が左右反転しないので、画角内にうまく収めることがなかなか難しい。サンプルビデオでは、外側カメラを使えていて便利そう。機種依存なのか、Android OSバージョン依存なのか分からないが、慣れるまで苦労した。小さな物は認識されにくい 内側カメラだと持ち歩いて撮影しにくいので、スマホをスタンドに置いてやってみた。まずは手近にあった物から。一度起動すると、連続して5回プレイ可能。1回で2つの答えを歌ってくれる。 最初に写した腕時計は「sleeve」(袖)と「gesture」(ジェスチャー)に、2番目に写した万年筆は「hand」(手)と「finger」(指)になってしまった。 3番目に写した眼鏡は、素直に「glasses」(眼鏡)でなく「vision care」(視力補助具)という少しずれた解釈になり、続いて迷ったのか「thumb」(親指)と答えてきた。さすがに自信がないようで、表示された信頼度は80%と高くない。 4番目にハサミを見せたら「tableware」(食器類)と「nail」(爪)になった。トングを持つ手と間違えたのだろうか。 最後に「太陽の塔」のミニチュアを写したところ、「toy」(おもちゃ)と「creative arts」(アート作品)と歌ってくれた。やっと正解になって一安心だ。 どうも小さい物は苦手で、画面内にある別の目立つ物に影響されてしまう。もっとも、誤認識は誤認識で面白いし、拍手喝采で終わるのはフロアを盛り上げられたようで気分がいい。大きい物だとほぼ全問正解 次にもう少し大きな物で試してみた。すると、5回のうち4番目に写したヘッドフォン以外は見事正解した。カメラで写したものとGiorgio Camが返した答えは次の通りだ。1. コップ:drinkware(飲み物用の食器)、tableware(食器)2. ワインのボトル:bottle(瓶)、wine(ワイン)3. カメラ:photographer(写真家)、digital camera(デジカメ)4. ヘッドフォン:arm(腕)、gesture(ジェスチャー)5. ノートPC:computer(コンピュータ)、laptop(ノートPC)楽器の細かな違いは区別できない 毛色を変えて手元にあった楽器を試したところ、十分に大きいためか正解率が高かった。間違えたのは1番目のタンバリンだけで、画面に入った「arm」と「sleeve」に引きずられてしまった。 2番目に見せたシンセサイザーは「musical instrument」(楽器)、「keyboard」(キーボード)と正解。ちなみに、別のタイミングでピアノを見せたら「piano」と答えており、両者をきちんと区別できていると分かった。 ところが、3番目からのアコースティックギター、エレキギター、エレキベースは、以下の通り見分けられなかった。1. タンバリン:arm、sleeve2. シンセサイザー:musical instrument、keyboard3. アコースティックギター:guitar(ギター)、string instrument(弦楽器)4. エレキギター:musician(ミュージシャン)、plucked string instrument(撥弦楽器)5. エレキベース:hand、string instrument accessory(弦楽器の部品)猫とぬいぐるみの区別は? 生き物とぬいぐるみは区別できるのだろうか。試してみた。 猫を写してみると、「cat」(猫)と正解しつつも「carnivore」(肉食動物)や「vertebrate」(脊椎動物)とひねった回答を出した。「leg」(脚)のように一部分だけ判定することもあり、案外難しいようだ。「comfort」(快適)と答えたこともあり、猫らしいと言えば猫らしいが、AIにどんな学習をさせたのだろうか。 ダンボは世界的に有名だからか、「toy」「stuffed toy」(ぬいぐるみ)と正解しつつも、「hand」「watch」(腕時計)を誤認識した。 チェコの国民的キャラクター「クルテク」と、日本で人気の「11ぴきのねこ」に登場する「のらねこ」は、結果が微妙だった。クルテクは「hand」「arm」の他、「joint」(関節)や「shoulder」(肩)と表示され、どうやら形に大きく影響されてしまった。のらねこは「head」(頭)、「product」(商品)、「eye」(目)というように、目立つ部分につられたようだ。

次ページは:画像認識だけじゃ物足りない……それならラップにしよう