横田英史の読書コーナー
生成AIのしくみ〜〈流れ〉が画像・音声・動画をつくる〜
岡野原大輔、岩波科学ライブラリー
2025.1.1 1:19 pm
Preferred Networksの共同創業者で代表取締役最高研究責任者の著者による生成AIの入門書。岩波科学ライブラリーから出版された前著「大規模言語モデルは新たな知能か〜ChatGPTが変えた世界〜」の出来が素晴らしかったので購入したが、入門書というものの少々難解だった。評者レベルでは、著者の意図の1/10ほどしか理解できなかった。
筆者は執筆の狙いをこう説明する。「現在の生成AIが〈流れ〉をどのように使って画像や音声、動画をどう生成しているのかを、数式を使わず重要な概念を誰でも理解できるように説明すること」。生成AIの仕組みを定性的に説明する試みはユニークで興味を引くものの、評者のような素人向けには成功したとは言いづらい。ただし〈流れ〉が、将来的には広く認められるアイデアになる可能性もあるので、手頃な本書に挑戦するのも悪くない。
著者が強調するのは、「水面にインクで書いた文字が広がる過程を逆向きに再生できれば文字が浮かび上がる」ような〈流れ〉が生成AIの核心となるアイデアということ。〈流れ〉によって、生成AIは画像や音声、動画を作り出すとする。
筆者は、まず生成AIの生成タスクを「とりわけ難しい機械学習問題」と位置づけ、その問題を解くツールとして「多様体仮説」「対称性」「構成性」などを紹介する。こうした知識を前提に議論を展開し、「流れをつかった生成」というアイデアの優位性を示す。最後に限界と今後について論じる。
本書の“売り”は、〈流れ〉の数理を数式なしで解説するところだが、残念ながらちょっと無理がある。数理を知っている人間にとっては、得心のいく定性的な説明のようだが素人には少々厳しい。ぼや〜とイメージできるが、腑に落ちるとは言い難い。
書籍情報
生成AIのしくみ〜〈流れ〉が画像・音声・動画をつくる〜
岡野原大輔、岩波科学ライブラリー、p.144、¥1650