バナー広告（ネット配信広告）

横田英史の読書コーナー

生成AIのしくみ〜〈流れ〉が画像・音声・動画をつくる〜

岡野原大輔、岩波科学ライブラリー

2025.1.1 1:19 pm

　Preferred Networksの共同創業者で代表取締役最高研究責任者の著者による生成AIの入門書。岩波科学ライブラリーから出版された前著「大規模言語モデルは新たな知能か〜ChatGPTが変えた世界〜」の出来が素晴らしかったので購入したが、入門書というものの少々難解だった。評者レベルでは、著者の意図の1/10ほどしか理解できなかった。

　筆者は執筆の狙いをこう説明する。「現在の生成AIが〈流れ〉をどのように使って画像や音声、動画をどう生成しているのかを、数式を使わず重要な概念を誰でも理解できるように説明すること」。生成AIの仕組みを定性的に説明する試みはユニークで興味を引くものの、評者のような素人向けには成功したとは言いづらい。ただし〈流れ〉が、将来的には広く認められるアイデアになる可能性もあるので、手頃な本書に挑戦するのも悪くない。
　　　　　
　著者が強調するのは、「水面にインクで書いた文字が広がる過程を逆向きに再生できれば文字が浮かび上がる」ような〈流れ〉が生成AIの核心となるアイデアということ。〈流れ〉によって、生成AIは画像や音声、動画を作り出すとする。
　　　　　
　筆者は、まず生成AIの生成タスクを「とりわけ難しい機械学習問題」と位置づけ、その問題を解くツールとして「多様体仮説」「対称性」「構成性」などを紹介する。こうした知識を前提に議論を展開し、「流れをつかった生成」というアイデアの優位性を示す。最後に限界と今後について論じる。
　　　　　　
　本書の“売り”は、〈流れ〉の数理を数式なしで解説するところだが、残念ながらちょっと無理がある。数理を知っている人間にとっては、得心のいく定性的な説明のようだが素人には少々厳しい。ぼや〜とイメージできるが、腑に落ちるとは言い難い。

書籍情報

生成AIのしくみ〜〈流れ〉が画像・音声・動画をつくる〜

岡野原大輔、岩波科学ライブラリー、p.144、¥1650

横田英史（yokota@et-lab.biz）

1956年大阪生まれ。1980年京都大学工学部電気工学科卒。1982年京都大学工学研究科修了。
川崎重工業技術開発本部でのエンジニア経験を経て、1986年日経マグロウヒル（現日経BP社）に入社。日経エレクトロニクス記者、同副編集長、BizIT（現ITPro)編集長を経て、2001年11月日経コンピュータ編集長に就任。2003年3月発行人を兼務。
2004年11月、日経バイト発行人兼編集長。その後、日経BP社執行役員を経て、 2013年1月、日経BPコンサルティング取締役、2016年日経BPソリューションズ代表取締役に就任。2018年3月退任。
2018年4月から日経BP社に戻り、日経BP総合研究所グリーンテックラボ主席研究員、2018年10月退社。2018年11月ETラボ代表、2019年6月一般社団法人組込みシステム技術協会（JASA）理事、現在に至る。
記者時代の専門分野は、コンピュータ・アーキテクチャ、コンピュータ・ハードウエア、OS、ハードディスク装置、組込み制御、知的財産権、環境問題など。

＊本書評の内容は横田個人の意見であり、所属する企業の見解とは関係がありません。