• Event Report
  • Summit
  • Trend

AI開発最前線 〜専門家が語る注目AI領域と今後の展望〜

2024/12/03

ここ数年、生成AIが世間の関心を集める中、世界のAI開発現場では今どのような技術が注目されているのでしょうか。また、AIの発展に伴う倫理・社会課題にどのように対処すべきなのでしょうか。世界を舞台に活躍するAI事業・開発専門家との議論を通じて、AI開発の未来を考察しました。

(この記事は、2024年10月30日に開催されたJapan Summit 2024のパネルディスカッション『AI開発最前線 〜専門家が語る注目AI領域と今後の展望〜』に基づき構成・編集しました)


[Panelists]


砂金 信一郎氏

Gen-AX株式会社 代表取締役社長 CEO

生成AIに特化したB2B SaaSと業務変革コンサルティングを提供するソフトバンク株式会社の100%子会社Gen-AXの代表を務める。業務知識や接遇の高度なチューニングが必要な、カスタマーサポートや照会応答業務の効率化・自動化を、自律エージェントやLLM Opsなどの技術で実現する。東京工業大学卒業後、日本オラクル、ローランド・ベルガー、マイクロソフトでのテクニカルエバンジェリスト、旧LINEでのプラットフォーム推進やAIカンパニーCEOを経て現職。2019年度より政府CIO補佐官、その後発足時よりデジタル庁を兼任し、インダストリアルユニット長を兼任。


久保 陽太郎 氏

Senior Research Scientist, DeepMind, Google

2010年に早稲田大学にて博士号取得後、ドイツRWTHアーヘン大学での短期ポスドクを経てNTT研究所(京都)に入社。一貫して音声認識における機械学習の研究に携わる。その後、再びドイツに戻りAmazonに入社。音声検索や日本語版アレクサといった音声認識サービスのローンチを行う。2018年より、Googleに入社し東京オフィスにて音声認識技術の研究を続ける。著書に「深層学習」「機械学習による音声認識」


樋口 賢一 氏

株式会社Adansons 取締役 CPO

東北大学医学部医学科在学中、同大学教授および若手研究者とともに「人の命を預けられるAIの実現」をミッションに株式会社Adansonsを創業。 解釈性の高い独自の特徴抽出技術を基盤として、現在はシリコンバレーを拠点に機械学習モデルの性能テストと性能改善を行うソフトウェア『ML Debugger』を展開し、自動運転に取り組む企業を中心に販売している。


[Moderator]


戸上 真人 氏

アマゾンジャパン合同会社 Japan Consumer Innovation Principal Applied Scientist

2002年東京大学工学系研究科航空宇宙工学専攻修士課程修了。2003年10月日立製作所中央研究所入社。2011年東京大学工学系研究科航空宇宙工学専攻博士後期課程修了。博士(工学)。2017年Stanford Data Science Initiative Visiting Scholar。2018年6月LINE株式会社入社。AI開発室室長。2021年10月Amazon Web Services (AWS)入社。2年間のアメリカ勤務を経て、2024年2月アマゾンジャパン入社。Principal Applied Scientist。IEEE Senior Member。人工知能学会全国大会優秀発表賞、テレコムシステム技術賞、日本音響学会独創研究奨励賞板倉記念、粟屋潔学術奨励賞などを受賞。


(順不同:文中敬称略)


Writer: Akiko Sekiguchi


LLMの課題:計算量と日本語対応の限界

——今回のテーマは『AI開発最前線』ということで、ホットな技術や社会課題についてお伺いしたいと思っております。私はモデレーターを務めます、アマゾンジャパンの戸上と申します。元々はシリコンバレーで音声認識や音声処理の研究開発をしていまして、今年から日本に移ってLLM(大規模言語モデル)の研究開発をしています。

戸上真人氏(写真:アマゾンジャパン 戸上 真人氏)

砂金:

Gen-AXの砂金です。ソフトバンクの100%子会社で、生成AIを応用した業務向けアプリケーションや企業向けエージェントを作る仕事をしています

久保:

Google DeepMindの久保と申します。私はクラシカルな機械学習やディープラーニングの専門家で、特に音声認識を専門でやってきました。以前アマゾンにいた時にAlexaの日本語版モデルを最初にリリースしたのが私になります。

樋口:

Adansonsの樋口と申します。東北大学の在学中に会社を創業しました。独自の信号分離技術を持っている会社で、現在はその技術を応用して、信頼性のあるAIを作るためのAIフレームワークを開発しています

——2024年も引き続き生成AIに関連した話題が盛り上がっています。AIの進化としてまずは、LLMの最新動向からお伺いしていきたいと思います。

久保:

日本では今各社からたくさんのLLMが出ています。これまではデータをどう集めるかというのが課題だったんですが、現状で一番の問題は計算量だと思っています。日本語LLMによるAIを作るにあたって、フルスクラッチから作るとか、Metaなどがリリースしているものから継続学習するとか、いろいろな方法がありますが、何をやるにしても計算量、つまりお金がかかります。

さらに日本語対応の課題もあります。翻訳タスクはLLMで精度良くできるので、言語の違いだけの問題とは言い切れません。日本特有の文化や文脈、日本で求められるものをどうやって出すかというところに問題があるのではと思っています。

——すべてのデータを日本で集めて学習する方法もありますが、やはり日本語以外のデータも混ぜた方がいいのでしょうか?

久保:

英語のデータを使わないというのは、現状ではかなり考えがたいですね。得られるデータ量という観点で考えると、日本語のデータというのは全体のごく一部に過ぎません。まず多言語で学習させて、その後に日本特有の状況を理解するために日本語で再学習させるという継続学習が理に適った手法です。初期の生成AIを試した方は分かると思いますが、多言語で学習させただけのLLMでは言語のスイッチングが起こってしまう問題が頻発していて、そこに対応するためにも日本語で継続学習することが大事だと思います。

会場の様子

AIは事業としてペイするのか?

——砂金さんも最先端のAI技術を日本で適用することに取り組まれていますが、現状をどのように見ていらっしゃいますか。

砂金:

久保さんの「計算資源がない」という話に合意ですね。LLMの開発を行う上でAI計算基盤の構築が重要となりますが、導入コストや消費電力量、GPUの確保など、色々な課題がありますよね。

コールセンターを自動化すれば人件費を置き換えられるのではという話もありますが、ここにもコストの罠があります。リアルタイムAPIはトークン課金ではなく時間課金で、なんと時給が人間より高い。リアルタイムAPIを使わなきゃいけないところ、従来型のSTT(音声認識)とTTS(テキスト音声変換)でやった方がいいところ、人間が巻き取った方がいいところの組み合わせ問題になっています。

AIを使いながらビジネスとして成立させていくことを考えると、一個のモデルに依存しないほうが良いんですね。早く安く回答を返せるときはGPT-4o miniやSLM(小規模言語モデル)でも構わない。ただコールセンターで、人間が本質的に考えていることを捉えて、ロジカルに分解をして回答を出すには、o1を使わないといけない。しかしそうするとコスト面の課題がでてきます。そのため現時点でAIを技術として使いながらペイする事業をやろうとすると厳しいですね。

久保:

プログラマーとして言うと、GPUを多く使うプログラムは一気にプログラミング難易度が上がるので、オペレーションコストだけでなく、開発コストも上がります。開発を支援してくれるフレームワークもありますが、マルチGPUを効率よく使うためには、データセンターのレベルの知識を持ったプログラマーが必要になるので、雇うのも大変ですね。

——ビジネス観点で言うと、会社ごとに要求が違っているので、会社ごとに特化したようなモデルを作るのか、RAG(検索拡張生成)みたいなフレームワークでやるのか、さまざまな方法があると思います。いかに効率的にやるかが重要になると思いますが、その辺りはいかがでしょうか?

砂金:

データガバナンスを考えて、さまざまな企業で社内版ChatGPTを作ろうという動きがありました。ただその結果「偏差値75の新入社員がやってきたものの業務知識がなくて現場では使えない」という状況に近いことが起きたのです。であれば業務知識を与えようということで、技術に詳しくない人たちが粗雑なRAGを構成するのですが、だいたいの場合において検索を過小評価しすぎです。人間に対しては業務文書でわかりやすく解説をするのに、AIに対しては適当に昔作ったPDFを読み込ませて、正解データを持ってこい、みたいな指示をしてしまう。その結果、現場では「社内版ChatGPTの利用率が上がりません」という状況になっていく。道具としてAIだけ見よう見まねで使っても、およそ役に立たないものができてしまうんです。

日本の検索技術は失われた時間が長く、そのテクノロジーの蓄積なしにRAGを作るのは結構厳しいのではないかと思います。検索に依存しないのであれば、そこを飛ばしてファインチューニングをする必要があり、そうすると先ほどの電気代やGPUの問題が出てきてしまい、今のところ解がないんです。なので、AIに優しくドキュメントを作ってあげることが、せいぜい現時点でできることかなと思っています。

砂金 信一郎氏

(写真:Gen-AX 砂金 信一郎氏

信頼性の高いAIの実現に向けて

——ここまでバーチャルな世界でのAIの進化について聞いてきましたが、フィジカルな世界でのAI利用についても伺いたいです。樋口さんはフィジカルな現場でのセンサーデータを使った解析などをされていますが、AIの進化をどう見られていますか。

樋口:

フィジカルな産業で応用されている画像認識技術などでも、ファインチューニングが課題になってきています。これまではとにかくデータを追加していけば性能が向上すると考えられてきましたが、各工場で最適化したモデルを次の工場に最適化していく過程で、最初のモデルの性能が飽和してきているので、データを追加しても性能が改善していかない。既存モデルの性能を維持しつつ最適化していけるように、LLMとも違う学習アプローチが求められていると感じています。

フィジカルがバーチャルなAIと一番大きく違うのは、そのAIの出力が物理的な影響を持つことだと思います。今年の話題としてAI Actといった法規制の整備がありますが、リスク管理を求められる中で、意図しない出力やリスクの高いエラーをどう防ぐのかに対しては、なかなか方法論が出てきていない現状があります。先ほどの砂金さんの話であったように、人間がLLMを使う時に適当な入力をしてしまうのですが、モデルはうまく動くデータ範囲が限られているので、その中で活用していくためのフレームワークが、今後重要になってくると考えています。

——法規制や社会的な課題についてはさらに議論が必要で、特に信頼性の高いAIの実現は皆さんも関心があるところかと思います。AIの機械学習モデルはブラックボックス化しているのが信頼性を欠く要因の一つになっていますが、樋口さんが最近出されたプロダクトはその課題にもアプローチしていると聞いています。

樋口:

モデルを運用する上で一番の課題は、入力と出力がうまくバリデーションしてない、そのモデルがうまく使えるところを見定められていない状態で運用していることだと思っています。取ってきたデータのベクトルを起こして不適切な入力を弾く手法が一般的ですが、うちの会社では、入力があった後に出力になるまでにどういう道のりを辿って変換されてきたのかを解析することで、不確実な出力を防ぐフレームワークを作っていこうと考えています。

——久保さんの研究分野でもあると思いますが、AIの信頼性をいかに高めるか、ブラックボックス感をどう減らすかという点で、どのようなことに着目していますか。

久保:

LLMは基本的にはトランスフォーマーというモデルを使っていて、ある単語を出すためにどこを見ているかがわかるようになっています。Attention Matrixと呼ばれるもので、説明していると言えなくはないものの、やはりブラックボックスなところがあります。それを軽減するための手法は、プロンプト・エンジニアリングに頼ることですね。「順番を追って、なぜこう考えたのか説明しながら出力してください」と指示すると、うまく出力してくれる。とはいえ結局、ブラックボックスでブラックボックスを説明している状態なので難しいなと思うのですが、正直なところ、それがたぶん今の限界だと思います。

久保 陽太郎 氏

(写真:Google DeepMind 久保 陽太郎 氏

人に優しいAIを作るには

——砂金さんは、人に優しいAIを目指していくということが一つの方向性と述べておられましたが、どうAIと共存し、どのようなプロダクトを作っていくべきと考えていますか?

砂金:

先ほど「人間がAIに優しくない」という話をしましたが、逆にAIが人間に対して不利益を与えることはあってはいけない。自動運転でも似たような難しさはあって、人間が運転する車と、AIが完全に自動運転する車が共存している時に、そこのコンフリクトをどうやって解くかという問題がある。街中を走る車が100%自動運転であれば、人間を介在させずにAgent to Agentでコミュニケーションした方が事故は減るんです。人間というノイズ発生装置が介在して、AIがそれを受容しなければいけない状況になると、ブラックボックスに判断を任せていいのかという問題になっていくと思います。

ビジネスの現場でAIを使うときに我々がやっているアプローチは、一つのエージェントのできることのドメイン(対応範囲)を小さくすることです。タスクを考えて全体をオーケストレートするエージェントは必要ですが、そこから割り振られたエージェント同士が連携しながら動く。範囲を狭める一つの良さは信頼性が上がることで、そもそも知識として持っていないから変なこともしない。ただ、その時に工夫しなきゃいけないのは、「自信がないことは自分で解こうとしないで人間にエスカレーションする」ことを、システムプロンプトでいかに強力に埋め込むか。これをうまく使えばマルチエージェントシステムみたいなものは作りやすいだろうと思います。

ドメインを狭くすることのもう一つの利点は、変更を行った時のテストの影響度合いを小さく抑えられることです。このガラス細工みたいなシステムを、どうやって全体系として信頼性を上げられるかという解き方をしないと、辛いんじゃないかなと思います。

樋口:

今おっしゃっていただいたことが非常に大事ですね。説明性が求められる時って、人間にとって違和感のある出力をした時だけだと思うんです。だからAIプロダクトをデザインするときに、なるべくユーザーが抱く期待値とずれない範囲でプロダクトの出力入力を定義してドメインを絞ると、それ以上できなくてもユーザーは納得してくれる。しかも答えも性能がある程度担保されているので、そこまで説明を必要とされず、うまく人間と関わっていけるのかなと私も考えています。

樋口 賢一 氏

(写真右:Adansons 樋口 賢一 氏)

——最後に、AIの動向に注目している方々に向けて一言ずついただきたいと思います。

砂金:

多くの方々がAIに関わって興味を持ってくれていることに大変感謝しています。この輪をもっと大きく広げていきたいと思いますので、よろしくお願いします。

久保:

今日はさまざまな応用分野のお話がありましたが、AIといえばチャットボットという考えは一旦捨てていただいて、いろいろな応用を見てほしいと思っています。

樋口:

LLMが盛り上がっていますが、トラディショナルなAIにも十分まだポテンシャルがあるので、ぜひそこに参入する企業さんが増えていくといいなと思っています。

Plug and Play Japan の最新ニュースをNews Letter でお届けします!