【HAI紹介-2】「お前を消す方法」と言われてしまったのはなぜ？

2024年8月9日
2024年12月5日
Human Agent Interaction(HAI)

本記事は下記動画の一部内容を加筆しまとめたものです(画像をクリックすると動画に飛びます）

はじめに

皆さんはこのエージェントについてご存じでしょうか？
「お前を消す方法」で一種のネットミームと化しているカイル君です　　
彼はMicrosoftが提供していたアシスタントの１人（？）で
当時としては最先端の技術を有した高性能なエージェントでした
ですが，何がいけなかったのか彼は忌み嫌われてしまいました…

また，米国ではカイル君と同じMicrodoft Agentであるクリッパーという存在が
嫌われに嫌われ，しまいには「なぜ私たちはクリッパーを嫌うのか？」という論文 [1] が
発表される事態にまでなりました．

このように，エージェントシステムの先駆けであったMicrosoft Agent達は
「人間と共生するエージェント」を実現しようとして上手くできなかった事例の最たる例です
彼らの失敗は私たちにエージェントデザインの大切さ．そして
「インタラクションデザイン」の難しさを教えてくれています

彼らが嫌われたのは，純粋にポンコツで使い物にならなかったからでは？

確かに結論だけを言うとそうなのですが
HAI的に注目したいのは「カイル君がポンコツと思われた理由」です

このエージェントの”どの部分”がユーザの反感を買ったのか.
それを考えることで「人間に嫌われないエージェント」は
どのようにデザインすればよいのかという設計論を展開できます

今回はその点について少しご紹介をしていきたいと思います

以降の説明は前回の記事で述べた”情報のデザイン”に関わる内容となります
ぜひ，前記事と組み合わせてご覧いただければと思います

【HAI紹介-1】人と機械の関係性を考える学問があるって本当？

本記事は下記動画の一部内容を加筆しまとめたものです(画像をクリックすると動画に飛びます）はじめに近年，ChatGPTや生成AIは発展に発展を遂げ「人間の仕事は機械に奪われる」といったことも良く耳にするように[…]

「初対面の印象」とのギャップ

カイル君が嫌われてしまった原因の１つとして考えられるのは
外見やふるまいから感じた”印象”と実際の機能があまり対応していなかった点です

カイル君は外見やふるまいから「人間らしさ（≒賢さ）」を前面に押し出しているのに
それとは全然見合わない賢さだったので，ユーザの反感を買ったものと考えられます

「過大広告」とか「パケ写詐欺」とかと言ってることは一緒です

HAIではこの問題を適応ギャップという概念で説明しています [2]

この概念は，インタラクションにおいて生じる”適応”という行動が
正の適応か負の適応かによって，エージェントへの印象がどのように変わるかを整理しています
…と言われてもそもそも”適応”とは何ぞや？という話になると思いますので
まずは，代表的なインタラクションである「対話」を例に”適応”について紹介します

適応と相互適応

例えば，初対面の人（ここではAさんとします）と対話をする場面を想定してみましょう
私たちはまず，”外見”などの事前に分かる限られた情報から「この人はこんな感じかな～」
という”Aさんに対するモデル(=M⁰)”を構築し，冒頭はそれを基に対話を行います

ですが，対話を重ねていくといずれ，事前には分からなかった情報が入ってきます
その度に，私たちは“Aさんに対するモデル”を修正(=M¹,M²…)して
その人に対する理解や解像度というものを高めていくとともに
その修正済みモデル（=M¹,M²…）に基づいて行動自体も変化させます
(ex.話題を相手に合わせる．敬語だったのをため口に変える…etc)

この「解像度を高める」という言葉は
“自分が持っている「Aさんに対してのモデル」(=M^x[x=0,1…n])”が
“Aさんが実際に持っているモデル(=M^t)”と似たものになってきている

M^x＝M^tの状況に近づいているのを表しているものと思ってください

こういった一連のプロセスのことをHAIでは“適応”と呼んでいます

そして，「対話」というインタラクションにおいてはこのプロセスが
「自分→相手」だけではなく「相手→自分」に対しても行われるため
互いが互いにモデルを更新しあって，それを基に行動を変化させます

そのような状態を“相互適応”と呼び，下記のようにモデル化がなされています [3]

山田誠二，角所考，小松孝徳: 人間とエージェントの相互適応と適応ギャップ
人工知能学会誌, Vol.21, No.6 (2006) [3]を基に作成

これを見るとややこしく感じられるかもしれませんが…

この図が言っていることは上で述べた内容と同じです
「相手のモデルを修正して、適宜行動を変えていく」というのを
αさんもβさんも同時にしているよね．ということを表しています

適応ギャップ

前述したように，予想しているモデル（=M^x）と実際のモデル（=M^t）に差がある場合
私たちは”適応”を行いますが，その適応には大きく分けて３つの方向性があります

適応をしない
「想像している通り」なのでモデルは修正しない（ex.あの人のことは全部知ってるよ？）
正の適応
「想像していた以上」だったのでモデルを上方修正する（ex.あの人すごいいいじゃん!!)
負の適応
「想像していた以下」だったのでモデルを下方修正する（ex.あの人期待外れなんだけど…）

こういった考え方を”人間-システム”におけるインタラクションにも拡張します
適応ギャップは，ユーザが期待する・予想する機能（=M^x)と
システムが持っている真の機能（=M^t)との関係性を以下の3つに整理し定義しています [2]

M^x = M^t (ギャップなし)
予想していた通りの機能であった．「期待通り」の状態を指しており
そのため、ネガティブな感情は生起されず
システムとのインタラクションに悪影響は及ぼなさないと考えられています
しかし，この状況はシステムに「予測不可能性」がなく”擬人化”が促進されづらいため
システムを”エージェント”としてではなく，ただの”道具”として見ている状況です

「”擬人化”を促進」といった内容については後々の記事で言及します

簡単に要約すると「擬人化されているシステム = エージェント」です
なので，擬人化が解ける M^x=M^t の状態はHAI的には好ましくないです

M^x < M^t (正のギャップ)
予想してたよりも実際の機能が高かった．「期待以上」の状態を指しています
そのため，「感嘆」や「喜び」といったポジティブな感情をユーザは抱き
システムとのインタラクションを継続しやすくなると考えられています
また，この状態はシステムが「予測不可能性」を有していることを表し
システムの”擬人化”が促進されやすい状況であるとされています

この状態をずっと維持できるのがHAI的にはベストです
ただ，システムはアップデートなどをしない限りMtが変化しないので
どれだけファーストインプレッションが Mx > Mtであってとしても
いずれはユーザ側が”適応”してM^x=M^tの状態になります

逆に言うとM^tが刻々と変化し続けるシステムがあれば
「正のギャップ」を維持し続けることもできるかも…？

M^x > M^t（負のギャップ）
予想していたよりも実際の機能が劣っていた．「期待外れ」の状態を指しています
そのため，「失望」や「落胆」といったネガティブな感情をユーザは抱き
システムとのインタラクションを止めてしまう原因になると考えられています

HAI的に最も避けたいのはこの状況です
エージェントはインタラクション通して初めて価値が生まれますので
そこに悪影響を及ぼしてしまうのはなんとしても回避しないといけません

カイル君が嫌われてしまったのもこれと似たようなものと考えられます
彼は哺乳類の中でも賢い[イルカの外見]で[流暢な言語]を用いていました
これが，M^x > M^tの状況を助長してしまった可能性が…

期待・予想される機能(=Mx)が実際の機能(=Mt)と乖離していればしているほど
ギャップによって生じる感情の強度やインタラクションに与える影響は大きくなります

そのため，ヒューマノイドのような期待や予測される機能(=M^x)を過度に引き上げる
「人間らしいデザイン」は下図のような強い負のギャップを生み出してしまい
インタラクションにとてつもない悪影響を与えるため推奨されていませんでした[3]

ただ，ここで引用している書籍 [4] は2006年に出版されたものです
その頃とは違い，今では「人間と同等の機能」や「人間より優れた機能」を
ある程度は表現できるため，この課題は解消されつつあります

そのため最近は「人間らしさ」を付与することによる「デメリット」より
「メリット」のほうに焦点が当たりやすくなっている印象です

付録：不気味の谷仮説

「人間らしいデザイン」が推奨されないという点で共通点がある設計論として
1970に森正弘が提唱した「不気味の谷仮説」が挙げられます [5]

適応ギャップはこの仮説を研究の俎上に載せるために”一般化”したもの．とも解釈できます

Wikipedia-EN 「Uncanny valley」より引用

簡単に説明すると…
これはロボット研究の文脈で提唱されたもので
ロボットが人間に近づけば近づくほど，そのロボットに対して親近感(affinity)が高まるが
ある程度人間に類似してくると途端に不気味さが勝ってしまう箇所があり
「類似度と親近感は線形に比例していない」ということを提唱している仮説です

もう一度言いますが，仮説です
一応証明されたという記事[6]もありますけどあんまり信じてないです…

エビデンスについてはこちらの論文[7]で議論がなされていますね
Abstを見た感じ”特定の状況で生じることが確認されている”とのことです
なので，仮説が証明されたと断定するには少し弱いですかね…？

先行研究では，「カテゴリ知覚」[8]や「パーツの整合性」[9]といった視点から
不気味の谷が生じるメカニズムを説明しようとしています

「カテゴリの曖昧性」仮説（Categorization Ambiguity Hypotheses）
私たちはある一定の類似度を境界線として
「人間」というカテゴリと「機械」というカテゴリで分けて解釈しており
不気味さが生じるのは，その丁度境目にいる存在である．という考え方
森[]が提唱している考え方に近いが，Review[4]を見るにあまり支持はされない感じ
「知覚の不一致」仮説（Perceptual Mismatch Hypotheses）
目や輪郭といった顔の構成要素に矛盾がある場合（ex.目だけが極端に大きい）や
”典型的な顔”からの逸脱が大きい人間的な要素がある場合に
私たちはその存在に対して不気味さを感じる．という考え方
「人間の活動から初めて不気味の谷に向かって移動していく」解釈 [10]
（what if we start with human activity and move towards the uncanny valley）

本邦でも「カテゴリ知覚」に基づいた研究[11][12]がなされているので
興味のある方はぜひチェックしてみてくださいね

インタラクションの「タイミング」の悪さ

ここまで述べてきた内容は
「人間らしさを過度に付与するとユーザの理想が高くなるからよくない」といったものです
では，ユーザに初めに与える”印象”と”実際の機能”の間でずれが生じないように
「外見」や「ふるまい」をデザインしておけば，カイル君は嫌われなかったのでしょうか…？
というと答えはNoで，カイル君含めMicrosoft Agentには致命的な問題がありました

それが、インタラクションをする”タイミング”がすこぶる悪かった点です

要するに「すっごい空気が読めなかった」と…それはうざいですね…

これは”スマホにおける通知方法の最適化”[13]と似たような課題です
エージェントやシステムがユーザに提供する情報の種類によって
適切な通知方法（HAIの場合：インタラクション）は異なります

能動的か受動的か？

カイル君含めMicrosoft Agentがユーザに提供する情報は「Q&A」でした
ですが，ユーザがいつもシステムに対してQuestionを持っているわけではありません．
それなのに，能動的に「ねぇねぇ何か僕に聞きたいことない？あるよね？」と出てこられても
「なんもないから消えて」と言われてしまうことは想像に難くないと思います

一方で，受動的な設計方針で「ユーザが困ったときに呼び出す」形だったらどうでしょうか？
彼らとインタラクションをするためには，ユーザ自らがその行為を選択する必要があります
なので，性能面で「こんなこともわからないんだ…」という失望等は生じるかもしれませんが
少なくとも「目障りだから消えて」という意見については抑制できたでしょう
（見るのが嫌なら「インタラクションをする」ということを選択しなければいいので）

このように適切なタイミングでインタラクションを行うということはとても重要です

…と言葉だけでは簡単に言えるのですが
じゃあ実際にどうすれば「適切なタイミング」を測定できるのかは
まだまだ明らかになっていない部分が多いですね

おわりに

今回は「カイル君」を例にインタラクションデザインのポイントを紹介させていただきました
彼のデザインとしてあまりよくなかった点として挙げたのは次の２点です

「初めの印象」と「実際の機能」との間に差があった
[イルカの外見]＋[流暢な言語]がユーザを過度に期待させてしまった
インタラクションをする「タイミング」について考慮がなされていなかった
[Q&A機能]は限られたタイミングにしか必要としないのに関係ない時にも話しかけてきた

次の記事ではこういった課題に対する”解決策（？）”についてご紹介していきたいと思います

（？）がついているのが少し不安ですが…
次回の記事も気長にお待ちいただけると幸いです!!

参考文献

著者情報や書誌情報などは遷移先のサイトにてご確認ください