2023年06月09日

AIも人間も「勉強が大事」というお話

大越章司

ChatGPTを使っていて、最近よく目にする言葉があります。毎回表現は微妙に異なりますが、「私のトレーニングデータのカットオフは2021年9月なので、それ以降の最新の情報については把握していません。」といった内容です。

生成AIのモデルを作るためには、膨大な学習用のデータをモデルに読み込ませて、何日も、時には何週間もかけて学習させる必要があります。これには時間もコストもかかるため、そうそう頻繁に更新するわけには行きません。ChatGPTと同規模のモデルであるGPT3のモデルを作るためには、1回あたり5億ドルかかるといも言われていました。

そして、サービスを公開するためには、AIモデルに対して自然な言葉で受け答えできるようにするなどのチューニングを行う必要があります。つまり、サービスを公開するためには、どこかでいったん学習を止める必要があるのです。上のメッセージで言っているのは、ChatGPTも2021年9月で学習を止めているということです。（これは3月に公開されたGPT4でも同じです）
これは別に秘密にされていたわけではないのですが、ChatGPT公開当初には、学習データの少ない質問に対しても無理して答えようとしていた節がありました。回答してくる日本語が非常に自然だったこともあり、それが「自信たっぷりに嘘をつく」などという評価に繋がったのでしょう。それを「学習」したChatGPTは、今ではあやふやなことは「わからない」と、ちゃんと答えるようになったということではないかと思っています。なんだか、人間に似ていますね。

生成AIの学習データはデジタルである必要があるため、どうしてもネット上で収集したものにならざるを得ません。しかし、ネット上のデータというのは、政府の公開資料から真偽の怪しい個人のブログまで玉石混淆で、全体で見るとどうしても偏りが生じます。
言語としては、日本語のコンテンツが占める割合は英語に比べると圧倒的に少ないですから、たとえば自分の名前を使って「○○とはどういう人ですか?」などと聞いても、そもそもデータが少ない、あるいはまったく無いわけですから、まともな答えが返ってこないのは当たり前とも言えます。（ChatGPTが出てきたときに、やりませんでしたか?）
また、日本語のコンテンツは海外よりもアニメやゲームなどの分野に偏っているという指摘もあります。そのために他言語のコンテンツも翻訳によって引っ張ってくるわけですが、逆に海外のコンテンツには人種差別的なものが多いといった問題もあります。
このように、世界についてごく一部の、真偽不明な偏ったデータしか与えられず、デジタル以外の情報（人々との会話、紙の書籍、現実の体験など）がまったく与えられなかったら、人間でもかなりな変人になってしまうでしょう。

今後、情報の鮮度については改善が進んでいくでしょうが、データのデジタル化についてはすぐには解決できないと思われます。利用者としては、このような状況と制限を理解した上で、「使えそうなところで便利に使う」ということを心がけるべきでしょう。次回は、どのように使うと便利なのかについて考えて見たいと思います。

大越章司