ChatGPTを使っていて、最近よく目にする言葉があります。毎回表現は微妙に異なりますが、「私のトレーニングデータのカットオフは2021年9月なので、それ以降の最新の情報については把握していません。」といった内容です。
生成AIのモデルを作るためには、膨大な学習用のデータをモデルに読み込ませて、何日も、時には何週間もかけて学習させる必要があります。これには時間もコストもかかるため、そうそう頻繁に更新するわけには行きません。ChatGPTと同規模のモデルであるGPT3のモデルを作るためには、1回あたり5億ドルかかるといも言われていました。
そして、サービスを公開するためには、AIモデルに対して自然な言葉で受け答えできるようにするなどのチューニングを行う必要があります。つまり、サービスを公開するためには、どこかでいったん学習を止める必要があるのです。上のメッセージで言っているのは、ChatGPTも2021年9月で学習を止めているということです。(これは3月に公開されたGPT4でも同じです)
これは別に秘密にされていたわけではないのですが、ChatGPT公開当初には、学習データの少ない質問に対しても無理して答えようとしていた節がありました。回答してくる日本語が非常に自然だったこともあり、それが「自信たっぷりに嘘をつく」などという評価に繋がったのでしょう。それを「学習」したChatGPTは、今ではあやふやなことは「わからない」と、ちゃんと答えるようになったということではないかと思っています。なんだか、人間に似ていますね。
生成AIの学習データはデジタルである必要があるため、どうしてもネット上で収集したものにならざるを得ません。しかし、ネット上のデータというのは、政府の公開資料から真偽の怪しい個人のブログまで玉石混淆で、全体で見るとどうしても偏りが生じます。
言語としては、日本語のコンテンツが占める割合は英語に比べると圧倒的に少ないですから、たとえば自分の名前を使って「○○とはどういう人ですか?」などと聞いても、そもそもデータが少ない、あるいはまったく無いわけですから、まともな答えが返ってこないのは当たり前とも言えます。(ChatGPTが出てきたときに、やりませんでしたか?)
また、日本語のコンテンツは海外よりもアニメやゲームなどの分野に偏っているという指摘もあります。そのために他言語のコンテンツも翻訳によって引っ張ってくるわけですが、逆に海外のコンテンツには人種差別的なものが多いといった問題もあります。
このように、世界についてごく一部の、真偽不明な偏ったデータしか与えられず、デジタル以外の情報(人々との会話、紙の書籍、現実の体験など)がまったく与えられなかったら、人間でもかなりな変人になってしまうでしょう。
今後、情報の鮮度については改善が進んでいくでしょうが、データのデジタル化についてはすぐには解決できないと思われます。利用者としては、このような状況と制限を理解した上で、「使えそうなところで便利に使う」ということを心がけるべきでしょう。次回は、どのように使うと便利なのかについて考えて見たいと思います。
大越章司おおこししょうじ
株式会社アプライド・マーケティング 代表取締役
外資系/国産、ハードウェア/ソフトウェアと、幅広い業種/技術分野で営業/マーケティングを経験。現在は独立してIT企業のマーケティングをお手伝いしています。 様々な業種/技術を経験しているため、IT技…
ビジネス|人気記事 TOP5
『女性が活躍している』とは、具体的にどういう状態か?
藤井佐和子のコラム 「企業・個人を豊かにするキャリアデザインの考え方」
internationalizationとcultivati…
生井利幸のコラム 「勝利のための発想法」
政治に興味のある人をつくる
大谷由里子のコラム 「大谷由里子の人づくり日記」
日本で一番優秀なカウンセラーはどこにいるか?
キティこうぞうのコラム 「職場のメンタルヘルス講座」
ダイバーシティを進める前に『現場と事務局の温度差』を確認しよ…
藤井佐和子のコラム 「企業・個人を豊かにするキャリアデザインの考え方」
講演・セミナーの
ご相談は無料です。
業界21年、実績3万件の中で蓄積してきた
講演会のノウハウを丁寧にご案内いたします。
趣旨・目的、聴講対象者、希望講師や
講師のイメージなど、
お決まりの範囲で構いませんので、
お気軽にご連絡ください。