AIじゃないよ

【12 Days of OpenAI 全解説】Day2:「強化学習」を用いた新ファインチューニングのα版

当サイトはアフィリエイト広告を一部掲載しています。

ChatGPTを開発するOpenAIは、クリスマスまでの平日毎日、新機能や新製品をライブ配信で発表する「12 Days of OpenAI」を実施中である。

2024年12月5日(木)から始まったこのライブ配信シリーズだが、本記事では、2日目にあたる12月6日(金)の配信の内容を詳しく紹介する。

2日目に公開されたのは、最新モデルシリーズ「o1」の高度なカスタマイズ(ファインチューニング)を可能にする新しい手法「Reinforcement Fine Tuning(RFT)」である。

この新技術により、それぞれの企業が、自社の持つデータでo1モデルの追加学習を行い、専門分野に特化したエキスパートモデルをカスタマイズすることがより容易になりそうだ。

なお、他の12日間の発表内容の総まとめ・解説記事は、こちらのタグ「12 Days of OpenAI」から確認することができる。日本時間の火曜〜土曜の午前3時にライブ配信が行われるので、次回以降の解説もお楽しみに。



o1モデルをカスタマイズする「RFT」のプレビュー

GPT-4oなどの大規模言語モデルに、追加の学習データセットを与えることで、ユーザーがモデルを「ファインチューニング」できる機能は、これまでも提供されていた。

Day2で発表されたのは、「Reinforcement Fine Tuning(RFT)」と呼ばれる、強化学習を用いた新しいファインチューニング手法である。

従来の教師ありファインチューニング(Supervised Fine Tuning)と比べて利点が多く、大きな改善が期待される。

正式リリースは来年であるが、大学、研究者、企業向けに、アルファプログラムへの参加受付も開始するという。

「強化学習」と「教師あり学習」とは?

「強化学習」と「教師あり学習」は、機械学習やAI分野でよく聞かれる専門用語である。それぞれ、コンピュータに物事を学ばせる方法の一種だが、その「教え方」が異なる。

教師あり学習の場合、「問題」と「正解」のペアを大量に与える。たとえば、「世界で最も高い山」=「エベレスト」といった具合である。モデルはこうした例からパターンを学び、質問に対して、過去に見た「正解」に似た回答を再現する。つまり、教師あり学習は、「丸暗記」に近い学習手法である。

一方、強化学習では、質問に対して直接の正解は教えずに、モデルが出した回答に対して「点数」を与えるという方法を取る。モデルは試行錯誤を繰り返しながら、どのような回答パターンが高いスコアを得られるかを学んでいく。これにより、全く正解を知らない質問に直面した際にも、身につけた推論のプロセスに従って、正答できる可能性が高まる。

「教師あり学習」は、最初から正解を与える「丸暗記型」、これに対して「強化学習」は、自分で経験を積んで正解を導く推論プロセスを身につける「試行錯誤型」と言える。

Reinforcement Fine Tuningのメリット

OpenAIが2023年にリリースした従来のファインチューニング機能は、「教師ありファインチューニング」(Supervised Fine Tuning)であった。これは、モデルの文体や返答の形式を調整するのに適していた。

ただし、教師ありファインチューニングを行うには、大量の問題と正答のデータセットが必要で、分野や業種によっては、データを用意するハードルが高いなどの課題があった。

これに対して、ライブ配信内で紹介された強化学習によるファインチューニング(RFT)を用いることで、多くのメリットが得られるという。

RFTは、たった数十件程度の例示的データしか与えなかったとしても、その専門分野での効果的な推論方法を身につけることができる可能性があるという。

ファインチューニングに必要なデータセットの量が、大幅に縮小されるということだ。丸暗記ではなく、強化学習によって、正解に至る推論経路をモデルに学ばせることの大きなメリットである。

OpenAI自身が、GPT-4oやo1などの最新鋭の大規模言語モデルをトレーニングするのに使用しているのも、この強化学習のアプローチなのだという。

RFTを用いたo1-miniによる遺伝子疾患診断デモ

ライブ配信の中では、RFTの実力のデモンストレーションとして、o1-miniを、遺伝子疾患の診断に活用する例が示された。

わずか1,100例の症例データを用いてRFTによる学習を行い、より小型で安価な「o1-mini」が、「o1」を上回る正答率を叩き出すことができるようになったという。

学習に用いられたデータセットは、以下のような構造になっている。

まず、ケースレポートとして、患者の概要と症状があり、51歳女性、発症時期不明、症状としてはhypertelorism(眼間解離)、hyperparathyroidism(副甲状腺機能亢進症)などが記されている。

そして、モデルに対して「これらの症状に基づいて、考えられる原因遺伝子を列挙し、その理由を説明せよ」という指示(Instruction)を与えている。

正解(Correct Answer)として原因遺伝子もあるが、当然ながら、ファインチューニング中には、この正解はモデルに教えず、アウトプットに応じた得点だけを与えることになる。

CategoryInput
Case Report51-year-old woman. Disease onset was not specified

Symptoms: Hypertelorism, Blepharophimosis, Micrognathia, Velopharyngeal insufficiency, Hypoparathyroidism, Global developmental delay, and Sensorineural hearing impairment

Absent Symptoms: Cleft palate, Tetralogy of Fallot, Pulmonary valve atresia, Atrial septal defect, Aortopulmonary collateral arteries

InstructionsPlease list all genes that may cause these symptoms in ranked order, from most to least likely along with an explanation for why you think those specific genes may be responsible.
Correct AnswerFOXE3
Day 2の動画内で登場したトレーニングデータ

このデータセットを用いて「強化学習」を行うためには、モデルの出した答えを評価して得点を与える評価者が必要になるが、これを担うのが「グレーダー」という機能である。

グレーダーは、モデルが推論した遺伝子と、正解の遺伝子リストを比較して、0(不正解)〜1(正解)の得点を返す。例えば、推論された遺伝子が、正解遺伝子リストの2番目にあれば、部分点として0.7点を与える、といった具合である。

ユーザーが上記のような「データセット」(問いと答えのセット)と「グレーダー」(採点基準)を用意するだけで、OpenAIのプラットフォーム上で、o1-miniモデルを強化学習アルゴリズムを活用してカスタマイズできるのだ。

数時間から数日のトレーニング時間を要するが、ファインチューニング後は、学習時のデータセットに含まれていなかった新たなデータ(症例)を与えられても、「o1-mini」が最も高い正答率を記録したという。

「12 Days of OpenAI」2日目のまとめ

「o1 Mini」のような軽量モデルでも、RFTによって高度な専門性を獲得できるのは、多くの応用可能性を切り開くものだ。

ドメイン特化した性能さえ得られればよく、o1のような汎用的な能力が不要な場合には、o1-miniに業界特化のファインチューニングを行うことで、API利用料を大きく節約できるし、必要なコンピューティングパワーも減らすことができる。

従来の大量のデータセットが必要だったファインチューニングは、一般ユーザーはあまり使用する場面がなかったが、数百〜数千件のデータでも強化学習が可能となると、これまでファインチューニングが選択肢になかった人々にとっても有力な選択肢の一つとなりそうだ。

本発表と同時に、「RFT Research Program」が拡大され、複雑なタスクに取り組む組織や研究者、企業ユーザーを対象に、アルファアクセスが募集されている。

2025年早期には、一般公開を予定しているとのことで、法務分野や金融分野、医療分野、学術研究など、多様な分野での活用が期待される。

動画内に登場した、強化学習を行うためのOpenAIの開発者向けツールもとても使いやすそうだ。

ライブ配信の動画を見ると、OpenAIのWebサイトの開発者ダッシュボード上で、簡単にファインチューニングを実行している様子を確認することができる。

実際に使ってみることのできる日が待ち遠しい。



Make a comment

*
*
* (公開されません)