【12 Days of OpenAI 全解説】Day2：「強化学習」を用いた新ファインチューニングのα版

ChatGPTを開発するOpenAIは、クリスマスまでの平日毎日、新機能や新製品をライブ配信で発表する「12 Days of OpenAI」を実施中である。

2024年12月5日（木）から始まったこのライブ配信シリーズだが、本記事では、2日目にあたる12月6日（金）の配信の内容を詳しく紹介する。

2日目に公開されたのは、最新モデルシリーズ「o1」の高度なカスタマイズ（ファインチューニング）を可能にする新しい手法「Reinforcement Fine Tuning（RFT）」である。

この新技術により、それぞれの企業が、自社の持つデータでo1モデルの追加学習を行い、専門分野に特化したエキスパートモデルをカスタマイズすることがより容易になりそうだ。

なお、他の12日間の発表内容の総まとめ・解説記事は、こちらのタグ「12 Days of OpenAI」から確認することができる。日本時間の火曜〜土曜の午前3時にライブ配信が行われるので、次回以降の解説もお楽しみに。

o1モデルをカスタマイズする「RFT」のプレビュー

GPT-4oなどの大規模言語モデルに、追加の学習データセットを与えることで、ユーザーがモデルを「ファインチューニング」できる機能は、これまでも提供されていた。

Day2で発表されたのは、「Reinforcement Fine Tuning（RFT）」と呼ばれる、強化学習を用いた新しいファインチューニング手法である。

従来の教師ありファインチューニング（Supervised Fine Tuning）と比べて利点が多く、大きな改善が期待される。

正式リリースは来年であるが、大学、研究者、企業向けに、アルファプログラムへの参加受付も開始するという。

「強化学習」と「教師あり学習」とは？

「強化学習」と「教師あり学習」は、機械学習やAI分野でよく聞かれる専門用語である。それぞれ、コンピュータに物事を学ばせる方法の一種だが、その「教え方」が異なる。

教師あり学習の場合、「問題」と「正解」のペアを大量に与える。たとえば、「世界で最も高い山」＝「エベレスト」といった具合である。モデルはこうした例からパターンを学び、質問に対して、過去に見た「正解」に似た回答を再現する。つまり、教師あり学習は、「丸暗記」に近い学習手法である。

一方、強化学習では、質問に対して直接の正解は教えずに、モデルが出した回答に対して「点数」を与えるという方法を取る。モデルは試行錯誤を繰り返しながら、どのような回答パターンが高いスコアを得られるかを学んでいく。これにより、全く正解を知らない質問に直面した際にも、身につけた推論のプロセスに従って、正答できる可能性が高まる。

「教師あり学習」は、最初から正解を与える「丸暗記型」、これに対して「強化学習」は、自分で経験を積んで正解を導く推論プロセスを身につける「試行錯誤型」と言える。

Reinforcement Fine Tuningのメリット

OpenAIが2023年にリリースした従来のファインチューニング機能は、「教師ありファインチューニング」（Supervised Fine Tuning）であった。これは、モデルの文体や返答の形式を調整するのに適していた。

ただし、教師ありファインチューニングを行うには、大量の問題と正答のデータセットが必要で、分野や業種によっては、データを用意するハードルが高いなどの課題があった。

これに対して、ライブ配信内で紹介された強化学習によるファインチューニング（RFT）を用いることで、多くのメリットが得られるという。

RFTは、たった数十件程度の例示的データしか与えなかったとしても、その専門分野での効果的な推論方法を身につけることができる可能性があるという。

ファインチューニングに必要なデータセットの量が、大幅に縮小されるということだ。丸暗記ではなく、強化学習によって、正解に至る推論経路をモデルに学ばせることの大きなメリットである。

OpenAI自身が、GPT-4oやo1などの最新鋭の大規模言語モデルをトレーニングするのに使用しているのも、この強化学習のアプローチなのだという。

RFTを用いたo1-miniによる遺伝子疾患診断デモ

ライブ配信の中では、RFTの実力のデモンストレーションとして、o1-miniを、遺伝子疾患の診断に活用する例が示された。

わずか1,100例の症例データを用いてRFTによる学習を行い、より小型で安価な「o1-mini」が、「o1」を上回る正答率を叩き出すことができるようになったという。

学習に用いられたデータセットは、以下のような構造になっている。

まず、ケースレポートとして、患者の概要と症状があり、51歳女性、発症時期不明、症状としてはhypertelorism（眼間解離）、hyperparathyroidism（副甲状腺機能亢進症）などが記されている。

そして、モデルに対して「これらの症状に基づいて、考えられる原因遺伝子を列挙し、その理由を説明せよ」という指示（Instruction）を与えている。

正解（Correct Answer）として原因遺伝子もあるが、当然ながら、ファインチューニング中には、この正解はモデルに教えず、アウトプットに応じた得点だけを与えることになる。

Category	Input
Case Report	51-year-old woman. Disease onset was not specified Symptoms: Hypertelorism, Blepharophimosis, Micrognathia, Velopharyngeal insufficiency, Hypoparathyroidism, Global developmental delay, and Sensorineural hearing impairment Absent Symptoms: Cleft palate, Tetralogy of Fallot, Pulmonary valve atresia, Atrial septal defect, Aortopulmonary collateral arteries
Instructions	Please list all genes that may cause these symptoms in ranked order, from most to least likely along with an explanation for why you think those specific genes may be responsible.
Correct Answer	FOXE3