| Tweet | |
| 數﨑大樹, "ソースコード改変におけるファインチューニングの実験的調査," , 2026年2月. | |
| ID | 890 |
| 分類 | 学位論文 |
| タグ | |
| 表題 (title) |
ソースコード改変におけるファインチューニングの実験的調査 |
| 表題 (英文) |
|
| 著者名 (author) |
數﨑大樹 |
| 英文著者名 (author) |
Daiki Kazusaki |
| キー (key) |
|
| 刊行月 (month) |
2 |
| 出版年 (year) |
2026 |
| 刊行形式 (howpublished) |
|
| URL |
|
| 付加情報 (note) |
|
| 注釈 (annote) |
|
| 内容梗概 (abstract) |
ソフトウェア開発に関する様々なタスクに対して,大規模言語モデル(Large Language Model; LLM)を用いた支援や自動化が可能となってきた.LLM に対する性能改善方法の 1 つとしてファインチューニング(Fine-Tuning; FT)が知られている.FTとは事前学習済モデルに対して,特定タスクに特化させる再学習手法である.FTの適用により,自然言語やソースコードに対する汎用的な知識を持つモデルから,特定タスクに特化したモデルを獲得できる.FTの適用には,再学習データセットの構築が不可欠であるが,ソフトウェア開発の下流工程を占めるタスクにおいて必要となる再学習データセットの量や質は十分に明らかにされていない.本研究の目的は,LLM を用いたソフトウェア開発における高精度かつ高効率な FT適用方法の獲得である.ソフトウェア開発の下流工程を占めるタスクのうち,本研究ではソースコード改変タスクに着目し,再学習データセットを用いて事前学習済モデルと FT済モデルの精度を実験によって調査する.本研究では,ソフトウェア開発の下流工程の一つであるソースコード改変タスクに着目し,再学習データセットの量および質に基づいて,事前学習済モデルと FT済モデルの精度を実験的に比較する.ここで,再学習データセットの質は,改変指示の具象度と改変の多様性の 2 つの観点から定義する.調査の結果,再学習データ量の増加に伴ってモデルの精度が向上する
傾向が確認されたが,本実験の範囲内では FT によるモデルの精度の飽和は観測されなかった.また,改変指示の具象度が高い場合には,タスク精度が向上する傾向が示された.一方で,複数種類の改変を混在させたデータセットを用いて FTしたモデルと,特定の改変種類に特化したデータセットを用いてFTしたモデルとの間には,精度に関して有意な差は認められなかった. |
| 論文電子ファイル | draft.pdf (application/pdf) [一般閲覧可] |
| BiBTeXエントリ |
@misc{id890,
title = {ソースコード改変におけるファインチューニングの実験的調査},
author = {數﨑大樹},
month = {2},
year = {2026},
}
|