Kusumoto Laboratory: 土居真之, 肥後芳樹, 有馬諒, 下仲健斗, 楠本真二, 言語モデルによるソースコードの「自然さ」を利用した自動生成ファイルの特定, 2019年2月.

Tweet
土居真之, 肥後芳樹, 有馬諒, 下仲健斗, 楠本真二, "言語モデルによるソースコードの「自然さ」を利用した自動生成ファイルの特定," 情報処理学会論文誌, 60(2), 2019年2月.
ID	568
分類	論文誌
タグ
表題 (title)	言語モデルによるソースコードの「自然さ」を利用した自動生成ファイルの特定
表題 (英文)
著者名 (author)	土居真之,肥後芳樹,有馬諒,下仲健斗,楠本真二
英文著者名 (author)	Masayuki Doi,Yoshiki Higo,Ryo Arima,Kento Shimonaka,Shinji Kusumoto
キー (key)	Masayuki Doi,Yoshiki Higo,Ryo Arima,Kento Shimonaka,Shinji Kusumoto
定期刊行物名 (journal)	情報処理学会論文誌
定期刊行物名 (英文)
巻数 (volume)	60
号数 (number)	2
ページ範囲 (pages)
刊行月 (month)	2
出版年 (year)	2019
Impact Factor (JCR)
URL
付加情報 (note)
注釈 (annote)
内容梗概 (abstract)	ソースコードの解析において，解析対象のソースファイルの中には自動生成ファイルが含まれていることがある．自動生成ファイルの存在が解析に悪影響を及ぼす場合があるため，多くの場合自動生成ファイルは除外して解析する必要がある．自動生成ファイルを除外する方法として，ソースコードが自動生成ファイルであるかを目視で判定するという方法がある．しかしこの方法は時間的コストが大きくなってしまうといった問題がある．他にも自動生成ファイル内に存在する特有のコメント文を文字列検索することにより特定するという方法があるが，この方法に関しても，自動生成ファイル特有のコメント文が消された場合に，自動生成ファイルを自動的に特定できないといった問題がある．そこで本研究では，自動生成コードとしての「自然さ」と人が作成したコードとしての「自然さ」を比較することで任意の自動生成ファイルを自動的に特定する手法を提案する．コードの自然さ，すなわち，自動生成あるいは人が生成したコードとしてもっともらしい度合いは，確率的言語モデルである N-gram 言語モデルによって数値化する．この提案手法を評価するために，4 つの自動生成プログラムから生成された自動生成ファイル群を対象に実験を行った．その結果，高い精度で自動生成ファイルを特定できた．
論文電子ファイル	desc (application/pdf) [一般閲覧可]
BiBTeXエントリ	@article{id568, title = {言語モデルによるソースコードの「自然さ」を利用した自動生成ファイルの特定}, author = {土居真之 and 肥後芳樹 and 有馬諒 and 下仲健斗 and 楠本真二}, journal = {情報処理学会論文誌}, volume = {60}, number = {2}, month = {2}, year = {2019}, }

Search

Tags