Kusumoto Laboratory: 土居, 字句情報に基づく自然さを利用した自動生成ファイルの特定, 2018年2月.

Tweet
土居, "字句情報に基づく自然さを利用した自動生成ファイルの特定," , 2018年2月.
ID	526
分類	学位論文
タグ
表題 (title)	字句情報に基づく自然さを利用した自動生成ファイルの特定
表題 (英文)
著者名 (author)	土居真之
英文著者名 (author)	Masayuki Doi
キー (key)	Masayuki Doi
刊行月 (month)	2
出版年 (year)	2018
刊行形式 (howpublished)
URL
付加情報 (note)	特別研究報告
注釈 (annote)
内容梗概 (abstract)	近年，ソースコード解析に関する研究が盛んに行われている．ソースコードの解析において，解析対象のソースファイルの中には自動生成ファイルが含まれていることがある．しかし自動生成ファイルの存在により解析結果が目立たなくなることや解析時間が増加することがあるため，多くの場合自動生成ファイルは除外して解析する必要がある．自動生成ファイルを除外する方法として，ソースコードが自動生成ファイルであるかを目視で判定するという方法がある．しかしこの方法は時間的コストが大きくなってしまう．他にも自動生成ファイル内に存在する特有のコメント文を文字列検索することにより特定するという方法があるが，この方法に関しても，自動生成ファイル特有のコメント文が消された場合に，自動生成ファイルを自動的に特定できないといった問題がある．そこで本研究では，自動生成ファイルとしての``自然さと人が作成したファイルとしての``自然さを比較することで任意の自動生成ファイルを自動的に特定する手法を提案する．ファイルの自然さ，すなわち，自動生成あるいは人が生成したファイルとしてもっともらしい度合いは，確率的言語モデルであるN-gram言語モデルによって数値化を行う．この提案手法を評価するために，4つの自動生成プログラムから生成された自動生成ファイル群を対象に実験を行った．実験の結果，高い精度で自動生成ファイルを特定できた．また，機械学習に基づいた既存の手法と比較した結果，精度が向上していることを確認した．
論文電子ファイル	main.pdf (application/pdf) [一般閲覧可]
BiBTeXエントリ	@misc{id526, title = {字句情報に基づく自然さを利用した自動生成ファイルの特定}, author = {土居真之}, month = {2}, year = {2018}, note = {特別研究報告}, }

Search

Tags