機械学習を使ってコードクローンを検出する.

クローン検出はメソッド単位で行う. 既存のタイプ3を検出できる手法,SourcererCC,NiCAD,Deckardと比較して,高速でタイプ3を検出できるのが特徴らしい. メソッド内のトークンの出現回数をベクトル化し学習する. SourcererCCとは異なり,必要なトークンを8種類にカテゴリ分けする.

実験結果からprecision,recallともに既存のツールを上回っているのを示した.

既存の手法と比べて高速に検出できるらしいが,学習する時間を考えるとそうとも言えない気がする. 手法としては,Sourcererと同じでブロック単位でも検出できる気がするがなぜかしてないのが謎.