GPUを用いて接尾辞配列を用いたクローン検出を高速に行うツールSAGAの論文.
既存のクローン検出器は関数やブロック単位といった粗粒度なクローンを検出するツールが多い. 一方,
検出できるツールはない.
SAGAは,字句列の接尾辞配列からクローンを検出する. 接尾辞配列は省メモリなため,接尾辞木に比べて大規模なコードベースに適用させやすい. 一方,構築に時間がかかる. そのため,構築をGPUを用いて行うことで高速化を図っている.
また,接尾辞配列だけではType-1/2クローンしか検出できないため, Type-1/2クローンを合体させることでType-3クローンの検出を可能にしている.
実験結果から100M行のコードベースから10分程度でクローンを検出できることを示した. また,精度も他のツールと競合できることを示した.
実験結果(スケーラビリティ)は圧倒的だと思う. 一方で,クローン検出手法自体はあまり新規性がない気がする. 悪い言い方をすると実装頑張りました系論文.