もっとも古いクローン検出ツールの一つである dup の紹介論文.
読んだ所感は,本当に古い. 当時はコードクローンという言葉は使われておらず,単純に重複コードという表現している. また,計算機も古いからか,省メモリであることを強調している.
手法としては,行単位の比較を行い,閾値以上に一致している行をクローンとして検出する. 比較を行う際に,コメントや空白は除去される. また,識別子の正規化を行うこともできる.
クローン検出法として,ナイーブな実装と接尾辞木を使った実装がある. 接尾辞木を使った実装は前者に比べて高速だが,メモリを3倍食うらしい. 現代ではあまりメモリ容量を機にすることはないが,当時はかなり逼迫した問題であったことが伺える.
検出したクローンはプロットとして可視化している.