ソフトウェア工学界隈に「自然さ仮説」を提唱した論文.

人間が書く自然言語は単純で繰り返される傾向があり,その傾向に基づいた自然言語解析は多く行われている. ソースコードも同様にリッチで表現力がある人間が書く言語である. そのため,ソースコードに対しても,予測可能な統計的特徴があるのではないかという仮説を提唱している. 自然さの測定として出現する字句のn-gramを用いている.

実験として,自然言語とプログラミング言語に対して,それぞれの交差エントロピーを測定した.

仮説を提唱する系の論文は初めて読んだ. 色んな箇所から,この研究はまだまだ黎明期にあり,様々な応用に利用されることを期待している記述が読み取れた. その一つとして,多くのFuture Workを提示している.