本文作者所在的小组的研究领域是软件开发数据挖掘,在各种的软件开发数据中,最基础且最重要的数据是软件项目的代码库,其中包含了项目的所有代码文件、代码的所有版本、代码提交者的想关信息。其小组从互联网的各大开源社区、代码托管网站爬取了超过20万个软件项目的代码库,其中既包含 Apache 、 Mozilla 这种大型社区中的项目,也包含托管于 Github 、 Bitbucket 等网站上的大大小小的项目。然而尽管我们有了大量数据,也提取了这些数据的元信息,但是这些数据一直静静的躺在服务器的磁盘上,并没有被很好利用。其中一个重要的原因是我们缺少一个方便好用的搜索工具对数据进行探索。于是就开发了一个即时搜索工具来管理数据。 阅读原文 »

1 收藏


直接登录

推荐关注