前段时间在公司里处理一些大的数据,并对其进行分词、提取关键字等。虽说任务基本完成了(效果也不是特别好),对于Java还没入门的我来说前前后后花了2周的时间,我自己也是醉了。当然也有涉及到机器学习的知识,我想陆陆续续的记录下我的这一次任务的过程,也算做一个总结。

首先,手上有这么个达G级别的文件,按照Java普通I/O的方式肯定是不行的了,划分文件的话,也不知何年何月才能读完。所以后来上网查找了相关资料,才知道有这么个神奇的NIO。

在Java编程中,I/O是用流的方式读取文件,所有I/O都被视为单个的字节的移动,通过一个称为Stream的对象一次移动一个字节。Java中新的输入/输出(NIO)库是在JDK1.4中引入的。NIO弥补了原来I/O的不足,它在标准Java代码中提供了高速、面向块的I/O。通过定义包含数据的块,以及通过以块的形式来处理这些数据,NIO不用使用本机代码就可以利用低级优化,这是原来的I/O包所无法做到的。

流与块的比较

原来的I/O库和NIO最重要的区别就是数据打包和传输的方式,原来的I/O以流的方式处理数据,而NIO以块的方式处理数据。

面向流的I/O系统一次一个字节的处理数据,一个输入流产生一个字节的数据,一个输出流产生一个字节的数据。

一个面向块的I/O系统以块的形式处理数据。每一个操作都在一步中产生或者消费一个数据块。按块处理数据比按字节处理数据要快得多,即便它没有面向流的I/O那样的简单性。

阅读原文 »

4 1 收藏


直接登录

推荐关注