扫码关注微信公众号

回复“面试手册”,获取本站PDF版

回复“简历”,获取高质量简历模板

回复“加群”,加入程序员交流群

回复“电子书”,获取程序员类电子书

当前位置: 场景题 > 海量数据高频面试题 > 3.有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。

方法还是前面的分治+HashMap+小顶堆

首先遍历文件,对每个词进行hash,比如hash(x)%5000,将所有词分别存入到5000个小的文件中,每个文件大概200k左右,然后通过HashMap统计每个小文件中词的频率(key为词,value为频率)。对于每个遍历到的词,如果在HashMap中,则将value值加1,不在HashMap中,则将词存入HashMap,并将值置为1。最后构建小顶堆,堆的大小为100,找到频率最高的100个词。


点击面试手册,获取本站面试手册PDF完整版