Description
Google Books Ngrams是一个大型语料库,由Google计划开发并由Harvard University Library进行托管。该数据集由将Google Books中的数百万本书籍数字化转换成文本格式,再对其进行处理得到的一个结果。
N-grams是指书籍中的连续字节序列,例如单个字母,双字母,三字母,四字母等。Google Books Ngrams数据集记录了每个N-gram在所有可用书籍中出现的频率,并且可以与时间轴一起查询,以便可以观察到从18世纪以来英语中短语的使用趋势。
据数据表明,Google Books Ngrams数据集中含有大约5.2万亿个N-grams。这使得这个数据集成为了一种有用的研究语言和文化变化的资源。此外,该数据集还可用于研究各种研究领域,例如历史,社会学,语言学和文学研究,其中一些领域的研究人员已经使用过Google Books Ngrams数据集来支持他们的研究。
本APP 根据单词在 20120701 和 20220217 Google Books Ngrams 数据集中出现的次数,并且在 20220217 数据集中按频率降序排列,整理出前50000个最常用单词。