预训练词向量文件不存在

  cc.en.300.bin为 157 种语言分发预训练的词向量, Common Crawl 和 Wikipedia 使用 fastText 这些模型使用具有位置权重的 CBOW 进行训练,维度为 300,字符 n-gram 长度为 5,窗口大小为 5 和 10 个负数。 我们还分发了三个新词类比数据集,分别用于法语、印地语和波兰语。

先导入fasttext,下载 cc.en.300.bin既可,约4G多的语言分发预训练的词向量。

pip install fasttext
wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.en.300.bin.gz

解压bin.gz文件到当前文件夹下,-k保留原件 (–keep):

!gzip -k cc.en.300.bin.gz
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐