下载cc.en.300.bin，解决ValueError: cc.en.300.bin cannot be opened for loading

cc.en.300.bin为 157 种语言分发预训练的词向量

锦鲤AI幸运

2463人浏览 · 2022-03-30 18:21:55

锦鲤AI幸运 · 2022-03-30 18:21:55 发布

预训练词向量文件不存在

cc.en.300.bin为 157 种语言分发预训练的词向量， Common Crawl 和 Wikipedia 使用 fastText 这些模型使用具有位置权重的 CBOW 进行训练，维度为 300，字符 n-gram 长度为 5，窗口大小为 5 和 10 个负数。我们还分发了三个新词类比数据集，分别用于法语、印地语和波兰语。

先导入fasttext，下载 cc.en.300.bin既可，约4G多的语言分发预训练的词向量。

pip install fasttext
wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.en.300.bin.gz

解压bin.gz文件到当前文件夹下，-k保留原件 (–keep)：

!gzip -k cc.en.300.bin.gz

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

OpenCode 接入 GLM Coding Plan 教程（完整配置指南）

2048 AI社区

智源 RoboBrain-X0 开源，打破机器人跨本体泛化困境

感激生命中的每一位陪伴者，他们像星星一般，在我们的旅程里闪耀着光芒，照亮前行的路途。人生的意义在于探索，总要学会质疑与尝试，只有这样才能逐步接近梦想的终点，拥抱光辉的未来。智源研究院开源的 RoboBrain-X0 是一个突破性的机器人通用智能模型，旨在解决机器人跨本体泛化的核心难题。RoboBrain-X0 通过统一的表示学习和迁移框架，实现了知识在不同机器人平台间的共享与迁移。模型在计算效率方

2048 AI社区

AI-调查研究-94-具身智能机器人算法真机验证全流程解析：测试平台、部署方案与接口对接

当你用心去生活，世界会以意想不到的方式回应你，让我们在平凡中也能创造出不平凡的故事。时间的流转让我们更加珍惜每一次的晨昏，认真生活，创造出属于自己的独特篇章。坚持自己的梦想，拒绝外界的干扰，保持内心的宁静，让每一个新生的日子都是值得珍惜的时光。我们的每一天都在诉说着故事，无论大小，都有其独特的意义，值得我们细细品味与回味。经历过风雨，也更懂得阳光的珍贵，愿我们在挑战中找寻内心的力量，勇敢成就未来。