2021年度技术回顾

2021年对某机构而言是技术成果丰硕的一年。主要技术进展包括spaCy v3的发布、Prodigy Teams的开发推进,以及团队的技术贡献。

一月

  • 1月19日:免费spaCy在线课程推出葡萄牙语版本
  • 1月22日:受邀参与技术播客讨论数据科学创业方法论

二月

  • 2月1日:正式发布spaCy v3.0,主要特性包括:
    • 基于transformer的管道架构,达到当前最先进精度
    • 新型工作流系统支持项目从原型到生产环境部署
    • 同步发布spaCy Projects管理端到端工作流
  • 发布多支技术视频:
    • spaCy v3设计理念解读
    • 可训练实体关系抽取组件实现教程
    • 在技术 meetup 展示新特性

三月

  • 3月4日:发布spaCy与Stanza包1.0版本,支持直接使用斯坦福研究模型
  • 3月30日:spaCy在GitHub获超20,000星标

四月

  • 技术分享涉及机器学习开发流程中多方协作的重要性

六月

  • 在全球顶级NLP社区进行技术演讲
  • 发表"Applied NLP Thinking"技术博客,探讨将商业问题转化为机器学习解决方案的方法

七月

  • 7月7日:发布spaCy v3.1
    • 支持训练中使用预测标注
    • 新增SpanCategorizer组件处理任意重叠跨度预测
    • Prodigy标注UI支持重叠跨度标注
  • 7月13日:集成某开源平台Hub,支持:
    • 通过CLI工具上传管道
    • 自动生成文档和浏览器交互式可视化

八月

  • 8月12日:
    • 与某实验跟踪平台合作提升NLP管道复现性
    • 发布Prodigy v1.11
      • 支持pip安装和Python 3.9/ARM架构
      • 新增重叠跨度标注流程
      • 改进句子识别模型的训练方案
      • 深度集成spaCy配置系统

十一月

  • 11月5日:发布spaCy v3.2
    • 优化Apple M1和NVIDIA GPU性能
    • 支持Doc对象管道输入
    • 提供注册式评分函数
    • 发布thinc-apple-ops包调用苹果原生加速库
  • 推出floret库:集成fastText和Bloom嵌入技术
  • 发布基于ML的词形还原器(准确率超95%)
  • 发布技术文档详解项目配置系统架构
  • 某媒体机构报道使用spaCy构建新闻引文提取ML模型的案例

十二月

  • 更新交互式NLP课程支持spaCy v3
  • 发布UD基准测试对比数据
  • 发布Healthsea端到端管道:分析补充剂用户评论并提取健康影响
  • 参与机器学习伦理与技术法规讨论

技术展望

随着技术社区持续扩大,将继续推进2022年的技术发展。所有技术方案均围绕提升NLP工程效率与模型性能展开。

更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐