原文:towardsdatascience.com/getting-started-with-multimodal-ai-one-hot-encoding-and-other-beginner-friendly-guides-c93d766c86ec?source=collection_archive---------8-----------------------#2024-11-21

https://towardsdatascience.medium.com/?source=post_page---byline--c93d766c86ec--------------------------------https://towardsdatascience.com/?source=post_page---byline--c93d766c86ec-------------------------------- TDS Editors

·发表于 Towards Data Science ·作为 Newsletter 发送 ·阅读时间:4 分钟 ·2024 年 11 月 21 日

想要写你的第一篇 TDS 文章吗?我们始终欢迎新作者的投稿

踏出掌握新主题的第一步总是有些让人畏惧——有时甚至是非常畏惧!无论你是第一次学习算法,还是在探索令人兴奋的 LLM(大语言模型)领域,或者刚刚被指派要重构团队的数据技术栈:在没有或几乎没有相关经验的情况下迎接挑战,需要付出相当的勇气和毅力。

更有经验的从业者的冷静而细致的视角也能起到很大作用——这正是我们的作者们的强项。本周,我们汇集了几篇近期的优秀文章,专门针对那些希望扩展技能的初学者的需求。让我们卷起袖子,开始吧!

  • 从并行计算原理到 CPU 和 GPU 架构的编程对于刚刚入门的数据科学家和机器学习工程师来说,理解内存基础和并行执行是至关重要的。Shreya Shukla的全面且易于理解的指南是让你在这一主题上打下坚实基础的完美资源,重点介绍如何为 CPU 和 GPU 架构编写代码,以完成诸如向量-矩阵乘法这样的基本任务。

  • 多模态模型——能够“看”和“听”的 LLM如果你对 LLM 的基础知识已经非常自信,为什么不进一步探索多模态模型,它们可以接收(在某些情况下,还可以生成)多种形式的数据——从图像到代码和音频?Shaw Talebi的入门教程是一个很好的起点,它是一个新系列的第一部分,为你构建实践知识打下了坚实的基础。

  • 机器学习中的提升算法,第 II 部分:梯度提升无论你是刚刚开始机器学习之旅,还是已经做了很长时间,但感觉可能需要复习基础知识,巩固基础从来都不是坏主意。Gurjinder Kaur对提升算法的持续探索是一个很好的例子,提供了对一些最强大模型的易于理解、易消化的解析——在本例中是梯度提升。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0af27a72481dbacc60e91d63d97e9b0a.png

图片由Taria Camerino提供,来源于Unsplash

  • NLP 插图解读,第一部分:文本编码我们很高兴与读者分享的另一个新项目是Shreya Rao刚刚推出的系列插图指南,涵盖自然语言处理中的核心概念,这项技术正是推动许多新兴聊天机器人和人工智能应用的技术。第一部分重点介绍了几乎所有 NLP 工作流中的一个关键步骤:通过文本编码将文本数据转化为数值输入。

  • 解码独热编码:分类数据的初学者指南如果你想了解另一种数据转换形式,不要错过Vyacheslav Efimov对独热编码的清晰简洁的介绍,它是“数据预处理过程中最基本的技术之一”,将分类特征转换为数值向量。

  • Excel 电子表格在大数据领域已死。公司需要更多的 Python有一种转变,往往比学习一个新主题还要困难,那就是切换到一个新工具或工作流程,尤其是当你要放弃的工具正好处于你的舒适区时。然而,正如Ari Joury 博士所解释的那样,有时为了采用基于 Python 的数据工具而暂时牺牲速度和易用性是值得的,这种情况正是 Excel 电子表格被替代的原因。

准备好这周涉足其他话题和挑战了吗?我们希望如此——最近我们发布了一些关于 LLM 应用、Python 生成的艺术、AI 伦理等方面的精彩文章:

  • 过去一年构建基于 LLM 的应用程序之后,Satwiki De分享了关于这一过程如何与传统产品开发规范有所不同的实用见解。

  • 在他的最新文章中,Robert Lange聚焦于神经网络训练的最新进展,并探讨了分布式训练的各种方法,如数据并行训练和基于 gossip 的平均算法。

  • 将数据分析转化为有价值的商业决策一直是数据专业人士的一个长期挑战。Tessa Xie从这个问题提供了全新的视角,并给出了几个切实可行的建议。

  • 任何想要深入数学的读者可以直接去Reza Bagheri的最新文章,他带领我们了解极为重要的 softmax 函数的内部工作原理。

  • 在对生成式 AI 工具的输出感到失望之后,Anna Gordun Peiro 尝试使用纯粹的 Python 创作 Mondrian 风格的艺术作品,并通过一篇易于跟随的教程记录了她的过程。

  • 在处理时间序列数据时,了解你的异常值处理是否有效是至关重要的。 Sara Nóbrega 在她的最新文章中详细讨论了你可以用来评估处理效果的各种方法。

  • 创建能在大规模运作的 AI 伦理与治理框架需要什么?Jason Tamara Widjaja 解构了弥合常见组织和实施差距的挑战。

  • 在音乐与 AI 的交汇处写作的Jon Flynn,带领我们走过这个日益发展的领域,并聚焦于 Qwen2-Audio 模型,该模型被训练来将音乐输入转录成乐谱。

感谢你支持我们作者的工作!正如我们之前提到的,我们很高兴发布新作者的文章,因此如果你最近写了一篇有趣的项目实践、教程或关于我们核心话题的理论反思,别犹豫,与我们分享

直到下一个变量,

TDS 团队

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐