随着小红书逐渐成为年轻人获取生活方式灵感、购物决策与社交分享的重要平台,其用户生产的内容(UGC)在文本质量、配图美感、互动热度等方面,都具有极高的分析与建模价值。
无论是人工智能研究人员数据科学家,还是新媒体运营团队品牌营销方,都可以从小红书内容数据中提炼出有价值的信息

  •  NLP 领域:海量高质量的中文短文+长文混合文本,覆盖多种话题、写作风格与标签体系。

  • 推荐系统与个性化分发:带有用户画像与互动行为的数据,有助于训练精准的推荐算法。

  • 内容创作与爆款生成:分析高互动笔记的文案与配图模式,为 AI 生成器提供优质参考。

  • 市场与舆情分析:基于时间、地域、互动量等维度进行趋势追踪与竞品监控。

本数据集是为以上需求而整理的结构化版本,可帮助大家减少收集数据的时间,助力项目快速落地。

字段说明

字段名 说明 示例
title 笔记标题 “是雨水还是桑延的眼泪”
content 笔记正文(含 emoji 与格式) “多讨厌的雨天,总让人想起那画面…”
content_xml 网页源码内容 <div class="note-content">...</div>
tags 标签列表 “#电视剧 #追剧”
like_count 点赞数 356
collection_count 收藏数 128
reply_count 评论数 45
share_count 分享数 12
pic_urls 图片 URL 列表 [多张高清图链接]
user_name 用户昵称 “桃红红爱煲剧”
user_profile_img_url 用户头像链接 [头像 URL]
followers_count 用户粉丝数 10
ip_region IP 属地 “广东”
ctime 笔记发布时间(时间戳) 1739946410
url 笔记原文链接 小红书 - 你的生活兴趣社区...
获取方式 样例 https://dianshudata.com/dataDetail/2274

应用场景详解

1. NLP 与文本分析(具体应用示例)

情感分析


基于笔记的正文和标签,利用有监督学习或预训练模型(如BERT、RoBERTa)来识别用户情感倾向。

  • 任务示例:构建三分类模型(积极、中性、消极),帮助品牌判断用户对产品或事件的态度。

  • 数据应用:利用标签中的情感关键词和正文中包含的emoji、语气词增强情感特征表达。

话题分类


通过对标签和正文文本进行特征抽取(TF-IDF、词向量、预训练模型编码),训练多类别文本分类模型,实现自动识别笔记所属的主题类别(如美妆、旅行、美食、影视等)。

  • 任务示例:为内容推荐系统提供准确的内容标签,提高推荐精准度。

  • 方法建议:使用深度学习文本分类网络(如TextCNN、Transformer)结合标签辅助训练。

关键词提取


分析爆款笔记中频繁出现的关键词、短语及特殊符号(如emoji),提炼出高频热词和内容亮点。

  • 任务示例:基于TF-IDF、TextRank或基于注意力机制的模型,提取关键标签词汇,辅助运营人员设计爆款话题。

  • 特色挖掘:结合点赞量、收藏量权重,筛选互动高的关键词,捕捉用户关注热点。

2. 推荐算法与个性化分发(具体应用示例)

用户兴趣画像构建


通过整合用户发布笔记的标签、正文主题、互动行为(点赞、收藏、评论)、以及地域分布等信息,构建多维度的用户兴趣特征。

  • 数据利用:利用标签关键词统计用户关注的领域,结合互动频率权重,形成兴趣偏好向量。

  • 地域分布:根据IP属地分析区域兴趣差异,帮助实现地域个性化推荐。

  • 实现方式:可使用矩阵分解(MF)、图神经网络(GNN)或基于Transformer的用户行为编码模型,融合多源特征提升用户画像精准度。

热门内容预测


利用笔记发布初期的互动数据(如首小时点赞数、收藏数、评论数)作为特征,结合文本和用户画像信息,预测该笔记未来是否会成为爆款。

  • 模型选择:可以采用分类模型(如XGBoost、LightGBM、深度神经网络)对笔记的爆款潜力进行二分类预测。

  • 特征设计:文本情感分数、关键词热度、用户活跃度、历史爆款标签等,均可作为重要输入。

  • 应用价值:帮助平台优先推荐潜力内容,提升整体用户体验和留存率。

多模态推荐系统


结合笔记的文本内容与配图信息,利用多模态学习方法提升推荐效果。

  • 文本特征:通过预训练语言模型提取语义向量。

  • 图像特征:利用卷积神经网络(如ResNet、EfficientNet)或视觉Transformer提取图片特征。

  • 融合策略:采用多模态融合模型(如跨模态注意力机制)将文本与图像特征整合,增强内容理解能力。

  • 实际效果:有效捕捉图文搭配带来的内容丰富度,提高推荐的相关性和用户点击率。

推荐算法训练模型的适用范围说明


需要明确的是,基于这份小红书全量笔记数据训练得到的推荐算法模型,主要针对小红书平台的内容和用户行为特征进行优化。因为模型的输入特征和用户互动模式都紧密绑定于小红书的生态,直接将该模型应用于其他社交媒体平台,往往会因数据分布、用户行为差异显著,而导致推荐效果有些许不同,不过,推荐算法的基础架构和训练思路是高度通用的。只要有其他平台的相应数据,完全可以利用此处的模型设计理念,通过微调或重新训练,快速适配新的平台环境,获得良好的推荐性能。

因此,这份数据集和对应的训练方案,是打造高效推荐系统的基础,尤其适合专注于小红书生态的应用场景,同时也为未来多平台推荐系统的研发提供了坚实基础。

3.内容创作与爆款文章生成

通过系统分析点赞、收藏和评论数较高的优质笔记,深入挖掘文案的语言风格、结构布局和配图模式。具体包括:

  • 文案风格提炼
    抽取爆款笔记中的语言特色,如用词习惯、情感表达、段落节奏和emoji使用规律,捕捉小红书用户偏爱的写作风格。

  • 结构与逻辑分析
    研究爆款内容的开头吸引点、正文展开方式和结尾号召动作,为内容创作提供科学框架。

  • 视觉配图模式
    总结高互动笔记的配图风格,包括图片数量、色调搭配、排版布局等,提升视觉吸引力。

  • AI文案生成支持
    结合以上分析,构建训练集,为文本生成模型(如GPT、T5等)提供高质量参考样本,使AI生成内容更贴近爆款文案风格,提升生成内容的真实感和吸引力。

  • 内容迭代与优化
    利用反馈数据持续优化模型,支持内容运营团队快速迭代爆款文案,提高内容生产效率和用户互动率。

4.营销与商业分析的强大工具

  • 品牌口碑监测
    利用小红书笔记中的文本内容和互动数据,实时追踪品牌相关的提及量和用户参与度,结合情感分析技术,洞察用户对品牌的正面、负面或中性情绪变化。帮助品牌快速捕捉市场反馈,及时调整营销策略,降低负面舆情风险,提升品牌形象管理效率。

  • 爆款内容提炼
    通过系统分析点赞、收藏和评论数较高的爆款笔记,总结高效文案写作技巧、热点选题方向以及用户偏好的内容风格。借助关键词提取和风格模仿技术,辅助内容团队精准打造符合小红书用户口味的优质内容,提升内容传播效果和用户粘性。

  • 竞品与达人分析
    通过分析竞争品牌的笔记表现及相关KOL(关键意见领袖)的粉丝数量、活跃度和互动情况,识别潜在的合作达人。帮助品牌制定科学的KOL合作方案,实现精准投放与效果最大化,提升品牌曝光度和销售转化率。

  • 热点追踪
    基于标签和内容趋势的动态监测,及时锁定小红书上快速升温的话题和流行趋势。通过对热点内容的深度分析,帮助品牌抢占话题制高点,实现内容营销的先发优势,扩大品牌影响力并获取更多流量红利。

数据样例

可私聊获取更详细的样例
"data": {
                "like_count": 0,
                "analysis": {
                    "hashcode": {
                        "5": "5569861128897327000"
                    },
                },
                "collection_count": 0,
                "uuid": "ef612100ee8a11efa6d1246e96180298",
                "title": "亚洲杯互换领取",
                "mid": "67b579b50000000009016184",
                "content": "速来宝宝#5114 #亚洲杯",
                "pic_urls": [
                    "https://sns-img-al.xhscdn.com/1040g00831e2tas6sgu005ndltvtg8egld6cmng8?imageView2/2/w/480/format/webp",
                    "https://sns-img-al.xhscdn.com/1040g00831e2tas6sgu0g5ndltvtg8egl5idbik0?imageView2/2/w/480/format/webp",
                    "https://sns-img-al.xhscdn.com/1040g00831e2tas6sgu105ndltvtg8eglb969o18?imageView2/2/w/480/format/webp"
                ],
                "share_count": 0,
                "user": {
                    "profile_img_url": "https://sns-avatar-qc.xhscdn.com/avatar/1040g2jo31ai72vcq7e005ndltvtg8eglu766rso?imageView2/2/w/80/format/jpg",
                    "verified": 0,
                    "name": "******",
                    "friends_count": 10,
                    "url": "https://www.xiaohongshu.com/user/profile/5db5effb0000000001003a15",
                    "gender": "m",
                    "description": "健康平安就好",
                    "ip_region": [
                        "广东"
                    ],
                    "followers_count": 10,
                    "statuses_count": 0,
                    "uid": "5db5effb0000000001003a15"
                },

                "ctime": 1739946421,
                "url": "https://www.xiaohongshu.com/discovery/item/67b579b50000000009016184",
                "wtype": 1,
                "gather": {
                    "site_domain": "xiaohongshu.com",
                    "site_name": "小红书",
                    "info_flag": [
                        "01",
                        "0101"
                    ],
                    "gtime": 1739946596
                },
                "reply_count": 0,
            }

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐