自然语言处理(nlp)的流程图

guaguastd

8320人浏览 · 2015-03-06 11:27:24

guaguastd · 2015-03-06 11:27:24 发布

1. 读取原始数据

html = urlopen(url).read()

2. 数据清洗

raw = nltk.clean_html(html)

3. 数据切片

raw = raw[111:2222222]

4. 数据分词

tokens = nltk.wordpunct_tokenize(raw)

或者

tokens = nltk.word_tokenize(raw)

5. 分词切片

tokens = tokens[20:222222]

6. 文本转换（或者不需要）

text = nltk.Text(tokens)

7. 词汇获取

words = [w.lower() for w in text]

vocab = sorted(set(words))

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

中国 AI 冲击正在撼动硅谷——GLM-5.2 让硅谷大佬纷纷转向中国模型

彭博社发文指中国 AI 正在撼动硅谷，硅谷芯片设计师 Jim Keller 和 Coinbase CEO 已转向中国模型。分析中国 AI 出圈的核心原因。

2048 AI社区

AI出海系统的人力成本建模与平台化架构实践

它使得"扩展城市"这个业务动作，从"线性增加固定成本"变成"几乎不增加边际成本"。在AI出海项目的架构评审中，技术团队通常关注的是：模型推理性能、API网关吞吐、多语言NLP精度、数据库分片策略。平台化模式的技术挑战不在于模型本身，而在于：如何让不是你员工的人，能像你的员工一样高效地使用你的AI系统。在"全雇佣"模式下，每新增一个城市i，Fᵢ是一个固定值（东南亚市场基准：20-40万人民币/年）。