11.9-11.12学习笔记

今天在电脑上实现了语音识别，但是不一样的是方言的语音识别，识别的对象是莆田话，上个星期准备了2000条莆田话方言包括意思，给别人去训练（因为用GPU服务器更快的训练好），今天已经训练好了。2，还发现了自己有个不足，习惯的太依赖AI比如报错了，自己英语又不好，看不懂就直接复制给AI让AI给我提出解决办法，自己并没有做思考，过度的使用AI导致自己并没有扎实的学到东西。（解决办法：学习常见的报错，常见的

2301_80653890

642人浏览 · 2025-11-12 16:43:55

2301_80653890 · 2025-11-12 16:43:55 发布

11.9

语音识别使用Useful Transformers

使用文章
https://blog.csdn.net/gitblog_00942/article/details/142607527?ops_request_misc=%257B%2522request%255Fid%2522%253A%25225f33cdba5ddb206bb4e6ae1d40fbd44f%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=5f33cdba5ddb206bb4e6ae1d40fbd44f&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-142607527-null-null.142^v102^pc_search_result_base5&utm_term=Useful%20Transformers&spm=1018.2226.3001.4187

似乎是专门用来针对 RK3588 处理器进行优化，但是我用的系统是buildroot缺少很多工具，也缺少很多的依赖，导致解决完一个问题出现另一个问题
buildroot配置起来还是很麻烦，遇到的问题有

1，缺少文件libgomp1
在GitHub有时候都未必有，然后就发现了很好下依赖文件的网站https://packages.ubuntu.com/
常用的倒是可以直接搜索发现

2，libstdc++6版本不够，导致执行报错。也就是当前的libstdc++6不符合GLIBCXX_3.4.29
这个不管在官网还是GitHub上下载aarch64的版本都满足不了GLIBCXX_3.4.29。怕担心后续还是出问题，打算换Ubuntu系统，问了AI也说换了系统对跑模型更有利，效果会更好。

为了找这些软件去网络上找，结果找不到，然后就听AI的去重新编译aarch环境下的内核，配置菜单勾选libstdc++然后重新编译又花4个小时才编译好。结果并没有找到ibstdc++，要疯掉了！！！虽然浪费了一天的时间但是也解决一个问题，下载GitHub文件速度慢的问题，使用网站https://gh-proxy.com/希望可以活的久一点哈哈哈
除了以上的方法在11.12号了解到，可以用多线程加速器去下载，用的是Internet Download Manager软件，可以开32个线程同时下载一个文件，原本2个小时才可以下载好的，现在只要4分钟。

11.10

今天板子烧了Ubuntu系统。连apt get install都会报错因为分配的空间太小，可以删一下图像的界面

root@ATK-DLRK3588-Ubuntu:~# df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/root       4.3G  3.9G  149M  97% /
devtmpfs        3.9G     0  3.9G   0% /dev
tmpfs           3.9G     0  3.9G   0% /dev/shm
tmpfs           793M  6.5M  786M   1% /run
tmpfs           5.0M  4.0K  5.0M   1% /run/lock
tmpfs           3.9G     0  3.9G   0% /sys/fs/cgroup
tmpfs           793M     0  793M   0% /run/user/0
root@ATK-DLRK3588-Ubuntu:~#

卸载图形桌面核心组件：
apt remove -y --purge gdm3 lightdm ubuntu-desktop gnome-shell kde-plasma-desktop
彻底清理残留配置和依赖
apt autoremove -y --purge
apt clean && apt autoclean
还是占用70%空间,明天带个U盘把东西都挂载到U盘上

重新配置好之前的那些rknn-toolkit2，要被折磨死了，缓一缓看视频学点干货吧

https://www.bilibili.com/video/BV1bC4y177FT/?p=8&spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=607039fe1af687f65980856edba895ca

第一次接触conda主要分为两大类包管理和环境管理就记一下相关的命令
环境管理有这些：
conda create -n 环境名（创建环境名）conda create -n 环境名 pythonx.x（创建指定py环境）
conda activate 环境名（激活环境名）conda deactivate（退出当前环境）
conda env list（列出已有的环境名）conda remove -n 环境名 --all(删除环境)
conda config --show-source（可以查看配置文件目录）

包管理有这些都是比较好记的：
conda install 包1 包2 包3 conda remove
conda list conda search 包名（搜索 Conda 仓库的包（查看可用版本））

11.11

在课程里克隆和添加源也是蛮重要的
conda config --add channels 链接🔗（添加源）
conda create --name newname --clone oldname（克隆oldname）

人脸识别需要转换为RKNN模型，才可以在有效利用RK3588NPU资源

通过convert.py文件，来实现把yolo的onnx模型转换为RKNN模型，执行测试命令

python3 convert.py xxxxx.onnx rk3568

突然想要个手机支架建模去了，打印出来效果还不错

11.12

今天在电脑上实现了语音识别，但是不一样的是方言的语音识别，识别的对象是莆田话，上个星期准备了2000条莆田话方言包括意思，给别人去训练（因为用GPU服务器更快的训练好），今天已经训练好了。使用的是sensevoice技术，实现了识别莆田方言，解决了客家话方言听不懂的问题
开源链接是SenseVoice多语言语音理解模型Small · 模型库

当前音量：1526 | 阈值：600 | ⏳ 等待语音...
📢 检测到语音，开始录音...
当前音量：30 | 阈值：600 | 🎤 录音中.....
🛑 检测到静音，停止录音

💾 录音已保存：recording_20251112_152053_591.wav
🔍 正在识别语音...
rtf_avg: 0.066: 100%|████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  3.16it/s]
rtf_avg: 0.233: 100%|████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.13it/s]
rtf_avg: 0.188, time_speech:  4.760, time_escape: 0.893: 100%|███████████████████████████| 1/1 [00:00<00:00,  1.05it/s]
✅ 识别结果：晚上好，不吃点水果吗？

成功的用非流式的方法来识别音频文件的意思是什么。
这个功能也可以尝试部署运行在护士机器人的方案里，毕竟很多老人都不会说普通话了

上一次笔记问题

问题1：为什么用Useful Transformers，你是怎么计算你的CPU or GPU or NPU的资源是否足够支撑你的项目？

答开源链接是：https://github.com/moonshine-ai/useful-transformers?tab=readme-ov-file#readme
在官网文档里，说模型重点是在边缘运行推理的低成本、低能耗处理器。在图里也显示出推理的速度也有不错的效果。可以尝试部署到本地，查看CPU和NPU占用率。

问题2：你对yolov8了解多少，训练方法是什么，你是怎么训练你自己的模型的？

答使用yolov8在RK3588的平台网上的资料最多，所以使用yolov8，训练方法是迁移学习，准备数据集，7训练2验证1测试，然后训练出小模型，转换为rknn模型

不足

1，因为板子装了Ubuntu系统，进度慢了许多。没有文档发现自己啥也不会。

（解决办法：这个感觉只能多学一点孰能生巧）

2，还发现了自己有个不足，习惯的太依赖AI比如报错了，自己英语又不好，看不懂就直接复制给AI让AI给我提出解决办法，自己并没有做思考，过度的使用AI导致自己并没有扎实的学到东西

（解决办法：学习常见的报错，常见的英文单词，出现报错先能够理解里面在说什么，然后再自己尝试能否解决，实在没办法了再去查百度问AI）

4天的学习笔记就到这了，希望大佬指点指点，然后如果发现错误请大佬指正，谢谢！！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Typora插件开发指南：打造专属IDE式写作环境

**从编辑器到“写作IDE”的愿景**：将Typora从一个优秀的Markdown编辑器，升级为集写作、管理、发布于一体的个性化工作台。- **了解Typora插件架构**：核心文件（`plugin.json`, `main.js`）、生命周期与API边界。- **操作文档内容**：读取、修改、插入Markdown与HTML。## 8. 从插件到生态：创意拓展方向 - **与外部工具链集成**：G