11.9-11.12学习笔记
今天在电脑上实现了语音识别,但是不一样的是方言的语音识别,识别的对象是莆田话,上个星期准备了2000条莆田话方言包括意思,给别人去训练(因为用GPU服务器更快的训练好),今天已经训练好了。2,还发现了自己有个不足,习惯的太依赖AI比如报错了,自己英语又不好,看不懂就直接复制给AI让AI给我提出解决办法,自己并没有做思考,过度的使用AI导致自己并没有扎实的学到东西。(解决办法:学习常见的报错,常见的
11.9
语音识别使用Useful Transformers
似乎是专门用来针对 RK3588 处理器进行优化,但是我用的系统是buildroot缺少很多工具,也缺少很多的依赖,导致解决完一个问题出现另一个问题
buildroot配置起来还是很麻烦,遇到的问题有
1,缺少文件libgomp1
在GitHub有时候都未必有,然后就发现了很好下依赖文件的网站https://packages.ubuntu.com/
常用的倒是可以直接搜索发现
2,libstdc++6版本不够,导致执行报错。也就是当前的libstdc++6不符合GLIBCXX_3.4.29
这个不管在官网还是GitHub上下载aarch64的版本都满足不了GLIBCXX_3.4.29。怕担心后续还是出问题,打算换Ubuntu系统,问了AI也说换了系统对跑模型更有利,效果会更好。
为了找这些软件去网络上找,结果找不到,然后就听AI的去重新编译aarch环境下的内核,配置菜单勾选libstdc++然后重新编译又花4个小时才编译好。结果并没有找到ibstdc++,要疯掉了!!!虽然浪费了一天的时间但是也解决一个问题,下载GitHub文件速度慢的问题,使用网站https://gh-proxy.com/希望可以活的久一点哈哈哈
除了以上的方法在11.12号了解到,可以用多线程加速器去下载,用的是Internet Download Manager软件,可以开32个线程同时下载一个文件,原本2个小时才可以下载好的,现在只要4分钟。
11.10
今天板子烧了Ubuntu系统。连apt get install都会报错因为分配的空间太小,可以删一下图像的界面
root@ATK-DLRK3588-Ubuntu:~# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/root 4.3G 3.9G 149M 97% /
devtmpfs 3.9G 0 3.9G 0% /dev
tmpfs 3.9G 0 3.9G 0% /dev/shm
tmpfs 793M 6.5M 786M 1% /run
tmpfs 5.0M 4.0K 5.0M 1% /run/lock
tmpfs 3.9G 0 3.9G 0% /sys/fs/cgroup
tmpfs 793M 0 793M 0% /run/user/0
root@ATK-DLRK3588-Ubuntu:~#
卸载图形桌面核心组件:
apt remove -y --purge gdm3 lightdm ubuntu-desktop gnome-shell kde-plasma-desktop
彻底清理残留配置和依赖
apt autoremove -y --purge
apt clean && apt autoclean
还是占用70%空间,明天带个U盘把东西都挂载到U盘上
重新配置好之前的那些rknn-toolkit2,要被折磨死了,缓一缓看视频学点干货吧
第一次接触conda主要分为两大类包管理和环境管理就记一下相关的命令
环境管理有这些:
conda create -n 环境名(创建环境名)conda create -n 环境名 pythonx.x(创建指定py环境)
conda activate 环境名(激活环境名)conda deactivate(退出当前环境)
conda env list(列出已有的环境名)conda remove -n 环境名 --all(删除环境)
conda config --show-source(可以查看配置文件目录)
包管理有这些都是比较好记的:
conda install 包1 包2 包3 conda remove
conda list conda search 包名(搜索 Conda 仓库的包(查看可用版本))
11.11
在课程里克隆和添加源也是蛮重要的
conda config --add channels 链接🔗(添加源)
conda create --name newname --clone oldname(克隆oldname)
人脸识别需要转换为RKNN模型,才可以在有效利用RK3588NPU资源
通过convert.py文件,来实现把yolo的onnx模型转换为RKNN模型,执行测试命令
python3 convert.py xxxxx.onnx rk3568
突然想要个手机支架建模去了,打印出来效果还不错


11.12
今天在电脑上实现了语音识别,但是不一样的是方言的语音识别,识别的对象是莆田话,上个星期准备了2000条莆田话方言包括意思,给别人去训练(因为用GPU服务器更快的训练好),今天已经训练好了。使用的是sensevoice技术,实现了识别莆田方言,解决了客家话方言听不懂的问题
开源链接是SenseVoice多语言语音理解模型Small · 模型库
当前音量:1526 | 阈值:600 | ⏳ 等待语音...
📢 检测到语音,开始录音...
当前音量:30 | 阈值:600 | 🎤 录音中.....
🛑 检测到静音,停止录音
💾 录音已保存:recording_20251112_152053_591.wav
🔍 正在识别语音...
rtf_avg: 0.066: 100%|████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 3.16it/s]
rtf_avg: 0.233: 100%|████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1.13it/s]
rtf_avg: 0.188, time_speech: 4.760, time_escape: 0.893: 100%|███████████████████████████| 1/1 [00:00<00:00, 1.05it/s]
✅ 识别结果:晚上好,不吃点水果吗?
成功的用非流式的方法来识别音频文件的意思是什么。
这个功能也可以尝试部署运行在护士机器人的方案里,毕竟很多老人都不会说普通话了
上一次笔记问题
问题1:为什么用Useful Transformers,你是怎么计算你的CPU or GPU or NPU的资源是否足够支撑你的项目?
答开源链接是:https://github.com/moonshine-ai/useful-transformers?tab=readme-ov-file#readme
在官网文档里,说模型重点是在边缘运行推理的低成本、低能耗处理器。在图里也显示出推理的速度也有不错的效果。可以尝试部署到本地,查看CPU和NPU占用率。
问题2:你对yolov8了解多少,训练方法是什么,你是怎么训练你自己的模型的?
答使用yolov8在RK3588的平台网上的资料最多,所以使用yolov8,训练方法是迁移学习,准备数据集,7训练2验证1测试,然后训练出小模型,转换为rknn模型
不足
1,因为板子装了Ubuntu系统,进度慢了许多。没有文档发现自己啥也不会。
(解决办法:这个感觉只能多学一点孰能生巧)
2,还发现了自己有个不足,习惯的太依赖AI比如报错了,自己英语又不好,看不懂就直接复制给AI让AI给我提出解决办法,自己并没有做思考,过度的使用AI导致自己并没有扎实的学到东西
(解决办法:学习常见的报错,常见的英文单词,出现报错先能够理解里面在说什么,然后再自己尝试能否解决,实在没办法了再去查百度问AI)
4天的学习笔记就到这了,希望大佬指点指点,然后如果发现错误请大佬指正,谢谢!!
更多推荐


所有评论(0)