浅梦 AI 助手 Runtime 开发报告:一个本地语音桌面 Agent 的工程化实现
浅梦 AI 助手 Runtime 开发报告:一个本地语音桌面 Agent 的工程化实现1. 项目概述AI_voice_assistant 是一个面向 Windows 本地环境的个人 AI 助手 Runtime。它并不是一个简单的“语音聊天脚本”,而是一个把本地大语言模型、语音识别、语音合成、桌面上下文、网页搜索、RAG、工具调用、长期记忆和 Skill Package 扩展机制整合到一起的桌面 Agent 框架。 从整体定位来看,该项目希望实现的是: 以本地大模型为核心的对话能力; 通过 FunASR 完成中文语音输入; 通过 GPT-SoVITS 完成拟人化语音输出; 通过弹窗、桌宠入口、CLI、WebUI 等方式提供多入口交互; 通过 Search/RAG 机制增强实时信息获取能力; 通过 Tool Registry 和 Skill Package 实现工具调用与任务扩展; 通过屏幕观察、浏览器上下文、桌面状态等能力,让助手具备一定的“桌面感知”能力。 如果用一句话概括: 这是一个本地可部署、支持语音交互、具备桌面上下文感知、可联网检索、可调用工具、可扩展技能...
PPT-Master
PPT-Master一、项目介绍随着大语言模型的发展,AI 自动生成 PPT 已经成为一种非常热门的应用方向。 传统 AI PPT 工具虽然可以快速生成内容,但大多数都存在一个问题: “生成后无法继续编辑”很多工具最终导出的: 实际上只是截图 或者整页图片 无法修改布局 无法编辑图形 无法继续二次设计 而 PPT-Master 最大的特点: 就是: “生成真正可编辑的 PPT”项目地址: https://github.com/hugohe3/ppt-master 二、PPT-Master 能干什么?PPT-Master 本质上: 是一个: 1LLM + SVG + PowerPoint DrawingML 组合而成的 AI PPT 自动生成系统。 它不仅能: 自动生成 PPT 内容 自动设计页面布局 自动生成图表 自动生成 SVG 页面 还可以: 将 SVG 转换为真正可编辑的 PPTX 文件最终生成的 PPT: 支持: 文本编辑 图形编辑 元素拖动 配色修改 动画 转场 而不是单纯的图片。 三、项目核心原理很多人以为: PPT-Master 是: 1AI → 直接...
基于大模型的移动应用合规检测系统开发记录
基于大模型的移动应用合规检测系统开发记录最近一直在做一个和“大模型 + RAG + 移动应用隐私合规检测”相关的项目。 这个项目从最开始的简单想法,到后面慢慢扩展成完整的实验系统,其实经历了很长时间的迭代。 现在回头看,已经不仅仅只是一个“调用大模型”的脚本了,而是一个包含: 标准知识库构建 RAG 检索 应用分类 隐私政策分析 APK 权限分析 自动报告生成 实验评估 消融实验 的完整研究型项目。 一、项目最开始的想法一开始做这个项目,其实是因为发现: 现在很多移动应用虽然都有隐私政策,但真正认真阅读的人很少。 而且很多应用存在: 权限申请过多 隐私政策披露不完整 实际行为和声明不一致 敏感信息处理不规范 这些问题。 于是后面就开始思考: 能不能利用大模型和 RAG,把国家标准、隐私政策和 APK 权限结合起来,自动做合规分析? 后来整个项目就慢慢成型了。 二、项目整体目标整个系统主要围绕三个问题展开: 1. 应用分类识别系统需要先判断: 一个应用到底属于什么类型。 这里参考的是: 1GB/T 41391-2022 中的重点应用类别。 系统会结合: 应用简介 隐私政...
Qwen 本地部署记录
Qwen 本地部署记录最近开始正式折腾本地大模型。 相比直接使用在线 API,本地部署最大的优点其实是: 隐私可控 不受网络限制 响应速度稳定 可以自由改参数 能接各种 Agent 系统 这次主要使用: 1Qwen + llama.cpp + RTX4060 Laptop 进行本地部署。 一、设备环境目前使用的设备: Honor MagicBook Pro 16 RTX 4060 Laptop GPU(8GB) Windows 11 WSL2 Ubuntu 22.04 二、为什么选择 Qwen一开始其实对比过很多模型: DeepSeek Llama Mistral Qwen 最后还是选择了 Qwen。 主要原因: 1. 中文能力强Qwen 的中文表现确实很好。 尤其: 长文本 中文逻辑 技术问题 明显比很多模型更自然。 2. 本地部署生态成熟目前: GGUF llama.cpp Ollama 对 Qwen 支持都很好。 部署方便很多。 3. 参数规模适合 4060 Laptop因为只有 8GB 显存。 所以: 70B 基本不现实 32B 边缘可跑 14B ...
搭建属于自己的博客
今天花了一整天,把自己的个人博客慢慢搭了起来。 从最开始什么都没有,到现在真正拥有了一个属于自己的网页空间,过程其实比想象中更有意思。 一开始只是想简单做一个技术博客,用来记录以后学习 AI、本地大模型和开发过程里的内容。后来越改越上头,从 Hexo 到 Butterfly,从背景图到毛玻璃,再到导航栏、图片墙、视频页、随笔页……慢慢发现,自己想做的已经不只是一个“技术博客”。 更像是一个属于自己的数字空间。 这里以后不仅会放技术文档,也会记录一些生活里的东西,比如图片、视频、游戏截图、灵感、情绪、碎碎念,甚至可能只是某一天突然很喜欢的一张图。 今天最大的感受,大概是: 原来从零把一个网站慢慢搭成自己喜欢的样子,会有一种很强的“归属感”。 尤其是当背景、颜色、动画和布局一点点变成自己想要的风格的时候,会觉得这个页面真的开始“像自己”了。 目前博客还有很多地方没完善: 关于我页面还没完全做好 图片墙和视频页还在继续调整 后面还想接 AI 功能 还想加更多动态效果和内容分类 但至少现在,它已经不再是默认模板了。 而是真正开始变成: 一个属于自己的长期记录空间。 以后应该会经常在这...
WSL2 CUDA 配置记录
WSL2 CUDA 配置记录最近很多本地 AI 工具都开始依赖: 1Linux + CUDA 环境。 所以后面开始正式折腾: 1Windows + WSL2 + CUDA 这一套环境。 一、为什么使用 WSL2相比虚拟机: WSL2 最大的优点是: 更轻量 GPU 支持更好 Linux 兼容性强 开发方便 现在很多: OpenClaw Docker AI Agent Python 环境 都更适合 Linux。 二、安装 WSL2管理员 PowerShell: 1wsl --install 安装完成后: 1wsl -l -v 查看版本。 三、安装 Ubuntu安装: 1Ubuntu 22.04 作为主要开发环境。 四、检查 GPU进入 WSL: 1nvidia-smi 如果正常: 会显示 GPU 信息。 五、安装 CUDA Toolkit下载: 1CUDA Toolkit 然后安装: 1sudo apt install nvidia-cuda-toolkit 六、Python 环境后面主要使用: 1conda 管理环境。 创建: 1conda create...



