🎯 四维评分总览(100分)
发音准确率 · 35分 文本
ASR 文本准确率线性映射:accuracy × 35
85%→29.8分 · 96%→33.6分 · 100%→35分
纯文本对比,不受声学干扰
纯文本对比,不受声学干扰
朗读表现 · 30分 声学
声学流畅性分析:flow_score / 100 × 30
综合卡壳、停顿位置、音量、自信度、语速
- ⏸️ 卡壳检测 25% — 停顿>1s 算卡壳
- 📍 停顿位置 20% — 词组间 vs 词组内
- 🔊 音量自信 20% — 平均音量 + 音量稳定性
- 📝 句子连贯 15% — 语音段数量
- ⏱️ 语速对比 20% — 与原音频对比
发音清晰度 · 25分 文本声学
尾音保留(15) + 音量清晰度(10)
尾音检测 -ed/-ing/-s 词尾是否读完整
音量覆盖部分根据实际音频能量映射
音量覆盖部分根据实际音频能量映射
完整性 · 10分
页覆盖率:1 - (跳页数/总页数) × 10
完整读完12页 → 10/10
🔧 流畅性算法细节
基于 VAD(语音活动检测) + 音频能量 + 语速分析,原创的 5 维加权评分
⏸️ 暂停严重性
25%
📍 停顿位置
20%
🔊 音量/自信度
20%
📝 句子连贯度
15%
⏱️ 语速
20%
═ 综合 flow_score
加权求和 → 0-100 分
📐 从 5 维到 4 维
❌
✅
尾音保留(20) + 音量清晰(15) → 合并为 发音清晰度(25),尾音和音量本身就是清晰度的两个子项
❌
✅
流畅性(20) + 音量部分 → 整合为 朗读表现(30),声学分析统一覆盖
❌
✅
🎵 频谱相似度覆盖发音分 → 去掉,发音准确率纯文本,不因频谱偏低被拉低
📊 真实案例对比
两个学生同一天的评测数据,输出完全响应标
🙋 AylaAndKitty
《Flies》· Level H
87
🎯 33.9/35 · 96.9% 准确率
🎙️ 24.9/30 · 流畅 avg 83.1
🔊 18.6/25 · 尾音准确
📋 10/10 · 12页全完成
0 次卡壳 · 声音洪亮
🎙️ 24.9/30 · 流畅 avg 83.1
🔊 18.6/25 · 尾音准确
📋 10/10 · 12页全完成
0 次卡壳 · 声音洪亮
🤔 thinking
《Why Do Leaves Change Color?》· M
74
🎯 30.5/35 · 87.2% 准确率
🎙️ 17.2/30 · 流畅 avg 57.5
🔊 16.2/25 · 尾音保留 39%
📋 10/10 · 12页全完成
9 次卡壳 · 16 次犹豫
🎙️ 17.2/30 · 流畅 avg 57.5
🔊 16.2/25 · 尾音保留 39%
📋 10/10 · 12页全完成
9 次卡壳 · 16 次犹豫
📝 朋友圈文案规则
📚 {姓名} 打卡《{书名}》Level {等级}
✅ {词数}词·正确{正确数}个⭐{总分}/100
85+ → 🎉 太棒了!{强项}都很出色,继续加油🌟
70-84 → 👍 {强项}做得很好,继续坚持进步更大💪
50-69 → 💪 {强项}可圈可点,多听原音再练练✨
<50 → 🌟 敢于开口就是进步,多听原音跟读加油💕
强项 = 得分≥60% 的维度
💻 技术架构
ASR: 腾讯云语音识别(SentenceRecognition ≤60s + 音频切分回退 >60s)
声学分析: 音频 VAD + 能量分析 + 语速对比(Python + libROSA)
文本对比: difflib 词级对齐 + 错误分类(尾音/功能词/多音节/元音/辅音)
报告生成: 移动端优先 HTML(模仿 ABC Reading 原生报告风格)
部署: nginx 静态文件服务 · lisabobo.cn