小奥的学习笔记

  • Home
  • Learning & Working
    • Speech Enhancement Notes
    • Programming language
    • Computer & DL
    • MOOC
  • Life
    • Life Time
    • Thinking & Comprehension
    • Volunteer
    • Plan
    • Travel
  • Footprints
  • GuestBook
  • About
    • About Me
    • 个人履历
    • 隐私策略
Computer & DL
Life Time

AEC个人学习串讲之fullaec.m:线性处理部分

取消大小周了,周末有了更多的时间来自己学习。给自己立个flag,两周内把fullaec.m里面的线性滤波器、NLP等部分弄懂,发博客;再2~3周的时间看webrtc的AEC3的代码,同样发博客整理;然后再2~3周的时间看一下speex里面的AEC算法。然后再2~3周吃一吃公司的算法,但是这个整理只是自己学习用,不会做任何公开发布。 所以下面开始第一个flag的内容。这周只有空看完了线性部分,仿佛没有看到这里面有DTD的部分,所以先发一下线性部分,后面整理一下非线性部分。在学习过程中,参考了《实时语音处理实践指南》相…

2021年8月8日 1条评论 1992点热度 0人点赞 davidcheung 阅读全文
语音处理学习笔记

《实时语音处理实践指南》第五章学习笔记

第一节 回声消除原理 声学回声消除主要用来解决双端通信中回声干扰的问题。如下图所示,A、B两段正在进行远程语音通话,B端语音被麦克风采集后转换成电信号,经过网络传输到达A端,由A端扬声器播放出来,如果在A端没有做AEC处理,那么这个声音就会被A端的麦克风采集传回到B段,从而干扰正常的语音通信。 AEC目前已经形成了以自适应滤波处理联合回声后处理为主的技术方案。其中,自适应滤波器用来模拟和追踪真实的“回声路径”,并由收敛出的“回声路径”(实际为滤波器系数)估算出回声信号,再从近端纯净语音和回声的混合信号中减去估计的回…

2020年12月12日 1条评论 2264点热度 1人点赞 davidcheung 阅读全文
语音处理学习笔记

《实时语音处理实践指南》学习笔记:第三章

第三章 语音端点检测(VAD) WebRTC中集成了基于RNN模型的VAD检测算法,该方法也作为WebRTC新一代AGC算法的一个子模块而存在。 第一节 特征选取 一个好的VAD特征应该具备以下特性: 区分能力:含噪语音和仅含噪声音频的分离度应该尽可能的大。理论上的最好效果是让语音特征和噪声特征没有交集(实际很难,因为会有相似) 噪声鲁棒性:背景噪声会造成语音失真,这会影响提取的特征区分能力。 基于能量的特征:基于能量的方法可以将宽带语音分成各个子带,求各个子带的能量。这是因为语音在2kHz以下频带含有大量的能量,…

2020年10月17日 1条评论 3130点热度 0人点赞 davidcheung 阅读全文
语音处理学习笔记

《实时语音处理实践指南》学习笔记:第一章

本部分知识基于葛世超等人著《实时语音处理实践指南》一书进行整理。第一章 信号处理 第一节 语音基础知识 语音信号是实信号。 语音信号是时变的,每秒约产生10个音节,所以在10~30ms内可以看成是准静态的。 为什么要加窗处理? 答:对连续的语音分帧做STFT处理,等价于截取一段时间信号,对其进行周期延拓,从而变成无限长序列,然后对该无限长序列做FFT变换,但是这一截断并不符合傅里叶变换的定义,因此会导致频谱泄露和混叠。泄露会导致幅度较小的频点淹没在幅度较大的频点泄漏分量重,而混叠会在分段拼接处引入虚假的峰值,进而不…

2020年9月30日 1条评论 2615点热度 1人点赞 davidcheung 阅读全文
语音处理学习笔记

Levinson-Durbin(莱文森-杜宾)算法的实现

在实现维纳滤波器和预测器的时候,需要计算数据的自相关矩阵的逆。但是当数据量比较大的时候,计算矩阵的逆花费的代价比较大,所以需要使用Levinson-Durbin算法来实现系数的求解。 一、数据模型 k阶前项维纳预测器: 对上述模型进行一下调整,可以得到 所以a(0)=1, 。 注意:在Levinson-Durbin算法中,求解的是a(i),不是w(i)。 二、Levinson-Durbin迭代算法的实现步骤 以下是迭代算法的步骤,其中m是预测器的阶数。 初始值: 其中r(i)是数据的自相关矩阵。

2020年5月13日 0条评论 2124点热度 0人点赞 davidcheung 阅读全文
语音处理学习笔记

在Windows10+VS2019环境下编译Opus

Opus库生成 将Opus库clone之后,找到目录中的win32文件夹,里面有一个vs2015目录,点击这里面的opus.sln,就会打开Opus的VS工程,如果你的VS版本是2017及以上,会提示你升级版本,这个时候确认就好了(如下图所示,由于我在编写该文档的时候已经生成了opus库和libopusenc库,所以这里以opusfile库为例)。 在打开工程之后,点击“生成->生成解决方案”。待生成完成以后,会发现在当前目录下有了“Debug”目录,里面有下图的5个文件夹及关键的opus.lib文件,这就代表生成…

2020年5月7日 1条评论 1957点热度 0人点赞 davidcheung 阅读全文
语音处理学习笔记

Opus编解码器简介

总览 Opus是一款完全开放的功能广泛的音频编解码器。Opus在互联网上的交互式语音和音乐传输方面无可匹敌,但也适用于存储和流媒体应用程序。它由Internet工程任务组(IETF)标准化为RFC 6716 ,该标准融合了Skype的SILK编解码器和Xiph.Org的CELT编解码器中的技术。 技术 Opus可以处理各种音频应用程序,包括IP语音,视频会议,游戏内聊天,甚至是远程直播音乐表演。它可以从低比特率的窄带语音扩展到高质量的立体声音乐。支持的特性有: 从6kb/s到510kb/s的比特率; 从8kHz(窄…

2020年4月8日 1条评论 1853点热度 0人点赞 davidcheung 阅读全文
12345…19
搜索
欢迎关注我的个人公众号
最新 热点 随机
最新 热点 随机
DEEPFILTERNET:一种基于深度滤波的全频带音频低复杂度语音增强框架 奥地利匈牙利九日游旅程 论文阅读之Study of the General Kalman Filter for Echo Cancellation 小奥看房之鸿荣源珈誉府 杭州往返旅途及西溪喜来登和万怡的体验报告 2022年的第一篇碎碎念
奥地利匈牙利九日游旅程DEEPFILTERNET:一种基于深度滤波的全频带音频低复杂度语音增强框架
《鸟哥的Linux私房菜》(基础篇)笔记整理(第4章) 继续在微机课写日志 2010 S.V Beijing Travel 14:Beijing Olympic Green&Apple Store Deep Learning in Neural Networks: An Overview(自己翻译版) JSP环境配置图文详解 在本地和GitPage搭建Hexo博客系统
标签聚合
Java 高中 鸟哥的linux私房菜 算法 linux 学习 python学习 leetcode 生活 Python
最近评论
davidcheung 发布于 5 个月前(02月09日) The problem has been fixed. May I ask if you can s...
tk88 发布于 5 个月前(02月07日) Hmm is anyone else having problems with the pictur...
cuicui 发布于 8 个月前(10月20日) :wink:
niming 发布于 10 个月前(09月19日) 同级校友,能刷到太巧了
davidcheung 发布于 2 年前(08月16日) 我得找一下我之前整理的word文档看一下,如果找到了我就更新一下这篇文章。
Nolan 发布于 2 年前(07月25日) 您的笔记非常有帮助。贴图不显示了,可以更新一下吗?
davidcheung 发布于 3 年前(06月19日) 到没有看webrtc的代码。现在主要在看我们公司的代码了。。。只是偶尔看一看webrtc的东西。。。
aobai 发布于 3 年前(03月13日) gain_change_hangover_ 应该是每三个block 只能够调整一次,这样保证每帧...
匿名 发布于 5 年前(12月30日) 烫
小奥 发布于 5 年前(12月12日) webRTC里面的NS本身我记得就是在C++里面呀

COPYRIGHT © 2025 小奥的学习笔记. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

陕ICP备19003234号-1

鲁公网安备37120202000100号