
今天真想想这种设备怎么做,研究了一下,发现openai真的断了很多公司的财路。比如我最开始的方案是,用raspberry pi 连aws的 speech recognition,然后再把内容传给chatgpt,然后再用tts转成语音。但是担心aws的语音识别效果不好?然后就发现,openai自己还有一个东西叫whisper。做语音识别刚刚的。1/n
??????copy???????tts?????????pi??????????????????????????cyber ???cyber???cyber?????????????????cyber?????????????????????????????????????????? https://t.co/xSS22PXiAx
— ??? (@mtrainier2020) March 6, 2023
那这样一来方案就变得更加简单了。设备端直接call whisper api,得到结果,然后在再调用gpt,然后再得到结果,然后服务器端生成语音。然后再直接传回来就可以了。那么设备端,降低成本,完全可以不用pi。设备端只要能被唤醒,接收语音,服务调用,接收,驱动speaker,就够了。那么esp32 就够了。2/n
那么整个BOM下来,加上一节18650,麦克风,speaker,那么基本上设备成本可以控制在20美元以内。那就是说这种东西完全可以做到玩具中去。。。。这个有搞头的。n/n
Follow us on Twitter
to be informed of the latest developments and updates!
Follow @tivitikothreadYou can easily use to @tivitikothread bot for create more readable thread!