效果演示如下


主要是我手机太老了不自带AI字幕功能,用的Google jules生成了一个利用deepgram做听写(主要是他家注册就给200刀credits,效果一般,还没有接翻译)的手机app

源码在 https://github.com/mzltest/andr ,readme是给AI的prompt不用管,要用的下载最新的actions产物就行,没设keystore每次都是随机签名,因此更新需要先卸载之前安装的app然后重装。

打开之后首先会让你填deepgram的key和deeplx的key(在connect.linux.do里),然后会要求授权悬浮窗口和录音(因为这个是共享系统音频的必要权限),之后会开始屏幕共享,同意之后就可以播放音频显示结果了

第一个和第二个按钮[-][+]是调节界面透明度

第三个按钮[^]/[v]是是否显示待定结果,默认是不显示,这个因为要根据句号重新分句因此延迟会高一点,打开之后可以看到实际的实时结果(横线下面)

第四个按钮[>][||]是自动滚动开启/关闭,如果之前的翻译没看完就滚动走了可以关闭自动滚动看之前的内容

空白区域可以拖动移动窗口

右下角三角可以拖动改变窗口大小。

目前已知的问题是有的句子有概率卡正在翻译没有翻译,有可能是deeplx那边的问题。

效果的话西方语言比东方语言好用,建议用在只有一个人说话的场景,不建议用在综艺。不支持中译中,deepgram nova-3 multi没有中文支持。