加入星计划,您可以享受以下权益:
产业图谱
2.收款机播报需求
在商场、超市等零售场所,收款机播报收银的需求日益凸显。通过语音播报,顾客可以无需查看屏幕即可了解交易金额、找零等信息,大大提高了购物体验和效率。同时,对于视力不佳或不便查看屏幕的顾客来说,语音播报更是提供了极大的便利。
TTS技术在收款机播报收银中的应用具有以下优势:首先,实时性强,能够实时将交易信息转化为语音输出;其次,准确度高,能够确保播报内容的准确性;再次,灵活性好,可以根据实际需求定制播报内容;最后,用户体验佳,通过语音播报提高了顾客购物的便捷性和舒适性。
4.播报内容定制
在TTS应用中,播报内容的定制是关键一环。收款机可以根据实际需求和场景设置不同的播报内容,包括交易金额、支付方式、找零情况、优惠信息等。同时,还可以根据顾客的偏好和需求进行个性化定制,提高播报内容的针对性和实用性。
5.用户体验提升
TTS(Text To Speech,从文本到语音)技术作为人机对话的一部分,近年来随着人工智能的发展得到了显著的进步。TTS技术的应用范围广泛,包括电子邮件的阅读、IVR系统的语音提示等,并在各个行业中发挥着重要作用。关于TTS技术的发展前景,有以下几个方面的趋势:
个性化定制:TTS系统有望通过学习用户的语音、音调、口音等特征,生成更符合用户需求的语音。这将使得语音合成技术更加贴近用户的个性化需求,从而提高用户体验。
多语言支持:随着跨语言翻译和多语言交流的需求不断增加,TTS系统将需要支持更多的语言和口音。这将推动TTS技术在多语言场景下的应用和发展。
多样化的语音风格和情感表达:TTS系统将进一步提供多样化的语音风格和情感表达能力。用户可以根据个人喜好和需求选择不同的语音风格,如年龄、性别、口音等。
2.1系统主要功能
Ø 音频输出方式,样品默认DAC输出;
Ø 支持语音高品质音频格式,(8kbps~320kbps)声音优美,.MP3、.WAV格式;
Ø 支持指令随机播放,无缝循环播放功能等;
Ø 最大可以支持128Mbit的Flash;
Ø 音量可调,音量等级31级;
Ø 大功率IO驱动能力,最高可直接驱动32mA;
Ø 支持任意中文文本、英文字母的合成,并且支持中文与英文字母混读,英文字母暂不支持使用标记实现变速变调;
芯片支持任意中文、英文字母的合成,可以采用GB 2312编码方式。每次合成的文本量最多可达2K字节。
Ø 支持多种控制命令
Ø 支持多种方式查询芯片的工作状态
包括:查询状态管脚电平、通过读芯片自动返回的工作状态字、发送查询命令获得芯片工作状态的回传数据。
Ø 单芯片使用(使用内置容量)时内置语音需出厂前写入。
2.2系统结构框图
2.3主要芯片介绍
程序及模块选型简介
2.5 WT3000T M01模块
管脚描述
指令发码格式
指令返回码格式
流水号:1字节,每次一帧数据自动加1,避免接收重复的数据,相同流水号的数据为重复数据应做丢弃;
应答标志:1字节,固定填00;
N个命令信息:由N个命令信息组成,1个命令信息内容为2字节命令+1字节数据长度+N字节数据,单个命令信息最大支持255个字节数据,但支持同时传递多个相同的命令携带不同信息(返回码的此处信息与发码的略微有区别,详情见《WT3000Tx语音合成指令表》介绍);
3.1 GB 2312编码简介
3.2 UTF8编码简介
UTF-8是一种变长字节编码方式。对于某一个字符的UTF-8编码,如果只有一个字节则其最高二进制位为0;如果是多字节,其第一个字节从最高位开始,连续的二进制位值为的个数决定了其编码的位数,其余各字节均以10开头。
UTF-8最多可用到6个字节。
1字节 0xxxxxxx
2字节 110xxxxx 10xxxxxx
3字节 1110xxxx 10xxxxxx 10xxxxxx
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
双字节UTF8字符中的“对应Unicode的部分00区和全部03区的符号”
4.1 简单调用方式
简单调用是指用户不用关心芯片当前的工作状态,只需要发送文本到芯片合成为语音输出。
注意:如前一帧文本还没有合成完,就再次发送文本到芯片会中断前次合成,而执行新的合成。
4.2 标准调用方式
若上位机需要确保上次文本被完整合成之后,再发送合成命令帧合成下一段文本,则需要通过回传确定芯片的工作状态。具体方法举例如下:应用中需要合成的文本为5k字节,超过了WT3000T8芯片一个命令帧所能容纳的最大文本长度(文本最多支持2016个字节),这时需要分多次给WT3000T8芯片发送文本信息。程序过程如下:
1、上位机先给WT3000T8芯片发送一个文本合成命令帧,携带不超过2016个字节的文本;
2、上位机等待WT3000T8芯片自动返回的回传信息,直到收到回传数据,说明前面的
文本已合成完毕;或使用查询芯片的状态引脚、发送查询命令的方法,确认上一帧文本合成完毕。
3、上位机向芯片再次发送一个文本合成命令帧,发送出剩下的文本,重复123流程直至所有数据发完。
4.3查询芯片工作状态的方法
通过硬件和软件两种方式查询WT3000T8芯片的工作状态。
硬件方式:通过查询输出引脚BUSY的电平,来判断芯片的工作状态。当BUSY处于低电平时,表明芯片正在合成文本;当BUSY处于高电平时,表明芯片处于空闲状态。
软件方式:通过发送状态查询命令帧来查询芯片的工作状态。当收到上位机发送的状态查询命令帧后,芯片会自动向上位机发送当前芯片状态的回传。上位机根据芯片状态的回传数据来判断当前芯片是处于空闲状态还是文本合成状态。
4.4固定语音功能
WT3000T-T001预留了30秒存放固定语音,对批量采购的客户可提供提示音添加、定制的服务。
注意:如有添加提示音的需求,需要提交与商务人员沟通,提供音频和填写相应的资料。
固定语音的特性:
固定语音支持MP3格式,最大支持WAV格式,如果追求更加好的音质和音色所带来的更好的体验,固定语音可以满足客户的这些高需求。相比于WT3000T-T001系列,WT3000T-T002系列芯片可以提供更大的flash空间来存放这些固定语音。
WT3000T-T002系列可提供最高32MBit的语音空间,最多可以放置近100首MP3固定语音。
WT3000T-T002提供以下在ETC使用场景的高品质的内置语音示例:
4.5 测试软件
WT3000T-T001提供了一款好用的方便的上位机软件来进行快速测试和演示。
上位机演示软件操作界面
1. 用串口调试工具连接好WT3000T-T001模块,插到电脑上,双击打开演示软件。
上位机演示软件图标
2. 设置好波特率9600,然后点击打开串口使模块和上位机连接成功。
3. 主播选择:可以选择不同的主播音色,支持男声女声。
4. 语速:可以调节合成语音的语速速度。
5. 语调:可以使主播的音色变得清澈透亮或者雄浑厚重。
6. 音量:调节合成的音量大小。
只需要在文本框中以打字的方式输入想要播出的文本内容,点击生成,再点击发送就可以听到模块播出刚刚输入的文本内容了。
另外,在发送数据和接收数据一栏里还能直接复制生成的串口16进制数据到程序代码中直接使用,快速验证问题。
main函数
5.2 串口接收数据处理
struct keyid_format *cmd = (struct keyid_format *)(&packet[keyid_address]);//packet[6]刚好u16对齐,不然会内存对齐异常导致出问题
printf("while end=%d,keyid_address=%d,size=%d",cmd->length,keyid_address,size);