Android学习之语音识别、语音合成

2023-10-15 05:29:42

SDK

SDK (Software Development Kit) 软件开发工具包是软件开发工程师用于为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件的开发工具的集合。Android SDK就 Android专属的软件开发工具包。

录音权限申请

	//申请录音权限private static final int GET_RECODE_AUDIO = 1;private static String[] PERMISSION_AUDIO = {Manifest.permission.RECORD_AUDIO};/** 申请录音权限*/public static void verifyAudioPermissions(Activity activity) {int permission = ActivityCompat.checkSelfPermission(activity,Manifest.permission.RECORD_AUDIO);if (permission != PackageManager.PERMISSION_GRANTED) {ActivityCompat.requestPermissions(activity, PERMISSION_AUDIO,GET_RECODE_AUDIO);}}protected void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanceState);setContentView(R.layout.activity_main);verifyAudioPermissions(this);//申请录音权限}

讯飞SDK

讯飞开放平台

注册账号，下载demo，并将相应jar包和资源导入自己项目
添加权限

<uses-permission android:name="android.permission.INTERNET" /> <!-- 连接网络权限 -->
<uses-permission android:name="android.permission.RECORD_AUDIO" /> <!-- 获取手机录音机使用权限 -->
<uses-permission android:name="android.permission.ACCESS_NETWORK_STATE" /> <!-- 读取网络信息状态 -->
<uses-permission android:name="android.permission.ACCESS_WIFI_STATE" /> <!-- 获取当前wifi状态 -->
<uses-permission android:name="android.permission.CHANGE_NETWORK_STATE" /> <!-- 允许程序改变网络连接状态 -->
<uses-permission android:name="android.permission.READ_PHONE_STATE" /> <!-- 读取手机信息权限 -->
<uses-permission android:name="android.permission.CHANGE_WIFI_STATE" /> <!-- 改变wifi权限 -->
<uses-permission android:name="android.permission.VIBRATE" /><!-- 振动权限 -->

语音配置对象初始化

SpeechUtility.createUtility(this, SpeechConstant.APPID + "=申请的APPID");

语音识别

//存放听写分析结果文本
private HashMap<String, String> hashMapTexts = new LinkedHashMap<>();
private void listen() {// 1.创建SpeechRecognizer对象，第2个参数：本地听写时传InitListener//听写对象SpeechRecognizer hearer = SpeechRecognizer.createRecognizer(getActivity(), null);// 交互动画//讯飞提示框RecognizerDialog dialog = new RecognizerDialog(getActivity(), null);// 2.设置听写参数，详见《科大讯飞MSC API手册(Android)》SpeechConstant类//设置语法ID和 SUBJECT 为空，以免因之前有语法调用而设置了此参数；或直接清空所有参数，具体可参考 DEMO 的示例。hearer.setParameter( SpeechConstant.CLOUD_GRAMMAR, null );hearer.setParameter( SpeechConstant.SUBJECT, null );// domain:域名hearer.setParameter(SpeechConstant.DOMAIN, "iat");//设置语音输入语言，zh_cn为简体中文 mandarin:普通话hearer.setParameter(SpeechConstant.LANGUAGE, "zh_cn");hearer.setParameter(SpeechConstant.ACCENT, "mandarin");// 设置语音前端点:静音超时时间，单位ms，即用户多长时间不说话则当做超时处理//取值范围{1000～10000}hearer.setParameter(SpeechConstant.VAD_BOS, "4000");//设置语音后端点:后端点静音检测时间，单位ms，即用户停止说话多长时间内即认为不再输入，//自动停止录音，范围{0~10000}hearer.setParameter(SpeechConstant.VAD_EOS, "2000");//设置是否显示标点0表示不显示，1表示显示hearer.setParameter(SpeechConstant.ASR_PTT,"1");//3.开始听写dialog.setListener(new RecognizerDialogListener() {  //设置对话框@Overridepublic void onResult(RecognizerResult results, boolean isLast) {// TODO 自动生成的方法存根Log.d("Result", results.getResultString());//(1) 解析 json 数据<< 一个一个分析文本 >>StringBuffer strBuffer = new StringBuffer();try {JSONTokener tokener = new JSONTokener(results.getResultString());Log.i("TAG", "Test"+results.getResultString());Log.i("TAG", "Test"+results.toString());JSONObject joResult = new JSONObject(tokener);JSONArray words = joResult.getJSONArray("ws");for (int i = 0; i < words.length(); i++) {// 转写结果词，默认使用第一个结果JSONArray items = words.getJSONObject(i).getJSONArray("cw");JSONObject obj = items.getJSONObject(0);strBuffer.append(obj.getString("w"));}} catch (Exception e) {e.printStackTrace();}// (2)读取json结果中的sn字段String sn = null;try {JSONObject resultJson = new JSONObject(results.getResultString());sn = resultJson.optString("sn");} catch (JSONException e) {e.printStackTrace();}//(3) 解析语音文本<< 将文本叠加成语音分析结果  >>hashMapTexts.put(sn, strBuffer.toString());StringBuffer resultBuffer = new StringBuffer();  //最后结果for (String key : hashMapTexts.keySet()) {resultBuffer.append(hashMapTexts.get(key));}//显示识别得到的文字et_value.setText(resultBuffer.toString());et_value.requestFocus();//获取焦点et_value.setSelection(resultBuffer.toString().length());//将光标定位到文字最后，以便修改}@Overridepublic void onError(SpeechError error) {// TODO 自动生成的方法存根error.getPlainDescription(true);}});dialog.show();  //显示对话框
}

语音合成（封装）

public class SpeechCompound {// Log标签private static final String TAG = "SpeechCompound";// 上下文private Context mContext;// 语音合成对象private static SpeechSynthesizer mTts;/*** 发音人(替换自己购买的或免费的)*/public final static String[] COLOUD_VOICERS_VALUE = {"aisjiuxu", "xiaoyu", "catherine", "henry", "vimary", "vixy", "xiaoqi", "vixf", "xiaomei","xiaolin", "xiaorong", "xiaoqian", "xiaokun", "xiaoqiang", "vixying", "xiaoxin", "nannan", "vils",};/*** 构造方法** @param context*/public SpeechCompound(Context context) {Log.d("tag54", "初始化失败,错ss 误码：" );// 上下文mContext = context;// 初始化合成对象mTts = SpeechSynthesizer.createSynthesizer(mContext, new InitListener() {@Overridepublic void onInit(int code) {if (code != ErrorCode.SUCCESS) {Log.d("tag54", "初始化失败,错误码：" + code);}Log.d("tag54", "初始化失败,q错误码：" + code);}});}/*** 开始合成** @param text*/public void speaking(String text) {// 非空判断if (TextUtils.isEmpty(text)) {return;}int code = mTts.startSpeaking(text, mTtsListener);Log.d("tag54","-----"+code+"++++++++++");if (code != ErrorCode.SUCCESS) {if (code == ErrorCode.ERROR_COMPONENT_NOT_INSTALLED) {Toast.makeText(mContext, "没有安装语音+ code = " + code, Toast.LENGTH_SHORT).show();} else {Toast.makeText(mContext, "语音合成失败,错误码: " + code, Toast.LENGTH_SHORT).show();}}}/** 停止语音播报*/public static void stopSpeaking() {// 对象非空并且正在说话if (null != mTts && mTts.isSpeaking()) {// 停止说话mTts.stopSpeaking();}}/*** 判断当前有没有说话** @return*/public static boolean isSpeaking() {if (null != mTts) {return mTts.isSpeaking();} else {return false;}}/*** 合成回调监听。*/private SynthesizerListener mTtsListener = new SynthesizerListener() {@Overridepublic void onSpeakBegin() {Log.i(TAG, "开始播放");}@Overridepublic void onSpeakPaused() {Log.i(TAG, "暂停播放");}@Overridepublic void onSpeakResumed() {Log.i(TAG, "继续播放");}@Overridepublic void onBufferProgress(int percent, int beginPos, int endPos, String info) {// TODO 缓冲的进度Log.i(TAG, "缓冲 : " + percent);}@Overridepublic void onSpeakProgress(int percent, int beginPos, int endPos) {// TODO 说话的进度Log.i(TAG, "合成 : " + percent);}@Overridepublic void onCompleted(SpeechError error) {if (error == null) {Log.i(TAG, "播放完成");} else if (error != null) {Log.i(TAG, error.getPlainDescription(true));}}@Overridepublic void onEvent(int eventType, int arg1, int arg2, Bundle obj) {}};/*** 参数设置** @return*/private void setParam() {// 清空参数mTts.setParameter(SpeechConstant.PARAMS, null);// 引擎类型 网络mTts.setParameter(SpeechConstant.ENGINE_TYPE, SpeechConstant.TYPE_CLOUD);// 设置发音人mTts.setParameter(SpeechConstant.VOICE_NAME, COLOUD_VOICERS_VALUE[0]);// 设置语速mTts.setParameter(SpeechConstant.SPEED, "50");// 设置音调mTts.setParameter(SpeechConstant.PITCH, "50");// 设置音量mTts.setParameter(SpeechConstant.VOLUME, "100");// 设置播放器音频流类型mTts.setParameter(SpeechConstant.STREAM_TYPE, "3");// mTts.setParameter(SpeechConstant.TTS_AUDIO_PATH, Environment.getExternalStorageDirectory() + "/KRobot/wavaudio.pcm");// 背景音乐  1有 0 无// mTts.setParameter("bgs", "1");}}

语音合成（调用）

public class MainActivity extends AppCompatActivity {private EditText edt;private Button btn;private SpeechCompound speechCompound;@Overrideprotected void onCreate(Bundle savedInstanceState) {super.onCreate(savedInstanceState);setContentView(R.layout.activity_main);edt= findViewById(R.id.et_text);btn= findViewById(R.id.btn);speechCompound=new SpeechCompound(this);btn.setOnClickListener(new View.OnClickListener() {@Overridepublic void onClick(View v) {speechCompound.speaking(edt.getText().toString().trim());}});}
}

问题

讯飞语音合成，中文还算可以，但英文句子效果很差，纯英文的发音人需要付费，故考虑百度语音合成，百度语音合成虽然免费，但语音识别是收费的，最后考虑Android调用自带TTS文本转语音引擎实现离线语音合成，缺点是音质较差等。
百度AI平台

Android自带TTS（封装）

TextToSpeech

/*
android 自带语音合成
*/
public class SpeechUtils {private Context mcontext;private static final String TAG = "SpeechUtils";private static TextToSpeech textToSpeech; // TTS对象public SpeechUtils(Context context) {mcontext = context;textToSpeech = new TextToSpeech(mcontext, new TextToSpeech.OnInitListener() {@Overridepublic void onInit(int i) {if (i == TextToSpeech.SUCCESS) {//textToSpeech.setLanguage(Locale.US);//textToSpeech.setPitch(1.0f);// 设置音调，值越大声音越尖（女生），值越小则变成男声,1.0是常规//textToSpeech.setSpeechRate(0.8f);textToSpeech.speak("", TextToSpeech.QUEUE_FLUSH, null);}}});}//语音合成public void speakText(String text) {if (textToSpeech != null) {textToSpeech.speak(text,TextToSpeech.QUEUE_FLUSH, null);}}//停止但不关闭public void stopSpeaking() {// 对象非空并且正在说话if (null != textToSpeech && textToSpeech.isSpeaking()) {// 停止说话textToSpeech.stop();}}//停止并关闭public void shutdownSpeaking() {// 对象非空并且正在说话if (null != textToSpeech && textToSpeech.isSpeaking()) {// 停止说话textToSpeech.stop();textToSpeech.shutdown(); // 关闭，释放资源}}}

调用与上述类似。

另外，语言、音高、语速可以在代码中设置，也可以在手机中设置>辅助功能>无障碍>文字转语音（TTS）输出设置

注意：部分手机自带讯飞的语音合成（如荣耀），好像就只能调用讯飞的。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 图形解读系列 | 给你5个示例，你能看懂常用热图使用吗？
下一篇 > CAD转PDF，没有电脑怎么办？

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Android学习之语音识别、语音合成

SDK

录音权限申请

讯飞SDK

问题

Android自带TTS（封装）

相关文章