站搜网3月28日消息 腾讯今日宣布开源多项多媒体AI技术,包含图片转语音技术、看图识字:OCR识别技术以及多角色定制语音:语音合成技术。图片转语音技术针对图片转语音技术目前已经在QQ空间App上线,针对视障用户,当使用智能手机时,能通过自带的读屏功能听到文字,可以识别图片的内容,并“说出”一句文字描述
站搜网3月28日消息 腾讯今日宣布开源多项多媒体AI技术,包含图片转语音技术、看图识字:OCR识别技术以及多角色定制语音:语音合成技术。
图片转语音技术
针对图片转语音技术目前已经在QQ空间App上线,针对视障用户,当使用智能手机时,能通过自带的读屏功能听到文字,可以识别图片的内容,并“说出”一句文字描述。
▲如图所示,软件可直接读出“一个人站在雾气缭绕的山顶上”。
能听的图片:图片转语音技术
它可以识别图片上的文字,比如身份证、指示牌、一张PPT的照片等等,能让你对文本信息的获取更为便捷,不仅在日常生活中很实用,结合语音技术还能为许多障碍人群提供便利;
多角色定制语音:语音合成技术
它能通过机器学习训练,将文字以特定角色的声音诵读出来,让语音合成更加真实有情绪、获取信息更加容易,未来也许能用你的声音为奶奶念出一份说明书;
这些技术,都可以在微信小程序 “多媒体AI平台” 中找到。
声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!