向善而生 的AI助盲 ,让AI多一点,障碍少一点******
有人说,盲人与世界之间,相差 的只 是一个黎明。在浪潮信息研发人员 的心中,失去视力 的盲人不会陷入永夜,科技 的进步正在力图给每一个人以光明未来 。
AI助盲在人工智能赛道上一直 是最热门 的话题之一。以前,让失明者重见光明依靠的是医学 的进步或“奇迹” 。而随着以“机器视觉+自然语言理解”为代表 的多模态智能技术 的爆发式突破 ,更多 的失明者正在借助AI提供 的感知 、理解与交互能力 ,以另一种方式重新“看见世界” 。
新契机:多模态算法或将造福数以亿计失明者
科学实验表明,在人类获取 的外界信息中,来自视觉 的占比高达70%~80% ,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑 是最直接有效的解决方案。
一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展 ,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平 的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表 的多模态算法的突破才是正确 的新方向和新契机。
多个模态的交互可以提升AI 的感知 、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能 。浪潮信息研发人员介绍说 ,多模态算法在AI助盲领域的应用一旦成熟 ,将能够造福数以亿计的失明者 。据世卫组织统计 ,全球至少22亿人视力受损或失明,而我国 是世界上盲人最多的国家 ,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。
大挑战:如何看到盲人“眼中” 的千人千面
AI助盲看似简单 ,但多模态算法依然面临重大挑战 。
多模态智能算法 ,营造 的是沉浸式人机交互体验。在该领域 ,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一 ,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄 的图像数据和相匹配 的文本问题,形成了最真实的模型训练数据集。
但 是在现有技术条件下,盲人视觉问答任务 的精度提升面临巨大挑战 :一方面 是盲人上传 的问题类型很复杂 ,比如说分辨冰箱里的肉类、咨询药品 的服用说明、挑选独特颜色的衬衣 、介绍书籍内容等等 。
另一方面 ,由于盲人 的特殊性,很难提取面前物体 的有效特征 。比如盲人在拍照时 ,经常会产生虚焦 的情况 ,可能上传的照片 是模糊 的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。
为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz” ,并发起全球多模态视觉问答挑战赛。挑战赛 是给定一张盲人拍摄 的图片和问题,然后要求给出相应的答案,解决盲人 的求助 。
另外 ,盲人 的视觉问答还会遭遇到噪声干扰的衍生问题 。比如说 ,盲人逛超市 ,由于商品外观触感相似,很容易犯错 ,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等 。这种噪声干扰往往会导致现有AI模型失效 ,没法给出有效信息 。
最后,针对不同盲人患者 的个性化交互服务以及算法自有 的反馈闭环机制,同样也 是现阶段 的研发难点 。
多解法 :浪潮信息AI助盲靶向消灭痛点
AI助盲哪怕形式百变 ,无一例外都是消灭痛点 ,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩 的世界 。
在VizWiz官网上公布 的2万份求助中,盲人最多的提问就是想知道他们面前 的是什么东西 ,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名 是什么 ?”为此研发团队在双流多模态锚点对齐模型 的基础上 ,提出了自监督旋转多模态模型 ,通过自动修正图像角度及字符语义增强 ,结合光学字符检测识别技术解决“是什么” 的问题 。
盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合 的算法,并提出多阶段交叉训练策略 ,具备更充分 的常识能力 ,低质量图像 、残缺 的信息,依然能够精准的解答用户的求助 。
目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。
真实场景中 的盲人在口述时往往会有口误 、歧义、修辞等噪声。为此 ,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误 、歧义 、主观偏差等多种噪声,还提供噪声纠错 、含噪证据等可解释标签。同时 ,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也 是该领域唯一CCF推荐A类国际会议 。
在智能交互研究方面上 ,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA ,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目 的底层技术未来可广泛应用于AI医疗诊断 、故事续写 、剧情推理 、危情告警、智能政务等多模态交互推理场景 。
眼球虽然对温度并不敏感,但浪潮信息 的研发团队,却在努力让盲人能“看”到科技 的温度,也希望吸引更多人一起推动人工智能技术在AI助盲 、AI反诈 、AI诊疗 、AI灾情预警等更多场景中的落地。有AI无碍 ,跨越山海 。科技的伟大之处不仅仅在于改变世界,更重要 的是如何造福人类 ,让更多 的不可能变成可能。当科技成为人的延伸 ,当AI充满人性光辉 ,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔 的善意,见证着更加光明宏大的远方 。
重庆两处新增国家湿地公园正式挂牌 现有湿地420万亩******
中新网重庆2月2日电(梁钦卿)2月2日 是第27个“世界湿地日” 。当天,重庆市林业局在合川区举行2023年“世界湿地日”宣传活动 ,合川三江国家湿地公园 、綦江通惠河国家湿地公园正式挂牌。
湿地被称为“地球之肾” ,具有涵养水源 、净化水质、蓄洪防旱 、调节气候和维护生物多样性等重要功能 。重庆地处长江上游和三峡库区腹心 ,河流 、库塘湿地密集 , 是长江上游地区湿地的重要组成部分。
根据第三次国土调查数据,重庆市现有各类湿地420万亩,已建立10个湿地自然保护区 、22个国家湿地公园、4个市级湿地公园 、3处市级重要湿地 。梁平区获颁第二批国际湿地城市认证证书 ,为西南地区唯一获此殊荣 的城市。
近年来 ,重庆市以重要湿地 、国家湿地公园为重点大力实施湿地修复 ,通过实施植被恢复 、鸟类栖息地恢复 、退化湿地恢复等工程 ,增强了湿地生态功能 ,生物多样性不断丰富。重庆合川三江国家湿地公园 、綦江通惠河国家湿地公园试点建设顺利通过国家林业和草原局验收。
“被世界自然保护联盟列为近危物种的黄嘴潜鸟,2022年1月首次出现在重庆长江江津支坪段 的江面 ,足以证明重庆市湿地保护的成效 。”重庆市湿地保护管理中心主任曾丽介绍,黄嘴潜鸟主要繁殖在环北极苔原 的淡水湿地,越冬于太平洋的亚热带北纬50°海域 ,数量稀少 。在中国,黄嘴潜鸟为罕见的水鸟,极少越冬于淡水水域,在重庆为罕见冬候鸟。
在保护优先的前提下 ,重庆市还合理利用小微湿地,探索出小微湿地与环境治理、有机产业、民宿康养 、生态旅游等深度融合模式发展湿地生态惠民产业 ,促进了生产、生活 、生态深度融合 。
“以合川区为例 ,我们累计投入12.7亿元 ,完成了公园游步道 、亲水栈道、观景平台等生态旅游基础设施和户外宣教体系建设 。”合川区林业局局长李小刚介绍,当地还开展了湿地景观再造 、鸟类栖息地营造等湿地恢复和景观优化工作,以及一批湿地保护与恢复项目 ,有效保护了湿地环境 。
当天 的活动中 ,官方通过线下展板展示、发放宣传资料及文创产品、线上开展互动小游戏、扫码答题抢红包等形式 ,向民众普及湿地保护法相关知识,介绍湿地 的多种效益和功能。
图为活动中,市民通过线下展板了解湿地保护法相关知识。 梁钦卿 摄曾丽表示 ,下一步,重庆将加快编制出台《重庆市湿地保护规划(2023-2030年)》,建立健全湿地监督管理制度,强化湿地生态教育 。(完)
(文图 :赵筱尘 巫邓炎) [责编 :天天中] 阅读剩余全文() |