• <strike id="aymay"></strike>
    <strike id="aymay"></strike>
    <ul id="aymay"><dfn id="aymay"></dfn></ul>
    <ul id="aymay"><sup id="aymay"></sup></ul>
  • <del id="aymay"></del>

    向善而生的AI助盲,讓AI多一點,障礙少一點

    2023-01-07 09:59 來源:美通社 作者:電源網

    北京2023年1月6日 /美通社/ -- 有人說,盲人與世界之間,相差的只是一個黎明。在浪潮信息研發人員的心中,失去視力的盲人不會陷入永夜,科技的進步正在力圖給每一個人以光明未來。

    AI助盲在人工智能賽道上一直是最熱門的話題之一。以前,讓失明者重見光明依靠的是醫學的進步或"奇跡"。而隨著以"機器視覺+自然語言理解"為代表的多模態智能技術的爆發式突破,更多的失明者正在借助AI提供的感知、理解與交互能力,以另一種方式重新"看見世界"。

    下載 (1)

    新契機:多模態算法或將造福數以億計失明者

    科學實驗表明,在人類獲取的外界信息中,來自視覺的占比高達70%~80%,因此基于AI構建機器視覺系統,幫助視障患者擁有對外界環境的視覺感知與視覺理解能力,無疑是最直接有效的解決方案。

    一個優秀的AI助盲技術,需要通過智能傳感、智能用戶意圖推理和智能信息呈現的系統化發展,才能構建信息無障礙的交互界面。僅僅依靠"一枝獨秀"超越人類水平的單模態人工智能比如計算機視覺技術還遠遠不夠,以"機器視覺+自然語言理解"為代表的多模態算法的突破才是正確的新方向和新契機。

    多個模態的交互可以提升AI的感知、理解與交互能力,也為AI理解并幫助殘障人士帶來了更多可能。浪潮信息研發人員介紹說,多模態算法在AI助盲領域的應用一旦成熟,將能夠造福數以億計的失明者。據世衛組織統計,全球至少22億人視力受損或失明,而我國是世界上盲人最多的國家,占世界盲人總數的18%-20%,每年新增的盲人數量甚至高達45萬。

    大挑戰:如何看到盲人"眼中"的千人千面

    AI助盲看似簡單,但多模態算法依然面臨重大挑戰。

    多模態智能算法,營造的是沉浸式人機交互體驗。在該領域,盲人視覺問答任務成為學術界研究AI助盲的起點和核心研究方向之一,這項研究已經吸引了全球數以萬計的視障患者參與,這些患者們上傳自己拍攝的圖像數據和相匹配的文本問題,形成了最真實的模型訓練數據集。

    但是在現有技術條件下,盲人視覺問答任務的精度提升面臨巨大挑戰:一方面是盲人上傳的問題類型很復雜,比如說分辨冰箱里的肉類、咨詢藥品的服用說明、挑選獨特顏色的襯衣、介紹書籍內容等等。

    另一方面,由于盲人的特殊性,很難提取面前物體的有效特征。比如盲人在拍照時,經常會產生虛焦的情況,可能上傳的照片是模糊的或者沒有拍全,或者沒拍到關鍵信息,這就給AI推理增加了難度。

    為推動相關研究,來自卡內基梅隆大學等機構的學者們共同構建了一個盲人視覺數據庫"VizWiz",并發起全球多模態視覺問答挑戰賽。挑戰賽是給定一張盲人拍攝的圖片和問題,然后要求給出相應的答案,解決盲人的求助。

    另外,盲人的視覺問答還會遭遇到噪聲干擾的衍生問題。比如說,盲人逛超市,由于商品外觀觸感相似,很容易犯錯,他可能會拿起一瓶醋卻詢問醬油的成分表,拿起酸奶卻詢問牛奶的保質期等等。這種噪聲干擾往往會導致現有AI模型失效,沒法給出有效信息。

    最后,針對不同盲人患者的個性化交互服務以及算法自有的反饋閉環機制,同樣也是現階段的研發難點。

    多解法:浪潮信息AI助盲靶向消滅痛點

    AI助盲哪怕形式百變,無一例外都是消滅痛點,逐光而行。浪潮信息多模態算法研發團隊正在推動多個領域的AI助盲研究,只為幫助盲人"看"到愈發精彩的世界。

    在VizWiz官網上公布的2萬份求助中,盲人最多的提問就是想知道他們面前的是什么東西,很多情況下這些物品沒法靠觸覺或嗅覺來做出判斷,例如 "這本書書名是什么?"為此研發團隊在雙流多模態錨點對齊模型的基礎上,提出了自監督旋轉多模態模型,通過自動修正圖像角度及字符語義增強,結合光學字符檢測識別技術解決"是什么"的問題。

    盲人所拍攝圖片模糊、有效信息少?研發團隊提出了答案驅動視覺定位與大模型圖文匹配結合的算法,并提出多階段交叉訓練策略,具備更充分的常識能力,低質量圖像、殘缺的信息,依然能夠精準的解答用戶的求助。

    目前浪潮信息研發團隊在盲人視覺問答任務VizWiz-VQA上算法精度已領先人類表現9.5個百分點,在AI助盲領域斬獲世界冠軍兩項、亞軍兩項。

    真實場景中的盲人在口述時往往會有口誤、歧義、修辭等噪聲。為此,研發團隊首次提出視覺定位文本去噪推理任務FREC,FREC提供3萬圖片和超過25萬的文本標注,囊括了口誤、歧義、主觀偏差等多種噪聲,還提供噪聲糾錯、含噪證據等可解釋標簽。同時,該團隊還構建了首個可解釋去噪視覺定位模型FCTR,噪聲文本描述條件下精度較傳統模型提升11個百分點。上述研究成果已發表于ACM Multimedia 2022會議,該會議為國際多媒體領域最頂級會議、也是該領域唯一CCF推薦A類國際會議。

    在智能交互研究方面上,浪潮信息研發團隊構建了可解釋智能體視覺交互問答任務AI-VQA,同時給出首個智能體交互行為理解算法模型ARE。該研究成果已發表于ACM Multimedia 2022會議。該研究項目的底層技術未來可廣泛應用于AI醫療診斷、故事續寫、劇情推理、危情告警、智能政務等多模態交互推理場景。

    眼球雖然對溫度并不敏感,但浪潮信息的研發團隊,卻在努力讓盲人能"看"到科技的溫度,也希望吸引更多人一起推動人工智能技術在AI助盲、AI反詐、AI診療、AI災情預警等更多場景中的落地。有AI無礙,跨越山海。科技的偉大之處不僅僅在于改變世界,更重要的是如何造福人類,讓更多的不可能變成可能。當科技成為人的延伸,當AI充滿人性光輝,我們終將在瞬息萬變的科技浪潮中感受到更加細膩溫柔的善意,見證著更加光明宏大的遠方。

    新契機:多模態算法或將造福數以億計失明者

    科學實驗表明,在人類獲取的外界信息中,來自視覺的占比高達70%~80%,因此基于AI構建機器視覺系統,幫助視障患者擁有對外界環境的視覺感知與視覺理解能力,無疑是最直接有效的解決方案。

    一個優秀的AI助盲技術,需要通過智能傳感、智能用戶意圖推理和智能信息呈現的系統化發展,才能構建信息無障礙的交互界面。僅僅依靠"一枝獨秀"超越人類水平的單模態人工智能比如計算機視覺技術還遠遠不夠,以"機器視覺+自然語言理解"為代表的多模態算法的突破才是正確的新方向和新契機。

    多個模態的交互可以提升AI的感知、理解與交互能力,也為AI理解并幫助殘障人士帶來了更多可能。浪潮信息研發人員介紹說,多模態算法在AI助盲領域的應用一旦成熟,將能夠造福數以億計的失明者。據世衛組織統計,全球至少22億人視力受損或失明,而我國是世界上盲人最多的國家,占世界盲人總數的18%-20%,每年新增的盲人數量甚至高達45萬。

    大挑戰:如何看到盲人"眼中"的千人千面

    AI助盲看似簡單,但多模態算法依然面臨重大挑戰。

    多模態智能算法,營造的是沉浸式人機交互體驗。在該領域,盲人視覺問答任務成為學術界研究AI助盲的起點和核心研究方向之一,這項研究已經吸引了全球數以萬計的視障患者參與,這些患者們上傳自己拍攝的圖像數據和相匹配的文本問題,形成了最真實的模型訓練數據集。

    但是在現有技術條件下,盲人視覺問答任務的精度提升面臨巨大挑戰:一方面是盲人上傳的問題類型很復雜,比如說分辨冰箱里的肉類、咨詢藥品的服用說明、挑選獨特顏色的襯衣、介紹書籍內容等等。

    另一方面,由于盲人的特殊性,很難提取面前物體的有效特征。比如盲人在拍照時,經常會產生虛焦的情況,可能上傳的照片是模糊的或者沒有拍全,或者沒拍到關鍵信息,這就給AI推理增加了難度。

    為推動相關研究,來自卡內基梅隆大學等機構的學者們共同構建了一個盲人視覺數據庫"VizWiz",并發起全球多模態視覺問答挑戰賽。挑戰賽是給定一張盲人拍攝的圖片和問題,然后要求給出相應的答案,解決盲人的求助。

    另外,盲人的視覺問答還會遭遇到噪聲干擾的衍生問題。比如說,盲人逛超市,由于商品外觀觸感相似,很容易犯錯,他可能會拿起一瓶醋卻詢問醬油的成分表,拿起酸奶卻詢問牛奶的保質期等等。這種噪聲干擾往往會導致現有AI模型失效,沒法給出有效信息。

    最后,針對不同盲人患者的個性化交互服務以及算法自有的反饋閉環機制,同樣也是現階段的研發難點。

    多解法:浪潮信息AI助盲靶向消滅痛點

    AI助盲哪怕形式百變,無一例外都是消滅痛點,逐光而行。浪潮信息多模態算法研發團隊正在推動多個領域的AI助盲研究,只為幫助盲人"看"到愈發精彩的世界。

    在VizWiz官網上公布的2萬份求助中,盲人最多的提問就是想知道他們面前的是什么東西,很多情況下這些物品沒法靠觸覺或嗅覺來做出判斷,例如 "這本書書名是什么?"為此研發團隊在雙流多模態錨點對齊模型的基礎上,提出了自監督旋轉多模態模型,通過自動修正圖像角度及字符語義增強,結合光學字符檢測識別技術解決"是什么"的問題。

    盲人所拍攝圖片模糊、有效信息少?研發團隊提出了答案驅動視覺定位與大模型圖文匹配結合的算法,并提出多階段交叉訓練策略,具備更充分的常識能力,低質量圖像、殘缺的信息,依然能夠精準的解答用戶的求助。

    目前浪潮信息研發團隊在盲人視覺問答任務VizWiz-VQA上算法精度已領先人類表現9.5個百分點,在AI助盲領域斬獲世界冠軍兩項、亞軍兩項。

    真實場景中的盲人在口述時往往會有口誤、歧義、修辭等噪聲。為此,研發團隊首次提出視覺定位文本去噪推理任務FREC,FREC提供3萬圖片和超過25萬的文本標注,囊括了口誤、歧義、主觀偏差等多種噪聲,還提供噪聲糾錯、含噪證據等可解釋標簽。同時,該團隊還構建了首個可解釋去噪視覺定位模型FCTR,噪聲文本描述條件下精度較傳統模型提升11個百分點。上述研究成果已發表于ACM Multimedia 2022會議,該會議為國際多媒體領域最頂級會議、也是該領域唯一CCF推薦A類國際會議。

    在智能交互研究方面上,浪潮信息研發團隊構建了可解釋智能體視覺交互問答任務AI-VQA,同時給出首個智能體交互行為理解算法模型ARE。該研究成果已發表于ACM Multimedia 2022會議。該研究項目的底層技術未來可廣泛應用于AI醫療診斷、故事續寫、劇情推理、危情告警、智能政務等多模態交互推理場景。

    眼球雖然對溫度并不敏感,但浪潮信息的研發團隊,卻在努力讓盲人能"看"到科技的溫度,也希望吸引更多人一起推動人工智能技術在AI助盲、AI反詐、AI診療、AI災情預警等更多場景中的落地。有AI無礙,跨越山海。科技的偉大之處不僅僅在于改變世界,更重要的是如何造福人類,讓更多的不可能變成可能。當科技成為人的延伸,當AI充滿人性光輝,我們終將在瞬息萬變的科技浪潮中感受到更加細膩溫柔的善意,見證著更加光明宏大的遠方。

    AI 助盲 浪潮信息 醫學

    一周熱門

    主站蜘蛛池模板: 国产精品亚洲片在线| 93精91精品国产综合久久香蕉| 精品国产美女福利到在线不卡| 免费精品视频在线| 在线精品视频播放| 51午夜精品免费视频| 亚洲av无码国产精品夜色午夜| 精品国产一区二区三区AV性色| 久久99国产精品一区二区| 奇米影视7777久久精品| 无码精品人妻一区| 久久精品国产清自在天天线| 91精品国产自产在线观看| 久久精品国产半推半就| 99在线精品免费视频九九视| 久久青青草原精品国产| 中文字幕精品无码一区二区 | 久久99精品久久久久久久久久 | 精品无人区一区二区三区| 亚洲电影日韩精品| 日本免费精品一区二区三区| 精品福利一区二区三区精品国产第一国产综合精品 | 久久精品国产亚洲综合色| 国精品无码一区二区三区左线| 亚洲人成电影网站国产精品| 欧美在线精品永久免费播放| 久久www免费人成精品香蕉| 国产精品性爱| 国产精品麻豆入口| 99久久精品九九亚洲精品| 成人一区二区三区精品| 四虎精品影院4hutv四虎| 一本一道久久精品综合| 亚洲精品视频在线| 亚洲国产精品一区二区久久| 久久亚洲国产精品一区二区| 久久成人影院精品777| 亚洲精品线在线观看| Xx性欧美肥妇精品久久久久久| 99九九精品免费视频观看| 国产成人精品高清不卡在线|