微軟的新圖像字幕算法,準確性或超人類
原創(chuàng)
2020-10-18 09:46:38
來源:釘科技??
[釘科技編譯] 綜合《thesouthafrican》和《theverge》消息:微軟開發(fā)了一種新的圖像字幕算法,該算法在某些有限的測試中準確性超過了人類,據(jù)稱其將被合并到該公司用于視力障礙者的應(yīng)用程序“Seeing AI”及其更大的Office產(chǎn)品系列中。
圖像字幕技術(shù)滿足了諸如為圖像創(chuàng)建替換文本的任務(wù),該功能對于增加可訪問性特別重要。微軟AI團隊的軟件工程經(jīng)理Saqib Shaikh在新聞發(fā)布會上說:“理想情況下,每個人都將在文檔、網(wǎng)絡(luò)、社交媒體中為所有圖像添加替代文本,因為這使盲人可以訪問內(nèi)容并參與互動。但是,人們沒有。因此,有一些應(yīng)用程序使用圖像標題作為替代文本的方式”。
微軟表示,新算法效果是當(dāng)前算法的兩倍,對于使用諸如微軟 Seeing AI之類的應(yīng)用的用戶來說,這將意味著極大改善用戶體驗。
Seeing AI利用計算機視覺為視障人士描述通過智能手機攝像頭看到的世界。微軟算法不僅能夠識別人和物體,還能夠識別物體之間的關(guān)系,這意味著該算法能夠?qū)⒛橙嗣枋鰹椤白谝巫由匣蜃x書”。
在9月份的一篇論文中,新算法在一個被稱為 "nocaps "的圖像字幕基準測試上取得了有史以來最高的分數(shù)。nocaps基準測試由超過166000個人類生成的字幕組成,描述了從Open Images Dataset中提取的約15100張圖片,這些圖片涵蓋了從運動到假日抓拍,再到美食攝影等等的一系列場景。 (釘科技綜合《thesouthafrican》和《theverge》消息編譯)
原創(chuàng)文章
最新文章
13
商務(wù)合作
- QQ:61149512