外界对AI总有太多误读,或认为它马上就能颠覆世界,或认为它仅仅是资本炒出的又一泡沫。在整个资本市场经历了AI赛道的爆火和寒冬之后,再不敏感的投资人也意识到了两点:AI重要吗?非常重要;AI赚钱吗?现阶段商业化、项目实际落地应用确实难。
简单来说,AI还在积累和发展的阶段,让这一阶段的AI来做下一阶段变现的事情难度自然不小,这也意味着烧钱继续投入科研,投入AI算法的基础性研究仍然是必须和必要的,这一面向未来且异常重要的行业因而也有着不低的入局门槛,而且门槛还会持续提高,剔除那些不符合参赛条件的玩家。
但AI行业无论怎么变化,投资人用什么眼光来看待这一行业,有一点不变的是它始终是一门靠技术驱动的“硬科技”领域,在该领域的理论突破、算法模型突破都将成为企业核心竞争力的重要来源。
近日,自然语言处理与计算语言学领域最高级别的学术会议,ACL会议(AnnualMeetingoftheAssociationforComputationalLinguistics)颁发了其2021年的“最佳论文”奖项,字节跳动AILab的机器翻译技术论文获此殊荣。
想要获得“最佳论文”奖项可不容易,据了解,这是华人科学家团队在ACL59年历史中唯一一次获得“最佳论文”,也是第二次斩获最高荣誉。同时,在计算机以及人工智能迅猛发展的时代背景下,ACL会议接收到的投稿论文是逐年增加,据官方数据显示,本届大会共收到3350篇有效论文投稿,主会论文和Findings论文录用率分别为21.3%和14.9%,字节跳动AILab的这篇成果从3350篇论文投稿中脱颖而出。
虽然现在行业的普遍认识是,学术界的研究成果转化为AI产业界的实际应用落地有着不短的距离,但能获得计算机领域顶会的“最佳论文”的成果没有一个是表面看起来那么简单。
这首先要从自然语言处理相关研究的重要性说起。自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,它主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。科学家研究自然语言处理技术(NLP)的目的是让机器能够理解人类语言,用自然语言的方式与人类交流,最终拥有“智能”。
其实在早年间ACL会议远没有现在这般的影响力和传播度,其辐射范围更集中在学术圈内部。近十年来,随着社会数字化程度的加深,智能机器人、智能家居设备、智能语音助手等技术的应用更加普及,其背后的核心技术——自然语言处理技术变得愈加重要。
当然,现阶段的智能语音助手、智能机器人等技术离成熟还有着不短的距离,这就要求着自然语言处理技术的进一步发展。业界普遍认为,数据量、运算力和算法模型是决定自然语言处理行业发展的三个关键要素。
在万物互联的时代,社交网络、各类智能设备每分每秒都在生成海量数据,据统计,2020年全球有超500亿的终端与设备联网,人均每天产生的数据量达到了1.5GB。海量的数据虽然有利于自然语言处算法的优化,但仍受到硬件性能限制的算力,难以满足几何式增长的数据量的运算需求,在这种情况下,高效的算法模型的价值变得更加重要。
随着AI在全球范围内的火热,AI模型的强度往往和算力成正比,占用大量算力资源、消耗大量电能去训练超大模型成为业界风潮,但此种风潮难以持续,随着算法模型的进一步复杂,资源消耗和算力消耗使得企业难以负担,因此降低模型复杂度使其更加高效更加节能很有必要,在社会倡导的碳中和风潮下,更多企业也将选择效率更高的算法模型。
字节跳动获得此次ACL“最佳论文”的《VocabularyLearningviaOptimalTransportforNeuralMachineTranslation》则是在自然语言处理的底层研究上下了功夫。ACL官方评审认为,“字节跳动的VOLT方案对机器翻译中一个重要问题提出了有效且新颖的解决方案,能显著减少词表的学习和搜索时间,相信其不仅会在研究界产生重要影响,在工业应用方面也有着巨大潜力”。从VOLT的测试效果来看,其对促进AI产业节能环保极具潜力,相比主流的词表方案可以节省大约92%的算力。
该论文第一作者许晶晶及其所在的字节跳动AILab团队的不少研究都有着节能环保的公益价值,如许晶晶今年在AAAI(TheNationalConferenceonArtificialIntelligence)上获得了2021学术新星奖,是中国机构唯一入选者,其研究领域为机器学习碳中和。这次获奖不是一个偶然性事件,是在过去十来年的时间中,华人科学家在NLP领域默默无闻逐渐积累的成果的一次爆发。
在二十一年前,国际AI顶会ACL第一次来到中国,在中国香港举办了其2000年的年会,当时的整个中国大陆被ACL收录的论文主体只有微软中国研究院,五年后,来自大陆的论文也只有三篇。
各大人工智能国际顶会的数据显示,2012年至2020年期间,微软和谷歌的论文成果排名全球前二,IBM和Facebook也名列前十,美国科技企业表现强势;与此形成鲜明反差的是,中国AI研究界则由学术机构当家,仅清华和北大跻身前十,分别排名第八和第九位。
好在随着中国综合国力的与日俱增,不管是国家教育、科研的方向,还是新兴互联网企业、AI企业们的重点关注领域,都开始转向智能化、数据化背后的人工智能基础研究,中国迎来了AI研究的井喷期。ACL2021的中国论文投稿量遥遥领先,企业界也做出重要贡献。
相比学术界,企业在AI技术研究上更注重结合自身业务、把研究成果落地应用。以ACL最佳论文的研究成果为例,字节跳动AILab要将其应用在火山翻译中,用于支持字节系产品和火山引擎企业客户的翻译需求。该实验室另一项颇为创新的“并行翻译”研究成果,不仅在国际机器翻译大赛上击败了从左向右逐词翻译的传统技术,也已在火山翻译产品中实践落地。
不管AI行业是冷是热,人工智能必然是未来的潮流,中国的AI科研几十年来如一日般的默默积累实力,也由此带来了华人科学家群体在NLP领域的大放异彩,成为名副其实的顶会收割机。在此背后,学术界和科技企业共同发力,下一次爆发不会让我们等待太久。