资讯
展览资讯 大型展会 灯光节 大型盛典 赛事 中标捷报 产品快讯 热门话题 艺术节 活动 演出 新闻 数艺报道 俱乐部签约
观点
大咖专访 观点洞察 书籍推荐 吐槽 设计观点 企业访谈 问答 趋势创新 论文 职场方法 薪资报价 数艺专访
幕后
幕后故事 团队访谈 经验分享 解密 评测 数艺访谈
干货
设计方案 策划方案 素材资源 教程 文案资源 PPT下载 入门宝典 作品合集 产品手册 电子书 项目对接
  • 0
  • 0
  • 0

分享

Google探索全新NLU任务「自然语言评估」,正式面试前让AI帮你热个身!

2022-11-01



  新智元报道  

编辑:LRS
【新智元导读】谷歌基于「自然语言评估」任务还开发了一个网站Interview Warmup,免费当你的「面试陪练员」!


「刷题」可以说是贯穿人生的始终了,有些题目可以独自解决,比如考试题;但诸如面试类需要互动的题目时,一个人就很难刷动了。


这种互动不同于一般的问答,通常需要「陪练方」在特定情境下对问题进行回答,并引导用户进行思考,以达到最终目标。


比如面试官不会只负责提问,还需要引导你说出对问题的理解思路,以及可选的解决方案。这类问题也可能是开放式的,比如自我介绍等。



AI的终极目标,就是一切人可以做的事,都可以由模型替代,这类「面试陪练员」也不例外。


但在当下的自然语言处理领域,这种能力还没有得到足够的重视,并且在技术上很具有挑战性。


最近Google在官方博客上介绍了一个重要的自然语言理解(NLU)能力,即自然语言评估(Natural Language Assessment, NLA),并讨论了如何能够在教育的背景下有所帮助。



典型的 NLU 任务关注用户的意图,而 NLA 允许从多个角度评估答案。

在用户想知道他们的答案有多好的情况下,NLA 可以提供一个关于答案与预期有多接近的分析。


可能没有「正确」答案的情况下,NLA 可以提供细微的洞察力,包括主题性、相关性、冗长问题等等。


研究人员制定了 NLA 的范围,提出了一个实用的模型来执行主题性NLA,并展示了如何使用 NLA 来帮助求职者练习回答面试问题。


自然语言评估概述


NLA 的目标是根据一组期望(expectations)来评估用户给出的答案。


比如说有一个与学生交互的NLA系统,有以下几个组成部分:


  • 向学生提出一个问题;

  • 期望定义了用户预期在回答中得到什么。例如一个具体的文本回答或者是一组用户期望答案涵盖的主题,并且回答需要简洁。

  • 由学生提供的答案;

  • 评估结果。包括正确性、信息缺失、过于具体或笼统、文体反馈、发音等。

  • 可选项:上下文。例如一本书或一篇文章中的某一段。


使用 NLA,对答案的期望和对答案的评估都可以非常宽泛,这使得师生之间的互动更具表现力且更有细节。


有具体正确答案的问题


即使在有明确的正确答案的情况下,也可以比简单的正确或不正确更细微地评估答案。


  • 上下文(Context):哈利波特与魔法石

  • 问题(Question):霍格沃茨是什么?

  • 期望(Expectation):霍格沃茨是一所魔法学校

  • 回答(Answer):我不是很确定,但我认为这是一所学校。


对于问答系统来说,上面这个回答可能因为缺少关键细节「魔法」而被标记为不正确,因为用户会认为这个答案并非完全正确,也没有太大意义。


NLA可以提供更细节的理解力,例如认定学生的回答太过于笼统,并且学生本人对该回答不够确信。



这种细微的评估,以及注意到学生所表达的不确定性,对于帮助学生在会话环境中建立技能非常重要。


主题预期

在许多情况下,提问者并不期望得到具体答复


例如,如果一个学生被问到一个观点类问题,并没有具体的文本期望,提问者更关注的是回答相关性以及观点,或许答案的简洁度和流畅性也在提问者的评估范围内。


  • 问题:请进行自我介绍。(Tell me a little about yourself?)

  • 期望:一个主题集合,可能包括「教育 」、「经历」、「兴趣」等

  • 回答:我在加州的萨利纳斯长大,后来去了斯坦福大学,主修经济学,但后来对科技产业感到兴奋,所以接下来我...


在这种情况下,一个有用的评估输出将把用户的答案映射到所涉及的主题的子集,可能还有文本的哪些部分与哪个主题相关的标记。


从自然语言处理的角度来看,这很有挑战性,因为答案可能很长,主题也可能是混合的,而且每个主题本身可能是多方面的。


主题性NLA模型


原则上,主题性NLA(Topicallity NLA)是一个标准的多分类任务,开发者可以根据常用的模型很容易地训练出一个分类器。


但对于NLA来说,可用的训练数据很少,收集每个问题和主题的训练数据成本很高,也很耗时。


谷歌的解决方案是将每个主题分解成可以使用大型语言模型(LLM)进行标识的细粒度组件,并进行简单的通用调优。


研究人员将每个主题映射到一个潜在问题列表,并定义如果句子包含对这些潜在问题之一的答案,那么它就涵盖了该主题。


对于经历(Experience)这个主题,模型可以选择一些潜在的问题,比如:


  • 你在哪里工作?

  • 你是学什么的?

  • ...


再比如兴趣(Interests)这个主题下,也有一些基本问题,如


  • 你对什么感兴趣?

  • 你喜欢做什么?

  • ...


这些基本问题是通过迭代的手工过程设计的。


重要的是,由于这些问题是足够细粒度的,当前的语言模型可以捕获这些句子内的语义(比如What和Where的区别),也使得开发者可以为NLA的主题任务提供一个zero-shot设置: 模型训练一次后,即可不断添加新的问题和新的主题,或通过修改基本内容期望改编现有的主题,而不需要收集主题特定的数据。



帮助求职者准备面试


为了探索NLA的应用场景,谷歌的开发者还与求职者合作开发了一个新工具Interview Warmup,帮助用户在IT Support和用户体验设计等快速增长的就业领域为面试做准备。


网站上提供了大量的问题,求职者自己在家就能练习回答行业专家提出的问题,以帮助在真人面试中变得更加自信和从容。


谷歌也是受求职者的启发,了解面试过程中的难点后提出了NLA研究。


Interview Warmup并不对答案进行评分或判断,它只为用户提供一个独自练习的环境,并且帮助用户进行自我改进。

每当用户回答一个面试问题后,该答案会被NLA模型逐句解析,然后用户可以在不同的谈话要点之间切换,看看在他们的答案中发现了哪些要点。

研究人员意识到,在向用户发出信号表示他们的反馈是「good」时,存在许多潜在的陷阱,尤其是当模型只检测到有限的主题集时。

相反,该系统把控制权掌握在用户手中,只使用机器学习来帮助用户发现如何改进。


到目前为止,该工具已经帮助了大量来自世界各地的求职者,取得了很大的成果,并且开发团队最近已经将其扩展到非洲,并计划继续与求职者合作,迭代并使该工具对数百万正在寻找新工作的人更有帮助。

自然语言评估(NLA)是一个具有技术挑战性和有趣的研究领域。

NLA为新的会话应用铺平了道路,通过从多个角度对答案进行细致入微的评估和分析,促进了学习。

通过与社区合作,从求职者和企业到课堂教师和学生,可以确定NLA有潜力帮助用户进行学习、参与和发展各种学科的技能的情况,以一种负责任的方式建立应用程序,使用户能够评估自己的能力,并找到改进的方法。
参考资料:
https://ai.googleblog.com/2022/10/natural-language-assessment-new.html


阅读原文

* 文章为作者独立观点,不代表数艺网立场转载须知

本文内容由数艺网收录采集自微信公众号新智元 ,并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源:数艺网” 并附上本页链接: 如您不希望被数艺网所收录,感觉到侵犯到了您的权益,请及时告知数艺网,我们表示诚挚的歉意,并及时处理或删除。

数字媒体艺术 新媒体艺术 科技艺术 AI

10101 举报
  0
登录| 注册 后参与评论