金融 >

自然语言处理 Paddle NLP - 结构化数据问答-理论|环球简讯

2023-06-26 18:16:59   来源:博客园

NLP问答任务相似度和规则匹配,都是早期的方法,现在主流的方法,都是基于生成的方法结构化数据问答,有两种形式,一种是知识图谱形式、一种是关系型数据库形式。主要应用在企业中,减少销售的成本应用于商业智能,用于报告生成,解放了财务能力,降低人力成本


(资料图片仅供参考)

结构化数据问答任务

结构化数据问答:基于给定的结构化知识库和自然语言问题,给出问题对应的答案任务能力:

推理能力:基于现有知识推理/计算给出答案,E.g. OPPOA93比魅族18贵多少呀输出结果可解释:输出知识库查询语句

结构化形式存储,不尽存储了问题的知识和答案,这种存储有利于推理和计算结构化问答能够输出查询语句,是人类可读可理解的,相对于其它问答形式,这种是可控的。

表格问题中,一般用语义解析技术(Text-to-SQL)表格问答:核心技术,将自然语言问题转成数据库上可执行的SQL查询语句两大功能:

SQL解析功能:比较关键,是表格问答的核心技术,如何将自然语言转成可查询的SQL语句SQL执行功能评估方法

常用的有两种,这两种是不等价的。

精确匹配正确率:评估生成的SQL的正确率,预测SQL与标准SQL相等的问题占比执行正确率:评估答案正确率,执行预测SQL获得正确答案的问题占比

分母是问题集合大小N,预测的SQL和标准的SQL相等的问题数量,在判断相等的时候会忽略顺序的影响

问题

这种方式和第一种相比,分子是通过答案相比,这两种方式是不等价的。

精确匹配正确率:针对同一个问题,有不同的SQL写法,而且SQL都是正确的,这种情况下。如果使用第一种评估方式,标准的SQL只是正确写法中的一个,使用这种方式会漏掉一些正确的结果。导致评估的结果会偏低,这种情况就比较适合使用第二种方式(评估答案准确率)执行正确率:数据库的不完毕性,有些问题是没有答案的,这样的话,就导致正常的SQL没有答案,错误的SQL也没有答案,按答案判断两种情况都是正常的。这样会导致评估结果会偏高

在实际应用在选择评估方式时,

看选择的测试数据,提供了哪些信息,有没有提供SQL、答案,实际应用更关注哪个指标,是关注SQL正常,还是更关注答案数据集

一般是按数据集化分,要么问题在训练集中,要么在测试集中,多领域是按数据库划分的,在一个数据集中

多领域(cross-domain):训练/测试集使用的数据库是否相同或交叉,数据集是包含多个数据库的,每个数据库有一个领域,每个领域有一个或多个数据库,数据集划分时,是按训练集、测试集划分的。一个数据库所有的问题,只能属于一个集合,要么属于训练集,要么属于测试集。这会导致测试集中的数据库和问题,在训练集中是没有见过的。多领域化分,是用来划分模型的泛化性。同时也给任务带来很大的挑战

单/多表(multi-table):构成数据库的表的数量,多表涉及到表的检索,一张表为单表,涉及多张表的表示多表

简单/复杂:从SQL角度评估,是否包含高级从句、集合操作、嵌套等,简单 SQL只包含SELECT WHERE(答案、条件),复杂:有可能包含排序、分组、集合操作

CSpider 数据库是英文,问题是中文

主流学习方式

基于规则的方式,已经不用了,主流的有以下两种

有监督方法:以生成的SQL是否正确,来指导模型的学习,这种学习方法依赖于标准数据,由于正确的SQL语句标注比较困难

弱监督方法:给出数据库问题,以及问题对应的答案,标注答案要比标注SQL相对容易很多,在这情况下,SQL是中间输出,会以答案指导SQL的生成,能够输出正常答案的SQL就是正确的。这种需要在整个数据库中去搜索合理或正常的正确语句,搜索空间比较大。这种方式比较适合简单的数据集,复杂的数据集很难执行下去。

https://github.com/salesforce/WikiSQL为了各类数据集都适用,后面都是基于有监督方法的介绍

encode-decoder 中英文翻译,中文句子翻译成英文句子,encode 把中文句子映射到表示空间上,完成编码的作用decode 从表示空间上,解码出对应的英文句子

从下往上看,把多输入进行拼接,自然语言和DB Schema 的拼接,将拼接输入给 Encoder 编码器,解码器按顺序输出每个元素,直到遇到结束符,最终生成序例(SQL语句)Decode 引入了两个开关,generate、copy 多领域数据集在划分训练集和测试集时,是按数据库进行化分的,测试集中的一些问题在训练集中没有见过,如何在生成的时候把这些没有见过的生成出来。输出信息,应该包含在输入定义的 db schema 信息中,这时候就可以把定义的输入信息copy到输出信息中。对于 SQL 关键词,是生成的,数据库和问题中的元素是copy的

Text-to-SQL任务挑战

领域泛化:测试集中数据库未在训练集中出现过输出结构化:生成的SQL语句在数据库上可执行,即满足数据库结构、SQL语法

Text-to-SQL实例

解决方案编码:Relation-awarerepresentation 利用匹配关系强化编码方式解码:Grammar-baseddecoder 利用语法解码,保证生成的SQL是满足语法的Encode => 隐式表示 => Decode

输入部分仍然是自然语言+Schema的拼接,在这边为了更好的识别条件值,增加了条件值的一个拼接,使用基础的编码器,对数据进行一个表示,得到一个隐式表示,在基础编码器上,又增加了一个 Relation-aware Transformer Encoder:用匹配关系增强表示,接下来在Decode中引入了 Grammar-based Decoder 语法解码,这种解码不是在每次输出时输出一个个元素,而是输出的一个语法序列。

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_sql

SchemaLinking

自然语言和数据库Schema进行匹配映射,把匹配信息构成匹配关系矩阵,这个矩阵作为后面模块的输入,

先对自然语言进行分词问题中的每个词与DB Schema中的成分进行匹配,标注出匹配方式和程度,构建出关系矩阵,颜色表示匹配关系,不同的颜色表示不同的关系

Encoding–BasicEncoder基础编码:把输入映射到隐式空间的过程Dataprocess:text2sql/dataproc/ernie_input_encoder_v2.py中类ErnieInputEncoderV2Encoder:third/ERNIE或PaddleNLP:from paddlenlp.transformersimport BertModelEncoding–Relation-awareEncoder匹配关系增强编码:利用SchemaLinking 中建立起来的关系矩阵,来指导编码,进而强化编码,学习输入中的每个词对目标词的权重,输入自然语言和DB Schema进行拼接,权重越大,对目标词的影响越大1:08:40Decoding语法解码:解码过程种通过语法生成语法序列,保证语法的合理性基于Copy机制的解码:对应的元素是数据库元素时,利用copy机制Grammar-basedDecoder

基本思想:根据SQL语法设定上下文无关文法,将SQL生成看作文法序列生成,即文法选择过程不再生成单独的 query元素,而是生成符合SQL语言的语法,最后生成的语法序列是可以构成 sql query的。

是经过领域泛化的,换一个库不需要重新标注,除非需要很高的准确率。

应用实例演示:https://ai.baidu.com/unit/v2#/innovationtec/kbqa/skilllist

视频:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedLesson=1477808&sharedType=2&sharedUserId=2631487&ts=1686638807733

课件:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedLesson=1567910&sharedType=2&sharedUserId=2631487&ts=1686638791675

标签:

相关阅读

自然语言处理 Paddle NLP - 结构化数据

金融

NLP问答任务相似度和规则匹配,都是早期的方法,现在主流的方法,都是

2023-06-26

海南省地图长什么样子?

金融

海南省像一个梨子,如图:一、海南省介绍海南省,简称琼,别称琼州,位

2023-06-26

博云新材最新公告:博云东方拟向沃尔博增资

金融

博云新材公告公司于2023年6月26日召开第七届董事会第六次会议审议通过

2023-06-26

环球精选!奥迪为什么会掉队

金融

6月21日,大众集团举办了“2023资本市场日”的公开活动。活动上,大众

2023-06-26

2023年常州武进区图书馆志愿者暑期志愿者招

金融

为丰富青少年的假期生活,推动公共文化设施助力新时代文明实践,引导青

2023-06-26

自然语言处理 Paddle NLP - 结构化数据问答-理论|环球简讯

金融

NLP问答任务相似度和规则匹配,都是早期的方法,现在主流的方法,都是

2023-06-26

海南省地图长什么样子?

金融

海南省像一个梨子,如图:一、海南省介绍海南省,简称琼,别称琼州,位

2023-06-26

博云新材最新公告:博云东方拟向沃尔博增资1363万元

金融

博云新材公告公司于2023年6月26日召开第七届董事会第六次会议审议通过

2023-06-26

环球精选!奥迪为什么会掉队

金融

6月21日,大众集团举办了“2023资本市场日”的公开活动。活动上,大众

2023-06-26

2023年常州武进区图书馆志愿者暑期志愿者招募公告+报名 快播报

金融

为丰富青少年的假期生活,推动公共文化设施助力新时代文明实践,引导青

2023-06-26

“睡”别人的老婆到底是怎样的感觉?这里说透了!

金融

其实每个男人都不想一生只睡一个女人,男人有这种想法虽然正常,但是想

2023-06-26

最稳定csgo国内饰品交易平台排行一览 环球热议

金融

,最稳定csgo国内饰品交易平台排行一览,很多喜欢玩csgo的知道开箱是一

2023-06-26

宋金文

金融

1、山东乳山人,1990年北京外国语大学日本学研究中心硕士研究生社会学

2023-06-26

信用卡逾期多久可以协商?信用卡逾期两天还款后果是什么?

金融

相信目前很多小伙伴对于信用卡都比较感兴趣,那么小搜今天在网上也

2023-06-26

端午节假期文旅复苏势头强劲|微速讯

金融

国内旅游出游1 06亿人次,国内旅游收入373 10亿元(副题)中国文化报讯

2023-06-26

遇见旗袍是于万千人群中的惊鸿一瞥 沿途洒满了爱的芬芳

旗袍,中国和世界华人女性的传统服装,被誉为中国国粹和女性国服。虽然其定义和产生的时间至今还存有诸多争议,但它仍然是中国悠久服饰文化

北京市电影院有序恢复开放 周五预售部分场次已满座

7月21日,北京市政府发布《北京市电影局关于在疫情防控常态化条件下有序推进电影院恢复开放的通知》,宣布全市低风险地区影院,可于7月24日

近期持续强降雨影响 第46届武汉渡江节因长江水位过高取消

武汉7·16渡江节组委会14日发布公告,由于长江武汉关水位超警戒水位,按照规定取消2020年第46届武汉7·16渡江节。受近期持续强降雨影响,

“非遗”普及受众最看重“动手”参观大师工作室非常享受

过去一段时间,国家级非遗项目灰塑传承人邵成村,多次在陈家祠等工作现场,向身边那些带着好奇目光的人们讲解灰塑的种种技术细节:草根灰、

璧山冷酒夜市 丰富市民夜间文旅活动

7月13日,位于璧山区南门唐城夜市街区的璧山冷酒夜市开街。这是璧山区打造夜间经济消费载体、培育夜间经济活动品牌的举措之一。璧山市民一

年内两市超过500家上市公司完成回购 累计回购金额超332亿元

近期A股市场持续震荡,不少上市公司或其重要股东推出回购、增持计划,用真金白银力挺股价。记者根据同花顺数据统计,今年以来,两市超过500

持续发力补链强链加大研发抢占市场 渝企跑出“加速度”

玥湖路渝快电充换电站 一辆新能源汽车,离不开研发、动力、配套等多个环节。作为汽车制造重镇,重庆在这些环节的多个板块上,正在加速奔跑

重启上市公司资本运作 康佳集团去年半导体业务营业收入为3.22亿元

近日,康佳集团正式对外发布2021年年度业绩报告。2021年,康佳集团实现全年营收491 07亿元,归属于母公司的净利润为9 05亿元,同比增长89 5

伟禄集团连续6年增长 去年营收同比增长37.5%

深港通标的之一的深圳企业伟禄集团近日公布2021年业绩。财报数据显示,伟禄集团全年营业收入11 95亿港元,同比增长37 5%,连续6年稳步增长;

龙头企业去年净利倍增 整个行业营收规模有望创造历史新高位

近日,面板龙头TCL科技、京东方分别发布2021年度业绩快报,两家企业去年归属于上市公司股东的净利润分别增长129 3%、412 86%,实现超过百亿

深圳国企全力为市民 守好“菜篮子”“米袋子”保障量足价稳

疫情防控形势下,民生物资供应是否充足成为市民最为关注的问题之一。连日来,深农集团、深粮控股等企业,充分发挥国企担当,全力为深圳市民