• GA黄金甲·(中国区)官方网站

    GA黄金甲动态

    咨见 | 基于自然语言处理的银行账户用途标签提取技术

    • 时间:2023-01-09
    • 来源:GA黄金甲软件

    咨见 | 基于自然语言处理的银行账户用途标签提取技术

    银行账户是资金管理的重要组成部分,是资金业务承载的主体。全面、精准的银行账户用途标签可以应用于账户画像生成、账户异常识别等业务场景,对于提升账户管理精细化水平、防范资金安全风险有非常重要的意义。基于自然语言处理的银行账户用途标签提取技术,能够将海量银行交易流水中非结构化的摘要数据标签化,形成全面、精准的银行账户用途标签数据,帮助资金管理人员全面了解银行账户的历史交易行为,及时洞察账户异常,精准定位交易风险。

    一、建设背景

    2022年1月,国务院国资委发布《关于推动中央企业加快司库体系建设进一步加强资金管理的意见》。《意见》要求,中央企业要把银行账户、票据管理、资金结算等操作类业务和资金集中、债务融资等运营类业务作为司库管理的重点,纳入信息系统,固化管理要求、规范操作流程,实现穿透监测;要加大5G、大数据、云计算、物联网、区块链、人工智能等现代信息技术在司库信息系统建设中的创新应用力度等。

    电网企业资金流动规模大、交易频繁,是典型的资金密集型企业。当前,电网企业在银行账户、资金安全管理方面仍存在精细化水平不足、监控规则不完善等问题。其中,在银行账户方面,由于账户交易量大,缺乏有效管理手段,无法感知账户的交易行为,容易形成管理盲区,存在一定的安全隐患。

    二、解决方案和技术

    为了提升电网企业银行账户管理精细化水平,防范资金安全风险,本方案应用自然语言处理技术,对企业海量银行交易流水的摘要数据,进行句法关系解析,智能提取交易标签和业务标签(如下图1所示),形成动态、完整、全面的资金账户用途标签数据,并通过对比历史和近期标签,发现账户异常行为,为银行账户提供有力的管理抓手。

    咨见 | 基于自然语言处理的银行账户用途标签提取技术

    咨见 | 基于自然语言处理的银行账户用途标签提取技术

    图1 交易标签(左)和业务标签(右)

    本方案的主要技术分为4部分:数据预处理、词库构建、语义结构提取及标签提取,如下图2所示:

    咨见 | 基于自然语言处理的银行账户用途标签提取技术

    图2 标签提取流程

    2.1 数据预处理

    本步骤主要是去重和剔除摘要中的噪声数据,比如日期、数字、英文及收款单位名称,清洗后的摘要只保留了关键信息,如下表1所示:

    咨见 | 基于自然语言处理的银行账户用途标签提取技术

    表1 数据预处理示例

    2.2 词库构建

    本步骤应用的词库有业务同义词库、业务动词库及业务关键字库,其中业务同义词库用于合并语义相同的交易业务,例如<差旅费、出差费>;业务动词库用于识别业务动作,例如退、预收、上缴等;业务关键词库用于精准判别和定位交易业务,例如费、税、金等,具体如表2所示:

    咨见 | 基于自然语言处理的银行账户用途标签提取技术

    表2 词库示例

    2.3 语义结构提取

    本步骤利用哈尔滨工业大学的LTP(Language Technology Platform)开源中文NLP系统对预处理后的交易摘要进行句法解析,包括分词、词性标注、命名实体识别、依存句法分析四个步骤,最终生成依存句法依赖关系树,如下图3所示:

    咨见 | 基于自然语言处理的银行账户用途标签提取技术

    图3 依存句法依赖关系树

    根据银行流水摘要的特点,本方案主要用到关系包括核心词(HED)、主谓关系(SBV)、动宾关系(VOB)、并列关系(COO)及状中关系(ATT)。

    2.4 标签提取

    标签提取是本方案的核心步骤,包括交易标签提取、业务标签提取及未提取标签填充3部分。

    (1)交易标签提取

    根据句法依赖关系树,按规则(如下表3所示)提取交易标签,例如差旅费、购电费等主要用到了业务同义词库。

    咨见 | 基于自然语言处理的银行账户用途标签提取技术

    表3 交易标签提取规则

    (2)业务标签提取

    根据句法依赖关系树,按规则(如下表4、表5所示)提取业务标签,例如报销差旅费、预付购电费等,主要用到了业务动词库和业务关键词库。由于交易业务往往会带有明显的关键词,比如费、款、金等,因此业务标签提取规则将围绕这些关键字展开设计。

    规则1:分词结果能模糊匹配关键词库中的词,模糊匹配的词记为H。将分词结果中的词与业务动词库中的词相匹配。挑选优先级最高的动词记为V,默认V为“付”。如果V是H的子字符串,业务标签为H;否则业务标签为V+H。

    咨见 | 基于自然语言处理的银行账户用途标签提取技术

    表4 业务标签规则1示例

    规则2:分词结果能完全匹配关键词库中的词。完全匹配的词记为H,根据句法分析结果找到与H有ATT关系的词,记为ATTH。将分词结果中的词与业务动词库中的词相匹配。挑选优先级最高的动词记为V,默认V为“付”。如果V是ATTH+H的子字符串,业务标签为ATTH+H;否则业务标签为V+ATTH+H。

    咨见 | 基于自然语言处理的银行账户用途标签提取技术

    表5 业务标签规则2示例

    (3)未提取标签填充

    对于未能提取交易标签但提取了业务标签的摘要,将业务标签去除与业务动词库相匹配的词,即可获得交易标签,例如:<付牛羊肉款>转为交易标签<牛羊肉款>

    对于提取了交易标签但未能提取业务标签的摘要,将交易标签加上摘要分词结果中与业务动词库相匹配的词,即可获得业务标签,例如:摘要为“光伏发电”,交易标签提取为<光伏费>,业务标签没有提取成功,根据本规则,业务标签填充为<付光伏费>。

    三、建设成效

    本方案应用于某省电网公司,使用6个月近百万的银行交易流水数据对模型的效果进行测试和评估,获得了96%以上F1值,证实了模型有效性和实用性,能够在电网企业进行推广应用。


    作者:GA黄金甲软件股份有限公司 李玫 丁德智 张允君 李国栋



    咨见 第九期

    “咨见”专栏自2022年1月起推出,汇聚GA黄金甲软件咨询及实施专家团队智慧,解读最新政策,聚焦行业观点,分享优秀案例,输出数字企业、智慧能源方案及新兴科技研究等内容,形成“GA黄金甲咨询智库”,分享GA黄金甲专家们的智慧洞察,积累专业知识,谨与大家一起学习交流,共同成长。

    咨见 | 基于自然语言处理的银行账户用途标签提取技术




    网站首页
    GA黄金甲