深挖非结构化数据富矿，嘉银科技推出自研“识澜”、“明经”双算法

发布时间：

深挖非结构化数据富矿，嘉银科技推出自研“识澜”、“明经”双算法

2024-04-16

<< 返回

从创立以来，嘉银科技始终将技术创新视为企业发展的重要引擎，不断探索大数据和人工智能技术在不同业务场景中的应用，力求给客户和合作伙伴带来更优质的产品和服务。为进一步赋能决策科学和智慧运营，近日嘉银科技推出自研“识澜”音频数据挖掘算法和“明经”文本数据挖掘算法，全面释放非结构化数据价值，标志着公司科研能力和大数据实力再上新台阶。

非结构数据，是与结构化数据相对应的一个概念，具体区别如下：

结构化数据

结构化数据指的是以固定格式存储的数据，这种格式让数据易于检索、访问和理解。结构化数据通常存储在关系数据库中，如SQL数据库，数据通常以表格形式展示，分为行和列。每列有一个预定义的数据类型，如数字、字符串或日期，而每行则代表一个数据记录。

非结构化数据

非结构化数据是指不遵循固定格式或不易以传统数据库表格形式存储的数据。这类数据包括文本、图像、视频、音频等形式。相较于结构化数据，非结构化数据往往包含着更丰富的信息，但由于其复杂性，分析和处理这类数据需要更先进的技术，如自然语言处理（NLP）和机器学习。

基于多年的业务运营和数据积累，嘉银科技沉淀了丰富的数据“矿藏”。由于非结构化的特性，如何能从中提取有价值的信息转化为结构化数据，以进一步提高决策质量、提升客户体验，并最终推动业务增长，成为企业思考的重要课题。

经过探索和实践，嘉银成功自研了针对音频数据的“识澜”算法和针对文本数据的“明经”算法，根据不同业务场景，高效地从音频和文本数据中提取有价值的结构化数据，为下游的数据分析和建模提供更多决策支持。这两项最新成果展示了嘉银科技在科技领域的积极布局和对未来技术发展的深刻洞察，标志着数据驱动下，音频和文本数据深度理解和利用迎来新篇章。

音频数据挖掘算法命名为“识澜”，灵感源于声音犹如水纹波动，该算法能够从声音的波纹中识别出说话人情绪上的细微变化。嘉银决策科学中心通过利用数字信号处理（DSP）工具将音频文件转化为信号序列，再利用傅里叶变化分别从时域和频域的视角来提取说话人的声学特征，比如频谱质心、过零率、均方根能量等，这些特征旨在挖掘语音、语调、语速中蕴含的信息。由于人在不同的情绪状态下说话的方式会存在很大的差别，比如情绪激动的时候会语速加快、音调尖锐、提高音量等等，通过分析这些信息可以更完整地了解说话人在音频发生时的状态属性。

“明经”是古代科举考试的一种，旨在考察学生对儒学典籍的理解和运用能力。嘉银以此来命名文本数据挖掘算法，是希望它能够“学以致用”，从海量的文本里找到对业务有帮助的信息。目前，嘉银决策科学中心团队对传统的机器学习文本挖掘思路进行升级，让模型可以根据不同的业务场景自动化搜索有价值的关键词，并从近义词和同现词的角度对关键词库进行扩充，起到多路召回的作用。除此以外，公司还运用大语言模型（LLM)对命中文本的语义信息做进一步理解，来提升识别的准确性。这种传统机器学习和大语言模型相结合的方式，不仅让语义标签召回率和准确率实现同步提升，也助力公司业务降本增效。

目前，这两种数据挖掘算法已经成功运用于数据建模等场景，嘉银科技模型开发专家夏春秋表示，“结构化数据与非结构化数据起到很好互补作用，目前在多个场景下，声学和语义信息的融入都能给模型带来预测性能和稳定性能的提升。这充分证明了我们对非结构化数据的挖掘探索是有业务价值的。”

最新的信贷服务类模型报告显示，这两种非结构化数据挖掘算法开发出的变量占总入模变量的比例高达27%，对模型的预测起到强有力的支持作用。使用文本和音频变量的新模型预测效果相对于老模型也有大幅度的提升，在尾部20%的分位数阈值下，新模型能够提升60%以上的捕获率，减少40%风险事件的发生。新模型的运用不仅降低了运营成本，更重要的是显著提升客户满意度。

未来，嘉银科技将继续秉持“科技赋能服务革新”这一信念，不断突破技术边界，优化服务流程，与客户共同携手，构建高质量服务品质之路。在这条道路上，嘉银也将始终坚持以客户需求为导向，以技术创新为动力，不断提升服务的专业化、个性化水平。