爱奇飞网

网站首页教育知识 >正文

人工智能计划让盖尔语在数字时代立足

开心的月饼 2023-05-18 17:12:04 教育知识

语言学家和人工智能专家正在着手一项雄心勃勃的计划,旨在帮助苏格兰盖尔语在数字时代蓬勃发展。

人工智能计划让盖尔语在数字时代立足

爱丁堡大学和格拉斯哥大学的专家已获得苏格兰政府225,000英镑的资助,用于开发适用于BBC的盖尔语字幕系统。

资金还将使该团队能够开始致力于为讲苏格兰盖尔语的人制作类似于ChatGPT的大型语言模型。创建该系统的努力是应对苏格兰盖尔语和其他少数民族语言面临的数字灭绝威胁的更广泛倡议的一部分。

当使用一种语言的人由于语言技术不完善而无法参与数字通信时,就会出现这种现象。

该研究团队还在帮助开发一种用于加拿大土著语言之一奥吉布威语的语音识别系统。

障碍

由于缺乏数据,盖尔语在开发和维护其语言技术方面面临重大障碍。

人工智能程序通常在大型数据集上进行训练,这些数据集通常是从互联网上搜索出来的,然后根据人类反馈进行微调。

研究人员将收集大量盖尔语数据,并使用它来生成用于媒体、教育和研究的高质量自动语音识别(ASR)系统。

深度学习

该项目将提供急需的盖尔语字幕技术,并迅速启动最先进的盖尔语语言模型的开发。

研究人员表示,这将有助于保护数字领域的语言,并为国家振兴工作做出重大贡献。

所谓的深度学习方法非常需要训练数据,而对于像盖尔语这样的少数民族语言,缺乏大规模数据是一个重大障碍。

该项目旨在通过生成大量口语化的盖尔语训练数据来正面解决这一障碍。该团队已经在2021年实现了一个重要的里程碑,即为盖尔语开发了第一个公开可用的语音识别系统。

“这是关于汇编大量知识——过去从盖尔语使用者那里收集的——并在现在以各种形式将其返还给盖尔语使用者。”

-WilliamLamb教授爱丁堡大学文学、语言与文化学院首席研究员

源材料

虽然它需要额外的开发来提高其准确性,但该技术已经帮助为教学视频创建字幕。

许多现有的数字项目将为支持这里提出的扩大工作所需的知识库奠定基础。

其中包括来自爱丁堡大学苏格兰研究学院档案馆的15,000页转录盖尔语叙述。

该团队还将访问苏格兰盖尔语数字档案馆(DASG)中的资料。这将包括来自格拉斯哥大学CorpasnaGàidhlig的约3000万字文本和来自DASG的CluasriClaisneachd音频档案的白话录音

“这将大大促进盖尔语语言技术的发展。令人欣慰的是,DASG的资源正在以这种方式部署并得到进一步开发。”

-RoibeardÓMaolalaigh教授格拉斯哥大学研究员兼DASG主任

“苏格兰政府很自豪能够支持这个尖端项目,这将有助于盖尔语在数字时代蓬勃发展,并保护我们国家丰富的语言和文化遗产。”

-JennyGilruth教育和技能内阁秘书

参加会议的还有爱丁堡大学的另外两名研究人员——文本挖掘高级讲师BeatriceAlex博士和语音技术读者PeterBell博士。

该项目正在与BBCAlba合作进行。它还涉及DASG、历史词典FaclairnaGàidhlig、盖尔语媒体服务MGALBA和TobaranDualchais/KistoRiches——苏格兰丰富口述遗产的独特在线记录。


版权说明:本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们


标签:

站长推荐
栏目推荐
阅读排行