|
Post by account_disabled on Oct 21, 2023 3:58:57 GMT
哥本哈根大学计算机科学系的一项研究表明了这一点该系首次调查了语言模型是否有利于某些人口群体的语言使用用技术术语来说就是所谓的社会语言。如果你仔细观察语言模型我们可以看到系统性偏差。虽然岁以下受过短期教育的白人男性是语言模型最匹配的群体但它们与年轻非白人男性所使用的语言最匹配该大学计算机科学系教授说道哥本哈根的和该研究的资深作者事实证明任何差。 异都是有问题的因为这种差异会渗透到多种形式的技术中并可能产生严重的后果。在保 电话号码列表 险行业语言模型用于对案例进行分组并对客户进行风险评估。它也可以在法律环境中例如在公共案件管理中在某些地方模型用于搜索类似案件而不是寻找先例。在这些情况下微小的差异可能是决定性的说。网络上可用的数据以及用于训练语言模型的数据不一定代表我们作为该技术的用户。维基百科就是一个很好的例子它主要是由年轻的白人编写的。 模型学习什么类型的语言很重要。如果我们要找到扭曲的解决方案那么仅仅向模型提供更多数据是不够的。一个明显的解决方案是更好地训练模型。这可以通过改变算法来实现这样他们就不会同等重要地对待所有数据而是对从总体平均值中脱颖而出的数据特别小心总结道。关于预训练语言模型的社会言说分析研究的研究文章记录在年自然语言处理经验方法会议上可以在此处阅读克里斯蒂麦数字文化数字内容以及人与技术关系方面的领先专家之一。
|
|