必威体育-国外新闻热点-时事新闻爆料

分类

【必威体育】符号学视角下对机器新闻写作的批判性解读

写作机器人“Xiaomingbot”是今日头条实验室和北京大学计算机所万小军团队产学合作的成果。“Xiaomingbot” 正 式投入使用是在 2016 年,所写作的是针对里约奥运会的赛事简讯。

在整个里约奥运会期间,“Xiaomingbot”撰写的稿件赢得了一百多万的阅读量,平均阅读率接近整个奥运会期间体育频道的阅读率。在里约奥运会以后,“Xiaomingbot”将目标投向了欧洲冠军联赛(欧冠)、意大利足球甲级联赛(意甲)和美国职业篮球联赛(NBA)等各类体育赛事,同样取得了不错的成绩。

在写作特点上,“Xiaomingbot”首先是获取网上有关写作赛事的文字和讨论,并将其总结归纳成为一个相对长的赛事描述,是一种基于 UGC 模式的信息采集手段 ;其 次,“Xiaomingbot” 采用先进的机器学习算法,能够学习图文语义匹配模型,在该模型的基础之上,用今日头条大量的图片和文本做语义匹配,挑选合适的图片,实现图文自动关联的发稿模式;此外,“Xiaomingbot”也运用了在机器新闻写作中广泛应用的模板生成技术,采用了依据句法结构的模板文本生成技术和摘要式生成技术,既能生成短资讯,也能够生成比较长的资讯。[2]

【必威体育】符号学视角下对机器新闻写作的批判性解读

AI记者

2

符 号 学 视 角 下“Xiaomingbot”的缺陷

在先进技术的支持下,如果不仔细阅读,“Xiaomingbot”的新闻作品和传统的人工新闻作品并没有显著不同,都能够进行新闻报道,达到提供资讯的目的。但是,仔细分析,“Xiaomingbot”和传统人工的体育资讯新闻仍然有着一些较为显著的区别。

(一)图片符号和文字符号的机械依存

因技术限制,“Xiaomingbot”并不能识别视频、动图和音频等符号形式,所以它的新闻作品都是由静态的图片符号和文字符号组成。尽管“Xiaomingbot”有着较为先进的图文语义匹配模型和大量可供选择的图片数据,但在图片符号和文字符号的匹配问题上仍然存在问题,给人明显的机械感。

“Xiaomingbot” 在进行图文匹配的时候,通常会采用固定的模式。该模式的特征就是“一段一图 ”。 在“Xiaomingbot”进行写作的时候,它首先会收集网络用户以及其他今日头条有权使用的信息,首先生成文字段落。随后,根据文字段落的意义,在今日头条的图片库里面进行图文符号的匹配,再将图片插入到段落之前,形成“图片 + 段落”的作品呈现。并且,几乎是每一段话都有图片在前修饰。拿其报道意大利足球甲级联赛的案例《意甲 第 19 轮 恩波利 0 :1 国际米兰 遗憾失利》[3] 来说,除最后两段对于两队阵容的介绍没有采用配图之外,其他所有的段落都采用了“一个图片 + 一个段落”的内容呈现模式,没有变化,显得非常机械化。它在有关其他赛事的报道也是如此,几乎都是采用“一个图片 + 一个段落”的呈现方式,很少会有变化。

而由人工编辑产生的对同样赛事进行报道的新闻作品,配图则是更加自由。拿腾讯体育作者冷雪写作的同样比赛内容的文章《意甲 - 国米 1-0 取连胜稳居三甲 凯塔进球被吹仍破门致胜》[4]来说,文章开头用一张典型的描绘比赛画面的图片来配图,随后在描绘比赛精彩部分的时候才去使用图片进行解释说明,并且会使用一些动图,让这个作品包含的符号更加多样,画面更加生动,更有一种生命感。

(二)语句符号的僵化、独立

在语句的文本生成方面,许多写作机器人仅仅是依据事先写好的模板,将里面空缺的时间、地点、事件等信息补充完整,通过较为简单的填空作业实现新闻信息的生成。而“Xiaomingbot”则在此基础之上,应用了较为先进的文本生成技术,具有对用户发表的文字、讨论进行归纳整合的能力,并且学习多种赛事网络文字直播员的语句应用策略,实现较为高级的语句生成。但是,仍然难以避免语句符号的独立和僵化问题。

从“Xiaomingbot”报道 2018年美网的比赛来看,这一段时间标题都是采用了“比赛名称 +选手名和比分 + 不敌对手 / 获得胜利”的模式。内容上,第一段会采用与标题类似的结构,先是时间,然后是比赛名称,最后是选手和比赛结果。而在第一段的用词上面,如果说标题是某选手获得胜利,那么开头第一段结尾就会是“最终,某选手手感不俗,以几比几的比分获得胜利”;如果说标题是某选手不敌对手,那结尾就会变成“最终,某选手不敌对手,以几比几的比分遗憾止步”。在随后的段落里,“Xiaomingbot”则会对每局比赛过程的数据进行具体分析,而且在多数情况下会使用“比赛开始 - 随后 - 紧接着 - 最终”的逻辑结构,用词也很少会替换,呈现出单一、刻板、僵化的特点。