logo
BosonNLP Blog
界面新闻联合BosonNLP 年度6万新闻大盘点

农历初一给大家拜年啦!

回顾纷繁的2015,大家是不是好奇自己看了哪些新闻,又错过了哪些热点呢?我们携手界面新闻为大家带来最干货的年度6万篇新闻盘点,快来看看那个喜欢在凌晨读思聪新闻的是不是你?

Alt text

Alt text


机器人写诗竟然到了这个水平!

昔日辉煌的电影雄狮米高梅公司在提出自己的拉丁文口号“ars gratia artis”,即英文“art for art’s sake(艺术的归艺术)”的时候,一方面主张艺术内在的自主性与内在价值,另一方面也毫不含蓄地表达了作为艺术创作者的骄傲。在上世纪四十年代,这头雄狮标志一度成为了美国的象征。 2010年,这只创立了86年,被几经转手的骄傲雄狮最终没有逃离破产清算的命运。应该说,造成雄狮的悲剧命运原因是多方面的,电视工业的兴起,管理层动荡等都将其推向了衰落深渊。昔日“art for art’s sake”口号一方面难于经受商业逻辑的考验,而可能更令米高梅始料未及的是,作为人类智慧与创造力浓缩体现的艺术创作本身,也在越来越多的被机器所辅助完成,甚至取代。 回顾过去二十年人工智能的发展,从1997年IBM深蓝在国际象棋的竞技上战胜人类世界冠军Garry Kasparov,到2015年德国科学家Gatys等人通过深度神经网络将任意图画转化成特定艺术家的风格,成果卓越。人类所引以为豪的创造及艺术领域正在不断受到挑战,技术与艺术的界限日益模糊。 语言能力从来都是人类的重要天赋,而对自然语言的语义理解也一直是玻森数据所致力解决的核心难题。今天,玻森机器人通过对唐诗文本的学习,能够自如地创作唐诗风格的诗篇。 在通过深度神经网络技术学习了全唐诗五万首后,玻森的编诗机器人可以根据不同的风格,甚至是不同的起首字,自动 ...

阅读全文…
玻森新闻自动摘要算法简介

在《一张图看懂自动摘要》中,已经为大家简要勾勒了自动摘要技术。在这篇文章中,将要详细谈一谈自动摘要算法实现,以及玻森进行的优化。 如前文所说,自动摘要可以分为笼统式和查询式。由于查询式摘要的应用场景较为特定,笼统式摘要成为现阶段主流,它也能在很大程度上满足人们对摘要的需求。因此玻森的新闻摘要是笼统式抽取摘要。 玻森采用的是最大边缘相关模型(Maximal Marginal Relevance)的一个变种。MMR是无监督学习模型,它的提出是为了提高信息检索(Information Retrieval)系统的表现。例如搜索引擎就是目前大家最常用的信息检索系统。大家可能经常会碰到,对于我们输入的一个关键词,搜索引擎通常会给出重复的或者内容太接近的检索的情况。为了避免这个现象,搜索引擎可以通过MMR来增加内容的多样性,给出多方面考虑的检索结果,以此来提高表现。 这样的思想是可以被借鉴用来做摘要的,因为它是符合摘要的基本要求的,即权衡相关性和多样性。不难理解,摘要结果与原文的相关性越高,它就接近全文中心意思。而考虑多样性则使得摘要内容更加的全面。非常的直观和简单是该模型的一个优点。 相比于其他无监督学习方法,如TextRank(TR), PageRank(PR)等,MMR是考虑了信息的多样性来避免重复结果。TR,PR是基于图(Graph ...

阅读全文…
11款开放中文分词引擎大比拼

在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。 一提到自动分词,通常会遇到两种比较典型的质疑。一种质疑是来自外行人的:这件事看上去平凡之极,好像一点儿也不“fancy”,会有什么用呢?另一种质疑则是来自业内:自动分词研究已经进行了数年,而网上也存在各种不同的开放分词系统,但对于实际商用似乎也未见一个“即插即用”的系统。 那么,目前常见的开放分词引擎,到底性能如何呢?为了进行测试,我们调研了11款网上常见的并且公开提供服务的分词系统,包括: 分词的客观量化测试离不开标注数据,即人工所准备的分词“标准答案”。在数据源方面,我们将测试分为: 新闻数据:140篇,共30517词语; 微博数据:200篇,共12962词语; 汽车论坛数据(汽车之家)100篇:共27452词语; 餐饮点评数据(大众点评):100条,共8295词语 ...

阅读全文…