logo
BosonNLP Blog

Archives

当我们在谈深度学习时,到底在谈论什么(三)

相信对机器学习有一定了解的朋友对正则化(Regularization)这个概念都不会陌生。可以这么说,机器学习中被讨论最广泛也可以说是最重要的一个问题,就是防止过拟合(Overfitting)。 为什么这么说呢?因为通过增加模型复杂性来在训练数据上达到完美的拟合实在太过容易。如果仅希望在训练数据上得到输入\(x\)预期的输出\(y\),那么我们仅仅需要记住所有的训练数据\((x, y)\)就可以了。而对于机器学习,我们真正的关心的问题,是在那些没有见过的数据上,模型的表现如何,也就是模型的泛化能力。 至于正则化的方法,很多时候被大家简化理解为了“在目标函数上增加关于参数的\(\ell_1\)或\(\ell_2\)范数”的简单表达,但对于为何需要增加范数约束,以及增加以后所产生的效果不甚明了。 我们这里通过一个最简单的Logistic regression的例子来看看增加范数约束的必要性。对于Logistic regression问题,通过给定的\(n\)个数据\(\{(x_i, y_i)\}^n_{i=1}\),其中\(y_i \in \{0, 1\}\),我们希望寻求到一个足够好的\(w\),使得\(\sigma(x_i)\)尽可能接近\(y_i\),其中\(\sigma(x)=\frac{1}{1+\exp(-w\cdot x)}\)就是我们前文神经网络常用的Sigmoid函数。我们可以将Sigmoid函数的输出解释为某个输出为1的概率,那么按照最大似然原则,需要求解如下优化问题: $$ \arg \min_w -\sum_{i: y_i=1} \log \sigma(x_i, w) - \sum_{i: y_i=0} \log \sigma(-x_i, w). $$ 假设我们求得某个\(w\),能够成功让所有\(y_i=1\)的正样本\(\sigma(x_i)>0.5\),而负样本输出\(\sigma(x_i)<0.5\),已经意味着我们可以通过该分类器完美对数据进行区分。但如果仔细查看我们的最优化问题可以发现,如果我们将\(w\)替换成\(2w\),则可以进一步降低目标函数值,我们可以通过不断放大\(w\)来进一步降低目标函数值。事实上,\(w\)与\(c\cdot w\)所表达的是同一个分类器超平面(hyperplane),可以通过限制\(\|w\|_2=1\)使其收敛到唯一解。 上面的例子是数学上一类Inverse problem的特例。这其中最简单的当属线性方程组求解的问题。当我们已知其生成过程 \(y_i=w^Tx_i + \epsilon\),其中\(\epsilon \sim \mathcal{N}(0, \sigma^2)\)为独立同分布(i.i.d)的高斯随机噪声时,可以证明,采用\(\ell_2\)范数进行优化,是在最大似然意义下的理论最优解: $$ \arg \min _w \|w^TX - y\|_2. $$ 类似上述能够给出具体数学描述的生成过程,及其Inverse problem最优求解方法的问题还有很多。最近哥伦比亚大学John Wright教授在字典学习问题的突破(参见Complete Dictionary Recovery over the Sphere)的结果非常漂亮,堪称是这一类Inverse problem和正则化应用的典范。 Alt...</p>

    </article>
    <article class= 当我们在谈深度学习时,到底在谈论什么(二)

后向传播 上一次的分享我们提到了神经网络的几个基本概念,其中提到了随机梯度下降(SGD)算法是神经网络学习(或者更通用的,一般性参数优化问题)的主流方法。概念上,神经网络的学习非常简单,可以被归纳为下面的步骤:(a) 构造神经网络结构(选择层数、激活函数等);(b) 初始化构造出的神经网络参数\(w\);(c) 对于给定的训练样本\((x, y)\)与当前的\(w\),计算梯度\(\triangledown w\);(d) 通过(随机)梯度下降算法更新\(w\)。例如,不考虑任何正则化因子情况的最简单参数更新为 $$w = w - \eta\triangledown w.$$ 神经网络的初学者往往会发现,上述四个步骤当中,对于给定样本\((x,y)\),计算其梯度是最不直观的一个步骤。本文我们玻森(bosonnlp.com)的讨论就围绕解决梯度\(\triangledown w\)的核心算法:后向传播算法来展开。 首先理清一个概念,步骤(d)的梯度下降算法是一种优化算法,而我们要讨论的后向传播算法,是计算步骤(c)中所需要梯度\(\triangledown w\)的一种算法。下面的讨论,我们首先完成单参数(即只有一个参数\(w\in\mathbb R\)需要学习)的特例情况下的推导,进而通过动态规划(Dynamic programming)思想,将其推导泛化到多变量的情况。需要注意的是,虽然后向传播概念上并不复杂,所用到的数学工具也很基本,但由于所涉及的变量较多、分层等特点,在推导的时候需要比较仔细,类似绣花。 单参数情况 特例 在讨论后向传播算法之前,我们简单回顾一下单变量微积分中的求导规则。来看个例子,假设我们有一个极端简化的网络,其中只有一个需要学习的参数\(w\),形式如下 $$y = w^2x +1.$$ 并且假设损失函数Cost为平方误差(MSE)。 $$\text{Cost}(y, \bar y)= \frac{1}{2}(y - \bar y)^2.$$ 假设我们只有一个训练样本\((x, y)= (1, 1)\)。因为这个形式非常简单,我们试试将该样本直接带入损失函数: $$\text{Cost}(y, \bar y)= \frac{1}{2}(w^2\cdot1 + 1 - 1)^2= \frac{1}{2}w^4.$$ 显然当\(w=0\)时,我们可以让损失函数为0,达到最优。下面让我们假装不知道最优解,考虑如何用梯度下降方法来求解。假设我们猜\(w_0=2\)为最优,带入计算得到 $$\text{Cost}(y, \bar y)= \frac{1}{2}w^4= 8.$$ 嗯,不算太坏的一个初始值。让我们计算其梯度,或者损失函数关于\(w\)的导数。 $$\text{Cost}'(y, \bar y)= \left(\frac{1}{2}w^4\right)' = 2*w^3.$$ 设置学习率参数\(\eta=0.02\),我们可以通过梯度下降方法来不断改进\(w\),以达到降低损失函数的目的。三十个迭代的损失函数变化如下: 生成上图采用的是如下Python代码

当我们在谈深度学习时,到底在谈论什么(一)

深度学习最近两年在音频分析,视频分析,游戏博弈等问题上取得了巨大的成果。由于微软,谷歌等科技巨头的推动及应用上的可见突破,使得深度学习成为目前学术界和工业界的超热门话题。包括国内很多公司也乐见其成,适时宣布自己的产品或算法也拥抱了深度学习。不过对于具体如何使用,达到了什么效果等问题讳莫如深。 事实上,关于深度学习的大量研究成果在上世纪已经完成,包括卷积神经网络(CNN)、长短时记忆网络(LSTM),多层网络的表达能力等。宣称自己在使用某个算法工具其实并不具备天然的正义性,如何能将工具用好,解决关键场景才是我们应该关心的问题。 为提升对非结构化数据的处理,玻森(bosonnlp.com)内部也在开展深度学习的讨论。接下来的一段时间,我们将不定期更新深度学习的讨论notes。 我们不谈情怀,不讨论人工智能是否要统治人类,也不论奇点是否临近。我们就谈点落地的深度学习基础数学理论,及背后的几何直观。世界太大,认知有限,这点上我们遵从维特根斯坦的观点,“凡能够说的,都能够说清楚;凡不能谈论的,就应该保持沉默”。 什么是感知机 人类大脑的神经系统相当复杂,其具体的工作机制至今仍是前沿的生物课题。在1957年时由 Cornell 大学的学者 Frank Rosenblatt 博士所提出的感知机(Perceptron)模型可以认为是对人类神经系统的一个高度简化概括: $$ \begin{cases}1 & w\cdot x +b > 0\\0 & w\cdot x+b \leq0\end{cases} $$ 其中\(w\)与\(b\)作为模型的参数。 Frank Rosenblatt 博士恐怕是史上对人工智能贡献最大的心理学家。他的兴趣不仅停留在从数学上抽象出感知机和提出相应的学习算法,还亲自打造了下面这台被称之为Mark I Perceptron的“实体”感知机,其具备512个隐藏单元哦! 当加权求和输入值时,感知器会与0做对比,以确定自己是否处于激发状态。实际的神经元在人脑中数以百亿计。上式中神经元所输出的状态非0即1,而实际在计算机所建立的模型中,往往将其泛化: $$ y = f(w\cdot x + b)\quad w \in\mathbb{R}^n, b\in\mathbb{R} $$ 其中\(f\)为激活函数(activation function)。 神经网络可以看做是感知机的一种泛化形式,通过递归嵌套及选择不同的激活函数,我们可以不断将原始数据x进行变换,或特征抽取。 通过对上述式子的嵌套,我们可以构造具有更为复杂表达能力的函数。如两层嵌套形式: $$ y = f\left(w_2\cdot f\left(w_1\cdot x + b_1\right)+ b_2\right) $$ 注意到感知机实际上相当于采用Step函数作为激活函数。其他常用的激活函数有Sigmoid, Tanh, ReLU等。其中Sigmoid函数 $$ f(w\cdot x+b)= \frac{1}{1 + \mathcal{e}^{-(w\cdot x+b)}} $$ 在早期的神经网络研究文献中被广泛使用。目前对于大多非结构化数据,人们发现分段线性(piece-wise linear)函数 $$ \text{ReLU}(x)= \max(0, x) $$ 具备更好的鲁棒性,并能够更快收敛。常见的激活函数可以参见下表。 常见的神经网络类型 无环结构: 一层神经元的输出作为下一层神经元的输入,信息总是向前反馈。这一类型的神经网络也叫...

一行命令让ElasticSearch支持中文分词搜索

相信大家在开发博客,在线商城的时候会涉及到搜索功能。而近几年火起来的 ElasticSearch(ES)凭借其稳定、可靠、快速的实时搜索普遍受到大家的好评,连 GitHub、SoundCloud 也都将 ES 作为其核心搜索组件。 但是 ES 本身对中文分词和搜索比较局限。因为内置的分析器在处理中文分词时,只有两种方式:一种是单字(unigram)形式,即简单粗暴的将中文的每一个汉字作为一个词(token)分开;另一种是两字(bigram)的,也就是任意相邻的两个汉字作为一个词分开。这两种方式都不能很好的满足现在的中文分词需求,进而影响了搜索结果。 举个例子: 假设我们的 index 里面存储了3篇 documents 如下: id content 1 美称中国武器商很神秘 花巨资海外参展却一言不发 2 在第一界国际锦标赛中 国家代表李雷勇夺冠军 3 国武公司近日上市 Case 1:查询“中国”,期望只得到 id 为1的 document。 用 unigram 的分析器(即默认的 Standard Analyzer)查询结果为 id 1和 id 2的content;bigram 的分析器(名为cjk)的结果为id 1。Standard Analyzer 没有给出预期结果是因为它把“中国”切分为“中”、“国”2个 token,因此误给出了 id 2的结果。 Case 2:查询“国武”这一家公司,期望只得到 id 为3的 document。 Standard Analyzer 和 cjk 的查询结果都会同时给出 id 1和 id 3的 document,但是 id 1 的 document 中的“国武”并不是所指的公司。 (注:以上查询均用query_string) 因此我们可以发现内置的分析器有它的局限性,并不能满足复杂或者特定的搜索需求。为此,玻森数据开发了一款基于玻森中文分词的 ES 插件(Elasticsearch-Analysis-BosonNLP),方便大家对中文数据进行更精确的搜索。 现在已有一些成熟的 ES 中文分词插件,但在分词引擎准确率上,相信 BosonNLP 的中文分词能满足大家不同领域上多样化的需求。有兴趣的朋友可以查看11款开放中文分词引擎大比拼。 接下来,3分钟教会大家如何安装使用玻森 ES 中文分词插件 Beta 版(以 ES 2.2.0 版本为例): 安装 只需如下一个命令: $ sudo bin/plugin install https://github.com/bosondata/elasticsearch-analysis-bosonnlp/releases/download/1.3.0-beta/elasticsearch-analysis-bosonnlp-1.3.0-beta.zip 注:对于其他不同版本的 ES,只需要在命令里更换对应的插件版本号即可。 使用 需要在elasticsearch.yml文件中的...

这一次,我赌AlphaGo胜

相信大家对一月底《Nature》杂志的封面文章,Google DeepMind团队的AlphaGo程序战胜围棋职业选手樊麾的新闻还记忆犹新。从下周三(3月9日)开始,AlphaGo与传奇棋手李世石的比赛将于韩国首尔拉开帷幕。这一次,我赌AlphaGo胜。 在《Nature》杂志刊登出AlphaGo程序论文《Mastering the Game of Go with Deep Neural Networks and Tree Search》后的第二天,玻森数据内部做了一个技术讨论,分析AlphaGo的实现细节及该成果的影响。下对讨论内容作一个简要总结。一家之言,作为与李世石这场巅峰之战的暖场,供对人工智能或围棋有兴趣的朋友参考。 虽然该新闻出来后网上产生了各种质疑,但我们认为AlphaGo在围棋AI上的跨越式突破无可置疑,无愧于一个里程碑式的结果。 不论是从博弈算法,还是深度学习,该论文没有理论上的突破。里面所用到的三大算法:基于卷积神经网络(Convolutional Neural Network, CNN)的预测学习在2008年就被提出;基于模特卡罗树搜索(Monte-Carlo Tree Search, MCTS)于2006年就被应用于围棋;而机器自己与自己左右互搏的增强学习算法(Reinforcement Learning, RL)的提出更可以追溯到上世纪八十年代。 既然都是基于已有的算法框架,那是不是看了论文后我也可以实现一个简单的达到职业棋手水准的BetaGo呢?难!目前AlphaGo在棋力上的突破是由很多细节的,比如13层的Policy network如何初始化,如何选择每层卷积规模,采用什么样的优化算法等。文中提到的网络训练都是采用50块显卡GPU并行计算,训练时间在一个月左右。如果只有一块可怜的显卡?呵呵。大量的工程细节和硬件开销很有可能让第三方重现一个具备职业水准的BetaGo或DeltaGo变得困难。 那么为什么我会赌这次巅峰对决AlphaGo更有可能胜出呢?有以下几个原因: 根据DeepMind CEO Demis Hassabis 的介绍,AlphaGo项目正式成立不到两年,成规模的投入也就是一年左右的时间。做过机器学习的朋友应该知道,将一个50%预测准确率的程序提升到60%的难度往往小于将90%的准确率提升到91%。一个年轻的项目,本身预示着有较大的改进空间。 AlphaGo目前的三个主要部分的程序,也就是前文提到的CNN, MCTS, 和RL可以被独立地改进和提升,整个程序的棋力都将会直接受益。这非常适宜于DeepMind这种20人规模的集团军对程序进行优化,并行优化,逐个击破。 几个数据: a) 192 v.s. 256:上图所反映的是Policy network中采取不同规模的filter得到的胜率。文中提到实际使用192个filters进行测试。这里选择192个filters而非准确率更高的256 filters,很有可能是速度与准确性的一个平衡,因为更高准确率的方案Policy netowrk预测开销大约高了10.5倍。 b) 280 GPU: 上面这个图很有意思。直观来讲,虽然AlphaGo进行了相当大量的算法调优,如果采用单线程,8 GPU,其Elo分值大约在2200分,换算下来大约是一个业余7段左右的水平,真正使得AlphaGo表现出最强战斗能力的是其分布式版本:采用64线程,280个GPU版本得分约3200。如果采用一个十倍规模的集群,或采用特定FPGA硬件优化,我们有理由相信,分数上还能够有显著的提升。 这个围棋和人工智能史上里程碑的战役到底结果如何?下周,我们拭目以待!...

界面新闻联合BosonNLP 年度6万新闻大盘点

农历初一给大家拜年啦! 回顾纷繁的2015,大家是不是好奇自己看了哪些新闻,又错过了哪些热点呢?我们携手界面新闻为大家带来最干货的年度6万篇新闻盘点,快来看看那个喜欢在凌晨读思聪新闻的是不是你?...

机器人写诗竟然到了这个水平!

昔日辉煌的电影雄狮米高梅公司在提出自己的拉丁文口号“ars gratia artis”,即英文“art for art’s sake(艺术的归艺术)”的时候,一方面主张艺术内在的自主性与内在价值,另一方面也毫不含蓄地表达了作为艺术创作者的骄傲。在上世纪四十年代,这头雄狮标志一度成为了美国的象征。 2010年,这只创立了86年,被几经转手的骄傲雄狮最终没有逃离破产清算的命运。应该说,造成雄狮的悲剧命运原因是多方面的,电视工业的兴起,管理层动荡等都将其推向了衰落深渊。昔日“art for art’s sake”口号一方面难于经受商业逻辑的考验,而可能更令米高梅始料未及的是,作为人类智慧与创造力浓缩体现的艺术创作本身,也在越来越多的被机器所辅助完成,甚至取代。 回顾过去二十年人工智能的发展,从1997年IBM深蓝在国际象棋的竞技上战胜人类世界冠军Garry Kasparov,到2015年德国科学家Gatys等人通过深度神经网络将任意图画转化成特定艺术家的风格,成果卓越。人类所引以为豪的创造及艺术领域正在不断受到挑战,技术与艺术的界限日益模糊。 语言能力从来都是人类的重要天赋,而对自然语言的语义理解也一直是玻森数据所致力解决的核心难题。今天,玻森机器人通过对唐诗文本的学习,能够自如地创作唐诗风格的诗篇。 在通过深度神经网络技术学习了全唐诗五万首后,玻森的编诗机器人可以根据不同的风格,甚至是不同的起首字,自动、实时、随机的生成一首唐诗风格的诗篇。并且为生成的诗篇进行评分! 春节即将来临,让“编诗姬”为您的每位亲朋好友都送上一篇独一无二的佳节诗篇,表达你特别的祝福。记得选一首高分诗篇进行分享哦~ 戳我把玩编诗姬...

玻森新闻自动摘要算法简介

在《一张图看懂自动摘要》中,已经为大家简要勾勒了自动摘要技术。在这篇文章中,将要详细谈一谈自动摘要算法实现,以及玻森进行的优化。 如前文所说,自动摘要可以分为笼统式和查询式。由于查询式摘要的应用场景较为特定,笼统式摘要成为现阶段主流,它也能在很大程度上满足人们对摘要的需求。因此玻森的新闻摘要是笼统式抽取摘要。 玻森采用的是最大边缘相关模型(Maximal Marginal Relevance)的一个变种。MMR是无监督学习模型,它的提出是为了提高信息检索(Information Retrieval)系统的表现。例如搜索引擎就是目前大家最常用的信息检索系统。大家可能经常会碰到,对于我们输入的一个关键词,搜索引擎通常会给出重复的或者内容太接近的检索的情况。为了避免这个现象,搜索引擎可以通过MMR来增加内容的多样性,给出多方面考虑的检索结果,以此来提高表现。 这样的思想是可以被借鉴用来做摘要的,因为它是符合摘要的基本要求的,即权衡相关性和多样性。不难理解,摘要结果与原文的相关性越高,它就接近全文中心意思。而考虑多样性则使得摘要内容更加的全面。非常的直观和简单是该模型的一个优点。 相比于其他无监督学习方法,如TextRank(TR), PageRank(PR)等,MMR是考虑了信息的多样性来避免重复结果。TR,PR是基于图(Graph)的学习方法,每个句子看成点,每两个点之间都有一条带权重(Weighted)的无向边。边的权重隐式定义了不同句子间的游走概率。这些方法把做摘要的问题看成随机游走来找出稳态分布(Stable Distribution)下的高概率(重要)的句子集,但缺点之一便是无法避免选出来的句子相互之间的相似度极高的现象。 而MMR方法可以较好地解决句子选择多样性的问题。具体地说,在MMR模型中,同时将相关性和多样性进行衡量。因此,可以方便的调节相关性和多样性的权重来满足偏向“需要相似的内容”或者偏向“需要不同方面的内容”的要求。对于相关性和多样性的具体评估,玻森是通过定义句子之间的语义相似度实现。句子相似度越高,则相关性越高而多样性越低。 自动摘要的核心便是要从原文句子中选一个句子集合,使得该集合在相关性与多样性的评测标准下,得分最高。数学表达式如下。 $$ \mathrm{MMR = arg\ \underset{D*{i}\in R \setminus S}{max}\left [ \lambda sim*{1}\left (D*{i}, Q \right ) - \left ( 1 - \lambda \right )\underset{D*{j}\in S}{max}\ sim*{2}\left ( D*{i}, D_{j} \right )\right ]}$$ 需要注意的是,D,Q,R,S都为句子集,其中,D表示当前文章,Q表示当前中心意思,R表示当前非摘要,S表示当前摘要。 可以看出,在给定句子相似度的情况下,上述MMR的求解为一个标准的最优化问题。但是,上述无监督学习的MMR所得摘要准确性较低,因为全文的结构信息难以被建模,如段落首句应当有更高的权重等。为了提高新闻自动摘要的表现,玻森在模型中加入了全文结构特征,将MMR改为有监督学习方法。从而模型便可以通过训练从“标准摘要”中学习特征以提高准确性。 玻森采用摘要公认的Bi-gram ROUGE F1方法来判断自动生成的摘要和“标准摘要”的接近程度。经过训练,玻森在训练数集上的表现相对于未学习的摘要结果有了明显的提升——训练后的摘要系统F1提高了30%。值得一提的是,在特征训练中,为了改善摘要结果的可读性,玻森加指代关系特征,使得模型表现提高了8%。摘要引擎的具体调用API可以参见文档。 if (!document.getElementById('mathjaxscript_pelican_#%@#$@#')) { var align = "center", indent = "0em",...

一张图看懂自动摘要

现在登录玻森数据注册即可以获得包括新闻摘要在内的11个自然语言引擎调用账号哦!...

11款开放中文分词引擎大比拼

在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。 一提到自动分词,通常会遇到两种比较典型的质疑。一种质疑是来自外行人的:这件事看上去平凡之极,好像一点儿也不“fancy”,会有什么用呢?另一种质疑则是来自业内:自动分词研究已经进行了数年,而网上也存在各种不同的开放分词系统,但对于实际商用似乎也未见一个“即插即用”的系统。 那么,目前常见的开放分词引擎,到底性能如何呢?为了进行测试,我们调研了11款网上常见的并且公开提供服务的分词系统,包括: 分词的客观量化测试离不开标注数据,即人工所准备的分词“标准答案”。在数据源方面,我们将测试分为: 新闻数据:140篇,共30517词语; 微博数据:200篇,共12962词语; 汽车论坛数据(汽车之家)100篇:共27452词语; 餐饮点评数据(大众点评):100条,共8295词语 准确度计算规则: 将所有标点符号去除,不做比较。 参与测试的部分系统进行了实体识别,可能造成词语认定的不统一。我们将对应位置替换成了人工标注的结果,得到准确率估算的上界。 经过以上处理,用SIGHAN分词评分脚本比较得到最终的准确率,召回率和F1值。 以上所有数据采用北大现代汉语基本加工规范对所有数据进行分词作为标准。具体数据下载地址请参见附录。通过这四类数据综合对比不同分词系统的分词准确度。 上图为参与比较的10款分词引擎在不同数据的分词准确度结果。可以看出,在所测试的四个数据集上,BosonNLP和哈工大语言云都取得了较高的分词准确率,尤其在新闻数据上。因为庖丁解牛是将所有可能成词的词语全部扫描出来(例如:“最不满意”分为:“最不 不满 满意”),与其他系统输出规范不同,因而不参与准确率统计。 为了更直接的比较不同数据源的差别,我们从每个数据源的测试数据中抽取比较典型的示例进行更直观的对比。 新闻数据 新闻数据的特点是用词规整,符合语法规则,也是普遍做得比较不错的一个领域。对比其他数据源,有7家系统都在新闻领域达到最高。包括IKAnalyzer、盘古分词、搜狗分词、新浪云、NLPIR、语言云、BosonNLP。并且有三家系统准确率超过90%。 样例:香港 中文 大学 将 来 合肥 一中 进行 招生 宣传 今年 在 皖 招 8 人 万家 热线 安徽 第一 门户 微博数据 微博数据用词多样、话题广泛,并常包含错别字及网络流行词。能够比较全面的体现每家分词系统的准确度。 样例:补 了 battle 赛 峰暴班 的 两 个 弟弟 妹妹 @杨宝心 @修儿 一个 是 我 很 挺 的 好 弟弟 一个 是 我 推荐 进 好声音 的 妹子 虽然 都 在 battle 阶段 都 下来 了 但是 我 依然 像 之前 那样 觉得 你们...

J.D. Power联合玻森数据,建立标准化数据产品Cloud VOC

互联网的发展让过去沉默的消费者主动在网络论坛、社交媒体等平台发言、分享、传播,根据2015年J.D. Power汽车电商满意度研究(AES)显示,77%的用户在有新车购买意向时,会通过互联网查询信息和寻求建议。互联网的影响越来越大,面对现在互联网上大量出现的高质量的汽车评论数据,厂商对产品的管理遭遇到一系列如数据量大实时性强、用户真实性参差不齐、互联网的语言与车厂管理的语言匹配度不高,提取归类内容难度大等问题。互联网上用户评价数据(VOC)愈发成为主机厂产品力管理和改进行动计划制定的重要数据依据之一,如何挖掘出数据背后的价值,这对企业而言不仅是机遇,更是巨大的挑战。 在大数据时代下汽车主机厂需要新的工具来落实和优化产品力管理。J.D. Power联合玻森数据(BosonData)开发新车质量反馈系统,面向整车厂质量管理和产品工程体系,结合其在汽车领域所建立的标准化体系报告,建立标准化数据产品——Cloud VOC。 Cloud VOC的加工过程 使用传统技术对互联网语言进行的定量分析仅限于声量、转发量、词频等简单统计,无法真正实现和厂商管理语言的对接。但J.D. Power的Cloud VOC围绕J.D. Power行业标准管理视角,能提供更为专业和高精度的产品管理数据服务。 互联网中采集的原始数据并非可用样本,需要根据车厂所能解读的管理标准进行清洗、分析、归类、量化等一系列专业加工过程。Cloud VOC每天采集各主要互联网平台中的用户之声数据后进行有效的清洗和归档,以J.D. Power IQS/APEAL/VDS或车厂自有产品管理标准进行数据解读和整理,形成有价值的用户之声,再按主机厂所关注的产品管理象限以量化图标的方式进行用户之声展现,产出动态的产品管理报表。 以这种方式,海量数据被转换为简单的统计表,企业可以直观挖掘出潜藏的问题,从而推出对应的产品策略调整、质量改进计划、市场宣传与营销策略。这才是大数据的真正优势:让产品与服务更加契合用户的真实需求。 Cloud VOC的产品功能 J.D. Power Cloud VOC 从国内主流汽车门户等数据源采取数据,数据来源于自然发生的声音,但同时又提供一致专业的视角。J.D. Power的用户口碑就是线上客户之声收集分析平台,Cloud VOC打破传统调研方法中对于时间(最小到天)和地域(不局限于样本计划)的限制,可根据厂商要求灵活调整策略。Cloud VOC能覆盖更广的行业车型,提供灵活可配置的竞品观察视角,为车厂的产品力管理找到新的分析数据源和数据分析手段,同时Cloud VOC采取SAAS注册模式服务,对车厂而言不需要建设投资和时间,成本更为弹性可控。 互联网解决了商家与消费者之间信息不对称的问题,也使得品牌掌控全局的时代成为过去。知己知彼方可百战不殆,在这个竞争极度激烈的市场,企业唯有了解消费者对产品的评价,并根据其反馈调整市场策略方为上上之策。在这轮大数据的浪潮中,J.D. Power Cloud VOC的推出正是应运而生了。 玻森数据(BosonData) 玻森数据(BosonData)成立于2012年,专注于商业领域的中文语义分析技术和应用产品研发,拥有自主研发的中文分词、句法分析、语义联想和实体识别技术,以及海量的中文语义语料库。通过整合企业内部客服、售后记录、第三方平台用户评论等数据,玻森数据的中文语义分析技术可以对企业数据进行层次化、多维度的分析挖掘,从而帮助企业实时、客观、全面地了解市场与产品,为商业决策、行业研究、产品质量管理提供有力支持。 在2015年由中国计算机学会主办的NLPCC公开赛中,玻森数据领先中科院计算所等20余支参赛队伍,摘得双项第一的桂冠。 现在登录玻森数据注册即可以获得新版引擎无限调用账号哦!...

玻森分词与词性标注揭秘

在九月初BosonNLP全面开放了分词和词性标注引擎以后,很多尤其是从事数据处理和自然语言研究的朋友在试用后很好奇,玻森如何能够做到目前的高准确率?希望这篇文章能够帮助大家理解玻森分词背后的实现原理。 众所周知,中文并不像英文那样词与词之间用空格隔开,因此,在一般情况下,中文分词与词性标注往往是中文自然语言处理的第一步。一个好的分词系统是有效进行中文相关数据分析和产品开发的重要保证。 玻森采用的结构化预测模型是传统线性条件随机场(Linear-chain CRF)的一个变种。在过去及几年的分词研究中,以字符为单位进行编码,从而预测分词与词性标注的文献占到了主流。这类模型虽然实现较容易,但比较难捕捉到高阶预测变量之间的关系。比如传统进行词性标注问题上使用Tri-gram特征能够得到较高准确率的结果,但一阶甚至高阶的字符CRF都难以建立这样的关联。所以玻森在字符编码以外加入了词语的信息,使这种高阶作用同样能被捕捉。 分词与词性标注中,新词识别与组合切分歧义是两个核心挑战。玻森在这方面做了不少的优化,包括对特殊字符的处理,对比较有规律的构词方式的特征捕捉等。例如,近些年比较流行采用半监督的方式,通过使用在大规模无标注数据上的统计数据来改善有监督学习中的标注结果,也在我们的分词实现上有所应用。比如通过使用Accessory Variety作为特征,能够比较有效发现不同领域的新词,提升泛化能力。 我们都知道上下文信息是解决组合切分歧义的重要手段。而作为一个面向实际商用环境的算法,除了在准确率上的要求之外,还需要注意模型算法的时间复杂度需要足够高效。例如,相比于普通的Linear-chain CRF,Skip-chain CRF因为加入了更多的上下文信息,能够在准确率上达到更好的效果,但因为其它在训练和解码过程,不论是精确算法还是近似算法,都难以达到我们对速度的要求,所以并没有在我们最终实现中采用。一个比较有趣的分词改进是我们捕捉了中文中常见的固定搭配词对信息。譬如,如“得出某个结论”、“回答某个提问”等。如果前面出现“得出”,后面出现“结论”,那么“得出”和“结论”作为一个词语出现的可能性就会很大,与这种相冲突的分词方案的可能性就会很小。这类固定搭配也可以被建模,用于解决部分分词错误的问题。 怎样确定两个词是否是固定的搭配呢?我们通过计算两个词间的归一化逐点互信息(NPMI)来确定两个词的搭配关系。逐点互信息(PMI),经常用在自然语言处理中,用于衡量两个事件的紧密程度。归一化逐点互信息(NPMI)是逐点互信息的归一化形式,将逐点互信息的值归一化到-1到1之间。如果两个词在一定距离范围内共同出现,则认为这两个词共现。筛选出NPMI高的两个词作为固定搭配,然后将这组固定搭配作为一个组合特征添加到分词程序中。如“回答”和“问题”是一组固定的搭配,如果在标注“回答”的时候,就会找后面一段距离范围内是否有“问题”,如果存在那么该特征被激活。 归一化逐点互信息(NPMI)的计算公式: $$ \mathrm{npmi\left ( \mathit{x;y} \right ) = \frac{pmi\left ( \mathit{x;y} \right )}{-\log\left [ \mathit{p\left ( x;y \right )} \right ]}}$$ 逐点互信息(PMI)的计算公式: $$ \mathrm{pmi\left ( \mathit{x;y} \right )\equiv \log\frac{\mathit{p\left ( x,y \right )}}{\mathit{p\left (x \right )p\left ( y \right )}} = \log\mathit{\frac{p\left ( x|y \right )}{p\left ( x \right )}}= \log\mathit{\frac{p\left ( y|x \right )}{p\left ( y \right )}}}$$ 可以看出,如果我们提取固定搭配不限制距离,会使后面偶然出现某个词的概率增大,降低该统计的稳定性。在具体实现中,我们限定了成为固定搭配的词对在原文中的距离必须小于一个常数。具体来看,可以采用倒排索引,通过词找到其所在的位置,进而判断其位置是否在可接受的区间。这个简单的实现有个比较大的问题,即在特定构造的文本中,判断两个词是否为固定搭配有可能需要遍历位置数组,每次查询就有O(n)的时间复杂度了,并且可以使用二分查找进一步降低复杂度为O(logn)。 其实这个词对检索问题有一个更高效的算法实现。我们采用滑动窗口的方法进行统计:在枚举词的同时维护一张词表,保存在当前位置前后一段距离中出现的可能成词的字符序列;当枚举词的位置向后移动时,窗口也随之移动。这样在遍历到“回答”的时候,就可以通过查表确定后面是否有“问题”了,同样在遇到后面的“问题”也可以通过查表确定前面是否有“回答”。当枚举下一个词的时候,词表也相应地进行调整。采用哈希表的方式查询词表,这样计算一个固定搭配型时间复杂度就可以是O(1)了。 通过引入上述的上下文的信息,分词与词性标注的准确率有近1%的提升,而对算法的时间复杂度没有改变。我们也在不断迭代升级以保证引擎能够越来越准确,改善其通用性和易用性。今后我们也会在BosonNLP微信账户更多分享我们在自然语言处理方面的经验,欢迎关注! 现在登录玻森数据注册即可以获得新版引擎无限调用账号哦! if (!document.getElementById('mathjaxscript_pelican_#%@#$@#')) {...

玻森分词与词性标注引擎新版上线,全面免费开放!

分词在很多网站平台,APP的开发中都是不可或缺的组件,但网上常见的分词项目,对新词与切分歧义的处理差强人意,甚至缺乏一个统一的词语切分标准。在过去的一年时间里,我们玻森在与很多开发团队的沟通中,不断看到这样的情况上演: 开发者由于项目进度周期等限制,对于分词需求,常常直接在网上搜索到一个可能已经停止维护的分词系统,进行简单测试后,快速集成上线。项目初期一切都看上去良好,但随着数据增多、使用的深入,越来越多的问题不断暴露出来。如集成在网站搜索中,随着项目开展需要手动添加越来越多的特殊判定规则以修复由分词所产生的各种bad case,最终使得项目变得愈发臃肿与维护困难。 为开发者提供高质量的分析引擎,这是我们BosonNLP语义开发平台成立的初衷。自然语言处理(NLP)是一个专业领域,玻森已经有多年的积累。我们希望自己在NLP上花费足够多的时间,从而作为开发者的您不需要在上面花费太多时间。希望您能更多集中在产品和创意,或得闲出门走走,看看这个挺大的世界。 本次分词与词性标注引擎是BosonNLP过去一年最大的升级 我们将服务器从美国迁回了中国,调用速度有成倍的提升 通过不断对算法进行调优,我们成功将分词与词性标注的错误率降低了25%~35% 我们决定将其不加限制,完全免费开放出来 希望能对您有所帮助~ BosonNLP团队 新特性 RESP API模式,SDK与之前调用接口完全兼容 提供不同的分词粒度选项 提供繁简转换与特殊字符处理 现在登录玻森数据注册即可以获得新版引擎无限调用账号哦!...

美女海瑟薇和巴菲特的秘密

自然语言处理和金融量化交易 大数据时代,人们越来越依赖计算机算法收集并处理大量的数据信息,节约人力成本,然而,单靠这些机器计算真的靠谱吗?今天,让我们再扒一扒这个数据时代里的逗比事儿。 新浪财经有篇报道,美国导演丹·马维舒曾发现过一个异乎寻常的现象:只要好莱坞女星安妮·海瑟薇出现在头条,巴菲特的伯克希尔·哈撒韦公司的股价就会上涨。 他以当年海瑟薇在奥斯卡颁奖礼上的主持秀为例,在奥斯卡颁奖前的最后一个交易日以及颁奖礼后第一个交易日,伯克希尔·哈撒韦的股价分别上涨2.02%和2.94%。 再往前追溯,事情变得更有意思,海瑟薇出演的5部电影首映日,伯克希尔·哈撒韦的股价都会上涨。《蕾切尔的婚礼》《结婚大作战》《情人节》《爱丽丝梦游仙境》《爱情与灵药》首映时,伯克希尔·哈撒韦的股价分别上涨了0.44%、2.61%、1.01%、0.74%、1.62%。 海瑟薇和巴菲特究竟是怎么样的关系,莫非是……。如果小编是娱乐小报的记者,一定会忍不住好好挖一挖。 这个现象分析起来也非常有趣。 往往哪个行业最赚钱,最优秀的人才就会往哪个行业跑。于是,世界上最聪明的物理学家和数学家,都跑到了华尔街,这些人被称为“宽客”。随着这些人才一次次的成功,他们开始改变华尔街的交易策略。 宽客建立的数学模型首先对历史股价数据进行分析:那些历史上价格总是朝同一或相反方向波动的、相关联的两只股票,如果价格趋势突然发生了背离,就说明其中一只股票价格可能被高估或低估,电脑程序随之对海量数据进行分析,帮助交易员找到获利机会。 但交易员毕竟只有十根手指头,于是基金公司抛弃交易员,让电脑自己去操作。这些高性能计算机获取市场数据、处理数据,并下达买进和卖出指令,这一切可能是在几毫秒内完成。这种每笔交易获利很小但交易量巨大的交易方式被称作“高频交易”。 宽客们并不满足只对交易数据进行分析和建模,他们想到,如果发生“9·11”这样的事件呢?于是新的算法开始对事件和新闻进行分析,他们分析历史上一个重大消息的宣布会对股市产生什么样的影响。比如当美联储宣布一个重大消息时,高频交易能够在几毫秒的时间内下达交易指令,捕捉获利机会。 印第安纳大学的研究人员曾发现,通过分析推特信息中人们的情绪,可以准确预测股市的涨跌。而高频计算机通过某种算法,实时分析推特和新闻中的信息,做出交易决策。曾有一则假消息在推特发布:白宫发生了爆炸事件,奥巴马在事件中受伤。这导致美国股市瞬间蒸发约1400亿美元。这次恶作剧,让许多使用推特数据的对冲基金被意外曝光。 还是回到开头的“绯闻”。海瑟薇的名字是Anne Hathaway,巴菲特的公司叫Berkshire Hathaway,两者都包含Hathaway这个词,于是,高频交易软件系统自动地将海瑟薇的新闻与巴菲特的公司联系起来,当它发现Hathaway这个词不寻常的变化时,迅速做出了交易策略。 这样,在大数据时代的算法中,巴菲特和海瑟薇就“好上”了。 关系的发生本质上是量化交易程序的bug。进行新闻分析的时候没有使用NLP(自然语言处理)实体识别技术,而是简单的关键词直接匹配。小编忍不住要夸下自家产品了,用BosonNLP做分析,那都不叫事儿。 BosonNLP可以自动准确地识别人名和公司名。直接分析截图奉上。 BosonNLP.com提供一整套高效可商用化的中文自然语言处理系统引擎。其中实体识别引擎能自动识别抽取文本中的时间、地点、人名、组织名、公司名等。结合行业分类模型建立专业非结构化数据库,为专业人士提供数据处理服务! 现在登录玻森数据注册即可以获得新版引擎无限调用账号哦!...

高富帅教授空降玻森引围观

小玻曰:上周为迎接高富帅教授的到来,小编特意向程序猿和攻城狮们恶补了一番词典学习的知识。然并卵,大神们就是拿来给我们膜拜的,年纪轻轻就做出了那么多研究成果,关键是颜值还很高! 哥伦比亚大学电子电气工程系John Wright教授于上周来玻森数据访问交流。John Wright教授在学术界做出了很多重量级的学术成果,包括采用稀疏表述方法进行图片超分辨率、人脸识别算法等。除了在学术界得到认可,John Wright教授也获得了CNN、《连线(Wired)》杂志等媒体的报道关注。他是2012年业内最好的计算学习理论会议COLT的最佳论文得主,也是今年唯一获得IEEE PAMI Young Researcher Award奖项殊荣的学者。 John Wright教授本次访问与玻森小伙伴们分享了他和学生近期在词典学习(Dictionary learning)问题上的重大突破,证明了这类非凸函数的优化问题,可以通过多项式优化算法获得最优解,信号的非零元素允许与词典大小线性增长,达到该问题的理论极限。该问题在图像表示、图像压缩、文本主题模型等领域具有重要的应用价值。 在分享词典学习问题之余,John Wright教授也跟小伙伴们就做研究的方法、自然语言处理等问题进行了讨论,并邀请玻森团队有机会到纽约参观其实验室,进行研究合作。 以下是本次讲座的部分照片。...

号外:玻森数据夺得NLPCC大赛双项第一

小玻曰:在目前这个言必称大数据、智能分析的创业大时代,大多数团队仍然奉行故事先行、概念先行的原则。但真正在自然语言处理、统计学的核心研究领域,是一个稳步积量为质,而非大跃进的过程。 中文自然语义技术哪家强?我们! 2015年5月,玻森团队参加了由中国计算机学会主办的自然语言处理公开赛。在中文分词与词性标注两项比赛中,击败了中科院计算所、南京大学、北京邮电大学、武汉大学等20余支队伍,以96.65%与91.55%的准确率,错误率低于第二名25%与24%的成绩摘得双项第一的桂冠。 玻森数据专注于自然语言处理和开发,自2014年5月推出中文语义开放平台以来,已经成功吸引了上千名开发者进行注册使用。 由于中文的书写形式不像英文在词语之间有显示的空格进行分割,导致在进行几乎所有中文自然语义处理时分词都是必不可少的步骤,而由于切分歧义与新词识别的问题,相比英文处理的难度增加了很多。而本次NLPCC分词比赛的重点:微博类非书面语言的分词进一步增加了该问题的难度,比如对于句子“3座石像分别是苏富比拍卖行归还的难敌石像”,好的分词与词性标注引擎需要自动识别苏富比为一个组织机构,“难敌”是一个特殊名词,才能产生正确的分词与词性标注“3/CD 座/M 石像/NN 分别/AD 是/VV 苏富比/ORG 拍卖行/NN 归还/VV 的/DSP 难敌/NR 石像/NN”。 其实,中文自然语言分析不仅于此哦,在BosonNLP平台上还有超过10种分析引擎及使用案例,欢迎客官来赏。...

玻森讲习会第三课:信息系统与风险控制(美、日风控软件介绍)

玻森讲习会目前已经进行到第三讲啦!本次是第一季主题为“风控与信息”的第三课——信息系统与风险控制(美、日风控软件介绍)。本次由玻森数据的金琦童鞋为小伙伴们讲授了P2P(Procure to Pay)系统是如何影响到公司的风控以及采购付款制度的一系列知识。 金琦童鞋拥有复旦大学物理系学士学位以及德国埃尔兰根-纽伦堡大学计算工程硕士学位。曾任Birchstreet System亚太区业务主管,负责为亚太地区数十家五星级酒店提供P2P系统的咨询、实施、与应用培训服务。 在5月13日的讲习会上,金琦不但讲述了基础的P2P中的采购付款供应等流程,还结合自身经历总结出了各个国家公司信息系统管理的特点并设置了互动环节让小伙伴们讨论竞猜。玻森的童鞋们纷纷开动脑筋积极发言,在揭晓答案的那一刻,有判断准确的喜悦同时也伴有不可思议的惊呼。会后不少人赞叹金琦为大家分享的案例既生动有趣又贴近实际。 以下是讲习会的部分照片。...

玻森讲习会第二课,著名律师现身谈司法

玻森讲习会本周继续开讲啦!本次是第一季主题为“风控与信息”的第二讲——司法基础知识与业务流程。我们有幸邀请到了业界资深著名律师周蔚来到了玻森数据上海办公室,为玻森的小伙伴们讲授了民事诉讼司法文书及诉讼流程。 周蔚律师现任上海市农工民主党联络委委员,具有近20年法律从业经验,担任众多世界500强企业、外商投资企业及国内企业的法律顾问。周蔚律师曾办理的中国某起重大破产案件,入选过中国最高人民法院案例选。同时,周蔚律师参与编撰了《中国劳务管理手册》一书,在《中国法令》等多个国内外刊物上发表过法律论著,并多次获得嘉奖。 在4月22日的讲习会上,周大律师不但讲述了基础的理论知识,还结合自身的经历与几个不同的民事诉讼案例加深玻森小伙伴的理解。虽然玻森的童鞋们多半是攻城狮、程序猿,平时与法律的交集较少,但会后不少人赞叹周律师“将枯燥的法律讲解的非常生活化”,连IT背景的人都能“秒懂”。 以下是讲习会的部分照片和视频。...

玻森主题讲习会开班啦,董事长开讲“风控与信息”

秉着提升玻森小伙伴跨领域知识储备、丰富业余生活的目标,玻森数据开展了玻森讲习会的定期活动,分主题由各领域的资深人士进行授课演讲。 4月15日是讲习会的第一次活动。玻森数据董事长纪敏先生开讲,发表了“风控与信息”的主题演讲。纪敏董事长曾任普华永道高级经理、第九城市财务总监、海隆控股有限公司执行董事兼首席财务官等职位。曾负责数十个企业上市及并购项目,具有丰富的投融资及财务与经营风险控制。 悄悄滴透露一句,业界如果要请到纪敏先生开讲可是不容易哦。玻森的小伙伴也算享受了一把公司福利^_^ 以下是讲习会的部分照片。 玻森讲习会后期内部讲习课程一览 企业风险控制 司法基础知识和业务流程及信息化文本处理 中外政府信息公开 美日风控企业和软件现状 玻森的小伙伴们纷纷表示已经等不及了!...

挖掘机技术哪家强?我们要做挖掘机中的蓝翔!

敢做,敢想…… 我们想,在NLP蓝海打造一艘航空母舰; 我们想,成为非结构化数据处理的答案; 我们想,找到运筹帷幄、高瞻远瞩的你; 有人说: 梦想还是要有的,万一实现了呢? 我们说: 梦想一定要有,我们一起去实现。 我们需要…… 自然语言处理工程师 职责: 负责分词、词性标注、依存文法分析、信息提取,挖掘等技术研发; 结合自然语言处理技术,设计适当的实施算法;技术实现,算法实验; 要求: 具有丰富的自然语言处理专业知识,熟练掌握各种数据挖掘的算法与技术处理经验; 熟练掌握相关的开发工具和程序设计语言,具备良好的数学和统计学基础; 熟悉自然语言处理、机器学习、模式识别等常用算法,对NLP方向有浓厚兴趣; 熟悉信息检索基本概念,有文本挖掘 、知识系统等方面的研究与开发经验; 前端工程师 职责: 根据产品原型开发前端代码,解决不同浏览器及不同版本的兼 容性问题 根据开发文档调用API,与同事共同完成计划目标 要求: 有前端开发经验,熟悉JavaScript、CSS,HTML,HTTP协议 熟悉Angular.js、Backbone.js、Bootstrap者优先 有Node.js或Python开发经验者优先 有团队协作精神,善于沟通和学习,乐于探索 后端工程师 职责: 负责语义分析核心产品相关的REST API、后端存储、分析工具相关研发 参与核心数据分析平台、语料平台等研发工作 要求: 具有良好的算法和数据结构基础 具有较强的编程能力,熟练使用Python/Java/C#/C++之一 对Web开发、分布式系统有一定了解 数据采集工程师 职责: 配合团队完成爬虫系统框架搭建 设计分布式爬虫与系统调优 按照项目需求,设计模板提取网页中的元数据 设计高性能的数据库存储 要求: 熟悉Python/C++/Java语言 熟悉正则表达式/XPath 对分布式系统有一定理解 有垂直/新闻/电商类网站抓取经验优先 数据分析师 职责: 对社会化网络媒体以及所服务的客户行业/品牌/产品相关知识的持续了解和积累 会拟写研究方案设计和研究咨询建议书 根据项目设计,启动和执行研究项目,协调技术方面的准备工作 独立或者和其它团队成员一起高质量高效率地准时完成研究报告 参与研究报告的演示,和客户一起讨论沟通研究成果和营销建议 积极参与网论资讯整理,行业研究等临时小组,以及公司和团队的活动 要求: 本科或以上学历,市场营销,企业管理,社会学,新闻学,心理学,广告学等相关专业为佳; 拥有6个月以上相关网络分析或市场研究的学习实验或实习经验 了解网络媒体及网络产业,并有浓厚兴趣和持续的研究热情; 具有良好的数据分析和多项目管理能力,对自己的分析和报告要求严谨; 可以根据项目要求和上级指导,独立完成项目研究和报告撰写; 良好的电脑应用能力,熟练使用各类办公软件; 经常参与BBS论坛讨论,使用各类网络社会化媒体,和持续撰写个人博客的优先 热衷于发现纷乱数据中的价值; 希望和业内资深队友一同战斗; 有着不断进行过程优化的狂热; 还等什么,立即加入我们吧!!! 联系方式 邮箱:jobs@bosondata.com.cn 网站:bosonnlp.com 电话:021-52671092 地址:上海市安福路288号12楼 了解更多关于公司的团队和内部环境...

行业揭秘:大数据从何而来?

当今时代,信息的数字化技术正在引发一场范围广泛的革命。这是小编分享给大家的第一期玻森数据独家干货:数据是从何而来的呢?敬请期待下一期的如何处理和利用非结构化数据。 更多精彩,更多信息,BosonNLP与你分享。 欢迎关注我们的官方微博...

玻森数据:从海量文本中挖掘商业价值

一 互联网行业从不缺乏热词。近年迅速升温的,除互联网思维外,便是大数据。 无论身在 IT 还是传统产业,所有企业都恨不得用大数据武装自己。不得不承认,这种奇异的全民大数据的现状,一方面反应了行业心态的浮躁,另一方面也折射出企业希望把握科技浪潮的焦灼。如今多达 80% 的商业数据都以文本、图像等「非结构化」的形式存在,如何挖掘出数据背后的价值,这对企业而言不仅是机遇,更是巨大的挑战。 在这轮大数据的浪潮中,许多企业已然在数据采集与储存上投入大量人力物力,但却往往忽视了一个重要的问题:大数据意味着涉及资料规模巨大,数据结构复杂,无法仅通过传统分析工具和手段将其整合为直观、有用的分析结果。建造数据农场本身并不会为企业带来实际利益;与此相反,盲目抓取与储存数据只会增加运营成本。这也意味着,许多企业其实并未意识到,也不知应该如何在最大程度上发挥数据的价值。 大数据的战略意义并非掌握庞大的数据信息,而是对这些包含意义的数据进行专业处理。商家需要从数据中读出消费者对自己的反馈;拥有只是前提条件,让机器读懂数据,处理、挖掘提炼出数据中的价值,才是最终要达到的目的。 这便是玻森数据正在解决的问题。 二 通过整合企业内部客服、售后记录、第三方平台用户评论等数据,玻森数据的语义分析技术可以对企业数据进行层次化、多维度的分析挖掘,从而帮助企业实时、客观、全面地了解市场与产品,譬如消费者对产品改进意见反馈、集中投诉的问题、以及客户流失原因等。 2013 年,玻森数据荣获国家科技型中小企业技术创新项目基金。 2014 年 3 月,玻森数据旗下中文语义开放平台 BosonNLP上线,首次将真正意义上的人工智能语义识别技术运用到商业服务中。 从核心的语义分析引擎角度讲,我们是国内第一家提供完整商用语义分析引擎的公司。玻森数据联合创始人闵可锐谈到,虽然公司成立时间并不长,但在语义分析方向引擎和数据的积累已经超过 8 年。 作为一家拥有核心人工智能技术的大数据公司,玻森数据专注于提供非结构化数据的分析引擎及解决方案。凭借自主研发的自然语义识别分析系统、情感分析系统、图像识别系统等人工智能技术,如今的玻森数据已经在网络监测、市场调研、精准营销等多个领域中崭露头角。 互联网解决了商家与消费者之间信息不对称的问题,也使得品牌掌控全局的时代成为过去。知己知彼方可百战不殆,在这个竞争极度激烈的市场,企业唯有了解消费者对产品的评价,并根据消费者反馈做出市场策略调整,产品改进方为上上之策。 而要深入分析网上众多的用户评价,语义分析是不可或缺的关键技术。我们可能用过类似围脖关键词的应用来自动提取并显示文本的核心词语,从而达到辅助分析的目的。玻森在此基础上迈出了一大步。作为专注于中文语义分析领域公司,玻森拥有一整套自主研发的自然语义分析系统,通过机器学习方法对海量互联网文本进行分析学习建模,从而实现从分词、词性、句法、实体等一系列角度对文本的综合分析。 如此看来,摆在玻森面前的是一个广阔的市场:退可帮助公司新闻监测、品牌分析产品口碑;进可作为技术与解决方案提供商,面向不同行业提供定制服务,与第三方公司和企业携手建立产品分析模型。举例来讲,商家想树立品牌形象,就必须时刻了解顾客反馈,从多种维度分析顾客心理,尤其是跟踪顾客的负面评价内容。这便需要用到文本情感分析。 三 简单来说,情感分析指对文本中情感的倾向性和评价对象进行提取的过程。 传统广告、监测公司往往低估该任务的难度,通常采用正负面词典的方法来对一篇文章进行判定,通过简单地计算文本中出现的正面词语和负面词语的个数来给出判断文章的情感倾向。这种方式忽略了词语之前的搭配、上下文、一词多义等情况,准确率难以达到商业应用的级别。闵可锐表示,想做到精确辨析文本含义,就要着眼于整体句法,而非简单依赖几组关键词。玻森采用智能学习算法,让机器自动学习词语相关性并挖掘语义关联词汇;这也是它与传统分析算法的最大区别。 谈及机器学习,许多人对其概念存在误读。机器学习并非让机器模仿人类大脑思考,而是教会机器逐级处理信息,并根据上下文进行相应修正。在文本处理方面,这一过程指让机器「明白」词语间的相互关联,最终理解词语在句中的真实含义。 玻森使用大规模训练数据标注+高效特征挖掘算法的模式,试图在大量文本训练的基础上让机器最终实现自主识别。数据标注相当于为机器提供学习样例,譬如「我今天很高兴→正面」,「我今天不开心→负面」;而算法可以在众多语言特征量当中找到对情感判断最有效的信号。通过机器自动学习与初始人工标注,目前玻森的通用情感分析准确率可达 85%。 这并非情感分析技术的全部。玻森的情感引擎并不仅是给出非黑即白的正面或负面结果,而且会提供其正负面的程度,从而可以从海量评价中自动提取最正面和最负面的内容,方便客户快速作出改进。 当然,企业需要的数据分析维度往往不是单纯的情感分析。这便涉及到了玻森的第二类业务,即非结构化数据解决方案。 四 虽然目前仍处在起步阶段,但非结构化数据价值挖掘是一个需求广泛的领域。 传统行业从未面对过如今这样复杂的消费者群体。借助互联网,消费者彼此之间分享信息,一条评价中的赞扬与批评可能被数十甚至数百倍放大。 有别于传统调研问卷的固定模式,如今消费者在网上写下的评价更加复杂。缺乏引导的反馈往往缺乏条理,一条评论中,产品、服务、环境多个方面互相交织,积极与负面反馈参杂不清,网络热词等非规范化语言也会大量出现。这种由自然语言写就的文本为数据分析带来了极大挑战。 针对这种情况,玻森通过与客户沟通,在掌握客户分析需求和分析目的基础上,综合文本分类、聚类、情感、信息提取等多种分析引擎进组合运用与建模,从而提炼特定对象中的有效数据,使用户洞察更为真实。例如企业希望了解消费者网络反馈意见,首先从海量数据中总结顾客集中反馈的方面,将其归为不同类别;再通过信息抽取将用户点评归类到所属内容中,最后通过情感分析进一步区分其正面或负面内容。 以某品牌反馈为例,不难看到顾客评价中糅合了多种内容。经过综合分析,其中「旁边有个女服务员还拿眼睛白人」被归为「服务管理」类别,并被判定为服务管理的负面内容。 以这种方式,海量数据被转换为简单的统计表,企业可以直观挖掘出潜藏的问题,从而推出对应的市场宣传与营销策略。这才是大数据的真正优势:让产品与服务更加契合用户的真实需求。 五 作为一家技术与数据驱动的公司,闵可锐表示,数据是玻森的核心资产,我们内部专门有平台和团队不断进行数据完善。 无需多言,要实现精准的机器分析,除了准确高效的引擎外,背后必定离不开庞大的数据与样例支持。玻森数据的竞争力之一就在于其自主研发的千万级中文语料库,其中包括微博、新闻语料、广播语料和论坛语料四个部分,可有效覆盖常见的词语和语法结构。 如今人们每年在网络上分享的内容相当于过去几年的数量,对大数据与人工智能的谈论已久,而市场需要有公司拿出真正有价值的产品。谈及行业背景,玻森表示,国内公司大多直接做到产品端,例如提供舆情分析软件,而鲜有公司提供底层技术和解决方案。即便是拥有处理结构化数据的 BI 团队的大型电商,在处理非结构化数据上也仍处于初级阶段。 许多公司在看过我们的应用案例后,才知道数据的价值以及可挖掘的深度。总结其原因,闵可锐认为当前市场仍处于启蒙时期。因此,玻森的近期目标并非是与其他公司展开竞争,而是帮助市场了解非结构化数据的价值以及实现流程。 如今的玻森正致力开发品牌标准化报告,即在不经人工干预的前提下采集品牌相关数据,并利用语义分析引擎自动生成数据分析报告,将内容分类、情感分析、流失原因分析等以最简明直观的方式呈现给客户。未来将针对不同行业开发标准化分析报告,在短时间、低成本的前提下让客户了解品牌相关情况,形成决策信息。 这只是玻森应用的冰山一角。背靠大数据和云计算,通过可灵活扩展的语义解决方案,自然语义分析还可以实现相似话题聚类、典型意见抽取、过滤噪音歧义等多种功能。未来无论在市场研究、舆情监测,还是电子商务、金融投资领域,语义分析都将拥有不可替代的位置。...

后会无期 VS 小时代3

后会无期和小时代3的争夺战告终,我们特地用自家的神器给他们做了对比分析。用理性的方式印证了感性的的观点。真相就是——韩寒和郭敬明这哥俩形影不离!...