【51CTO.com原创稿件】
WOT2016大数据峰会将于2016年11月25-26日在北京粤财JW万豪酒店召开,届时,数十位大数据领域一线专家、数据技术先行者将齐聚现场,在围绕机器学习、实时计算、系统架构、NoSQL技术实践等前沿技术话题展开深度交流和沟通探讨的同时,分享大数据领域***实践和最热门的行业应用。
郭文涛,2011年毕业于西安交通大学自动化专业。2011年7月加入百度凤巢算法团队,参与广告点击质量、用户行为建模相关工作。2014年加入京东广告部,负责京东展示广告相关算法工作,主要负责广告触发以及模型排序、推荐系统等相关工作。
郭文涛是京东展示广告负责人,在此次WOT大会上将为大家带来“深度学习在推荐系统中的应用”的主题演讲,还请各位密切关注哟!会前,我们对他进行了采访,让我们来听听专家对深度学习的看法。
1、作为国内知名的互联网平台,您认为京东广告面临的***挑战是什么?目前是如何解决的?
京东广告部面临***的挑战是数亿用户和数十亿量级的商品,以及数据稀疏问题。在从传统模型转向DNN的过程中,面临超大规模深度网络的问题。经过同事们的不断探索,创新的提出LR+DNN的模型很好的解决了该问题,该模型已于去年年底上线。模型结构与google公布的wise&deep结构有类似之处,但更加灵活。相比他们公布时间,我们提前上线了半年多。另外相比离散的全连接网络,参数规模更小,更容易训练,模型更加稳定。
2、京东广告目前都应用了哪些大数据软件或算法来进行计算?效果如何?
京东广告部广告产品非常丰富,各个技术团队因为业务场景的不同使用得算法和框架也不尽相同。实时用户画像相关用到了kafka、storm、redis等方案能够实现秒级的数据更新。排序模型训练用到了参数服务器、theano、tensorflow等工具实现自研的深度网络。
3、在海量计算方面,您有何经验与大家分享?
海量数据中一定蕴含着金矿,但是噪声的比例更大。我认为如何使用这些数据从中挖掘出有用的信息更为重要,简单讲就是结合领域专家知识与机器学习算法挖掘海量数据的金矿。结合自己的使用场景、更准确的建模使用场景,利用海量数据,做到数据驱动业务的闭环就能获得质的提升。
4、大数据挖掘方面是否用到了GPU?
我们在推荐系统中的多个子模型以及推荐算法中均用到了GPU。
5、从互联网企业用户角度出发来看,发表一下您对开源技术的看法。
在我看来,企业或者业务线在不同阶段应该采取的策略不同。一般来讲早期为了快速搭建系统,应尽可能的采用社区完善的开源方案。当业务规模到一定阶段之后(团队相对成熟起来),经常会遇到性能较差等问题,这时候就应该考虑开源基础上改造或者自研的方式。
6、您认为未来值得关注的技术有哪些?请谈谈对这些技术的看法。
首先肯定是深度学习的发展以及在各个领域的应用,例如:CNN和RNN图像识别,NLP应用中所发展出越来越有效的方法和技巧。其次就是无监督学习领域,深度学习现在成功应用的领域基本都有海量的标注样本,例如图像领域有imagenet数百万的标注数据,广告、推荐系统更是有海量样本。而很多领域都是无法获得如此海量标注样本,因此能否利用无监督学习从中学习到有有意义的表示就非常重要。
7、在产品研发及团队建设方面,您有何经验可以与我们分享?
在互联网的产品研发方面,网上有很多专家的经验非常值得学习。作为研发同学一定要有产品的思维来优化自己的算法和架构。需要经常去使用自己的负责的产品,把自己完成当成一个用户来体验产品,然后需要根据这些体验的反馈来优化算法。
团队建设方面,我个人觉得就是尽可能***化个人与团队目标交集,使得个人和团队都能够快速成长。特别对于一个纯粹的算法团队来讲,更是如此。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】