• 候选企业:中远海运能源运输股份有限公司 2019-05-17
  • 人民网家居频道互动合作联系方式 2019-05-10
  • 【我是援藏教师】这一次,带上女儿去支教 2019-05-07
  • 第四届中华健康节启幕:引领全社会正确的健康养生理念 2019-05-07
  • 定陶战役:示弱于敌重点围歼的范例 2019-05-01
  • 大国担当!中国引领全球气候治理(在习近平新时代中国特色社会主义思想指引下——新时代新作为新篇章) 2019-04-29
  • 合肥市人大常委会副主任吴利林到皖维集团调研 2019-04-21
  • 党的十九大最重大的理论成就 2019-04-16
  • 大数据杀熟,别急着甩锅 2019-04-16
  • 沁园春 春色—野夫.blog的博客—强国博客—人民网 2019-04-10
  • 河北经济日报官方微信 2019-04-10
  • “日照”河山汉字摩崖石刻 2019-03-27
  • 不动产登记全国联网 房价会下跌吗? 2019-03-27
  • 外交部举行中外媒体吹风会:王毅介绍上合组织青岛峰会情况 2019-03-17
  • 对中国人民而言,腐败就是从天上掉下来的,不是从人民群众中滋生出来的。 2019-03-17
  • 楼主: 数术
    1915 17

    3d最准的中奖选号规律: GitHub 干货 | 各大数据竞赛 Top 解决方案开源汇总 [推广有奖]

    学科带头人

    9%

    还不是VIP/贵宾

    -

    TA的文库  其他...

    Excel学习笔记

    经管职场

    投资,最重要的事

    威望
    2
    论坛币
    2069 个
    学术水平
    316 点
    热心指数
    397 点
    信用等级
    293 点
    经验
    37224 点
    帖子
    489
    精华
    11
    在线时间
    372 小时
    注册时间
    2015-9-10
    最后登录
    2019-5-14

    楼主
    数术 在职认证  发表于 2018-11-14 12:33:28 |只看作者 |倒序
    现在,越来越多的企业、高校以及学术组织机构通过举办各种类型的数据竞赛来「物色」数据科学领域的优秀人才,并借此激励他们为某一数据领域或应用场景找到具有突破性意义的方案,也为之后的数据研究者留下有价值的经验。

    Smilexuhc 在 GitHub 社区对各大数据竞赛名列前茅的解决方案进行了整理,包括纯数据竞赛、自然语言处理(NLP)领域数据赛事的 Top 解决方案。对这些赛事感兴趣的小伙伴可以一起来看一下这篇干货满满的汇总贴:


    纯数据竞赛


    1.2018 科大讯飞 AI 营销算法大赛
    本次大赛要求参赛者基于提供的讯飞 AI 营销云的海量广告投放数据,通过人工智能技术构建来预测模型预估用户的广告点击概率。比赛提供了 5 类数据,包括基础广告投放数据、广告素材信息、媒体信息、用户信息和上下文信息,总共为 1001650 初赛数据 和 1998350 条复赛数据(复赛训练数据为:初赛数据+复赛数据)。
    Rank1:https://zhuanlan.zhihu.com/p/47807544

    2.2018 IJCAI 阿里妈妈搜索广告转化预测
    本次比赛要求参赛者以阿里电商广告为研究对象,基于提供的淘宝平台的海量真实交易数据,通过人工智能技术构建来预测模型预估用户的购买意向。本次比赛为参赛者提供了 5 类数据,包括基础数据、广告商品信息、用户信息、上下文信息和店铺信息。用于初赛的数据包含了若干天的样本;最后一天的数据用于结果评测,对选手不公布;其余日期的数据作为训练数据,提供给参赛选手。
    Rank1:https://github.com/plantsgo/ijcai-2018
    Rank2:https://github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution
    https://blog.csdn.net/Bryan__/article/details/80600189
    Rank3: https://github.com/luoda888/2018-IJCAI-top3
    Rank8: https://github.com/fanfanda/ijcai_2018
    Rank8: https://github.com/Gene20/IJCAI-18
    Rank9(第一赛季):https://github.com/yuxiaowww/IJCAI-18-TIANCHI

    3.2018 腾讯广告算法大赛
    本次算法大赛的题目源自一个基于真实业务场景的广告技术产品——腾讯社交广告 Lookalike 相似人群拓展。本题目要求参赛者基于提供的几百个种子人群、海量候选人群对应的用户特征,以及种子人群对应的广告特征,构建算法准确标定测试集中的用户是否属于相应的种子包。
    出于业务数据安全保证的考虑,比赛所提供的所有数据均为脱敏处理后的数据。整个数据集分为训练集和测试集:训练集中标定了人群中属于种子包的用户与不属于种子包的用户(即正负样本),测试集将检测参赛选手的算法能否准确标定测试集中的用户是否属于相应的种子包,训练集和测试集所对应的种子包完全一致。初赛和复赛所提供的种子包除量级有所不同外,其他的设置均相同。
    Rank3: https://github.com/DiligentPanda/Tencent_Ads_Algo_2018
    rank6: https://github.com/nzc/tencent-contest
    Rank7: https://github.com/guoday/Tencent2018_Lookalike_Rank7th
    Rank9: https://github.com/ouwenjie03/tencent-ad-game
    Rank10: https://github.com/keyunluo/Tencent2018_Lookalike_Rank10th
    rank10(初赛): https://github.com/ShawnyXiao/2018-Tencent-Lookalike
    Rank11: https://github.com/liupengsay/2018-Tencent-social-advertising-algorithm-contest
    https://my.oschina.net/xtzggbmkk/blog/1865680

    4.2018 高校大数据挑战赛—快手活跃用户预测
    本次大赛要求参赛者基于脱敏和采样后的数据信息,预测未来一段时间活跃的用户。参赛队伍需要设计相应的算法进行数据分析和处理,比赛结果按照指定的评价指标使用在线评测数据进行评测和排名。大赛提供的数据为脱敏和采样后用户行为数据,日期信息进行统一编号,第一天编号为 01,第二天为 02,以此类推,所有文件中列使用 tab 分割。
    Rank1: https://github.com/drop-out/RNN-Active-User-Forecast
    https://zhuanlan.zhihu.com/p/42622063
    Rank4: https://github.com/chantcalf/2018-Rank4-
    Rank13(初赛 a 榜 rank2;b 榜 rank5):https://github.com/luoda888/2018-KUAISHOUTSINGHUA-Top13-Solutions
    Rank15: https://github.com/sunwantong/Kuaishou-Active-User
    Rank20: https://github.com/bigzhao/Kuaishou_2018_rank20th

    5.2018JDATA 用户购买时间预测
    本次大赛要求参赛者基于给定的近 3 个月购买过目标商品的用户以及他们在前一年的浏览、购买、评价等数据信息,自行设计数据处理相关操作、训练模型,从而预测未来 1 个月内最有可能购买目标品类的用户,并预测他们在考察时间段内的首次购买日期。数据主要包括用户基本信息、SKU 基本信息、用户行为信息、用户下单信息及评价信息。
    Rank9:https://zhuanlan.zhihu.com/p/45141799

    6.2018 DF 风机叶片开裂预警
    本次大赛要求参赛者基于风机 SCADA 实时数据,通过机器学习、深度学习、统计分析等方法建立叶片开裂早期故障检测模型,对叶片开裂故障进行提前告警。比赛提供的数据集包括训练集和测试集:训练集一共有 25 类风机共 4 万个样本,测试集没有风机编号,共 8 万个样本。
    Rank2:https://github.com/SY575/DF-Early-warning-of-the-wind-power-system

    7.2018 DF 光伏发电量预测
    本次大赛要求参赛者在分析光伏发电原理的基础上,论证辐照度、光伏板工作温度等影响光伏输出功率的因素,通过实时监测的光伏板运行状态参数和气象参数建立预测模型,预估光伏电站瞬时发电量,并根据光伏电站 DCS 系统提供的实际发电量数据进行对比分析,验证模型的实际应用价值。
    比赛提供训练集 9000 个点,测试集 8000 个,包括光伏板运行状态参数(太阳能电池板背板温度、其组成的光伏阵列的电压和电流)和气象参数(太阳能辐照度、环境温湿度、风速、风向等)。
    Rank1:https://zhuanlan.zhihu.com/p/44755488?
    utm_source=qq&utm_medium=social&utm_oi=623925402599559168 (这一方案也可查看微信文章:
    《XGBoost+LightGBM+LSTM:一次机器学习比赛中的高分模型方案》
    https://mp.weixin.qq.com/s/Yix0xVp2SiqaAcuS6Q049g

    8.AI 全球挑战者大赛—违约用户风险预测
    本次大赛要求参赛者基于马上金融平台提供的近 7 万贷款用户的基本身份信息、消费行为、银行还款等数据信息,建立准确的风险控制模型,来预测用户是否会逾期还款。
    Rank1:https://github.com/chenkkkk/User-loan-risk-prediction

    9.2016 融 360-用户贷款风险预测
    本次大赛要求参赛者基于由融 360 与平台上的金融机构合作的提供近 7 万贷款用户的基本身份信息、消费行为、银行还款等数据信息,建立准确的风险控制模型,来预测用户是否会逾期还款。
    Rank7:https://github.com/hczheng/Rong360

    10.2016 CCF-020 优惠券使用预测
    本次大赛要求参赛者基于给定的用户在 2016 年 1 月 1 日至 2016 年 6 月 30 日之间真实线上线下消费行为,预测用户在 2016 年 7 月领取优惠券后 15 天以内是否核销。比赛评测指标采用 AUC,先对每个优惠券单独计算核销预测的AUC 值,再对所有优惠券的 AUC 值求平均作为最终的评价标准。
    Rank1: https://github.com/wepe/O2O-Coupon-Usage-Forecast

    11.2016 CCF-农产品价格预测
    本次大赛要求参赛者基于 2016 年 6 月以前的农产品价格数据,预测 7 月的农产品价格。本题目初赛基于全国各农场品交易市场的价格数据,复赛则加上天气等多源数据。Rank2: https://github.com/xing89qs/CCF_Product

    12.2016 CCF-客户用电异常
    国家电网通过对用户及所属变压器进行异常监测,并通过现场检修人员根据异常情况对用户进行抽检,并反馈检查结果,如发现为窃电用户,将反馈窃电用户信息。本赛题要求参赛者通过提供的相关数据与检查人员检查结果,建立窃电检测模型,识别用户窃电行为。
    Rank4: https://github.com/AbnerYang/2016CCF-StateGrid

    13.2016 CCF-搜狗的用户画像比赛
    本题目初赛时要求参赛者基于给出的 2 万用户的百万级搜索词,以及经过调查得到的真实性别、年龄段、学历这一训练集,通过机器学习、数据挖掘技术构建分类算法对另外 2 万人群的搜索关键词进行分析,并给出其性别、年龄段、学历等用户属性信息。复赛时,训练集与测试集规模均扩展至 10 万用户。
    Rank1: https://github.com/hengchao0248/ccf2016_sougou
    Rank3: https://github.com/AbnerYang/2016CCF-SouGou
    Rank5: https://github.com/dhdsjy/2016_CCFsougou

    14.2016 CCF-联通的用户轨迹
    精准营销是互联网营销和广告营销的新方向,特别是在用户身处特定的地点、商户,如何根据用户画像进行商户和用户的匹配,并将相应的优惠和广告信息通过不同渠道进行推送,成为了很多互联网和非互联网企业的新发展方向。本赛题以其中一个营销场景为例,要求参赛者基于提供的用户位置信息、商户分类与位置信息等数据,完成用户画像的刻画并进行商户匹配。
    RankX: https://github.com/xuguanggen/2016CCF-unicom

    15.2016 CCF-Human or Robots
    仅 2016 上半年,AdMaster 反作弊解决方案认定平均每天能有高达 28% 的虚假流量,即由机器人模拟和黑 IP 等手段导致的非人恶意流量。本赛题要求参赛者通过用户行为日志,自动检测出这些虚假流量。
    Rank6: https://github.com/pickou/ccf_human_or_robot

    16.菜鸟-需求预测与分仓规划
    本赛题要求参赛者以历史一年海量买家和卖家的数据为依据,预测某商品在未来二周全国和区域性需求量。参赛者需要用数据挖掘技术和方法精准刻画商品需求的变动规律,对未来的全国和区域性需求量进行预测,同时考虑到未来的不确定性对物流成本的影响,做到全局的最优化。比赛提供商品从 2014年 10 月 10 日到 2015 年 12 月 27 日的全国和区域分仓数据。
    Rank6: https://github.com/wepe/CaiNiao-DemandForecast-StoragePlaningRank10: https://github.com/xing89qs/TianChi_CaiNiao_Season2

    自然语言处理(NLP)

    1.2018 DC 达观-文本智能处理挑战
    此次比赛要求参赛者基于达观数据提供的一批长文本数据和分类信息,结合当下最先进的 NLP 和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。比赛提供的数据包含训练数据集和测试数据集 2 个csv 文件。
    Rank1: https://github.com/ShawnyXiao/2018-DC-DataGrand-TextIntelProcess
    Rank4: https://github.com/hecongqing/2018-daguan-competition
    Rank10: https://github.com/moneyDboat/data_grand
    Rank18: https://github.com/nlpjoe/daguan-classify-2018

    2. 智能客服问题相似度算法设计——第三届魔镜杯大赛
    本次大赛要求参赛者基于拍拍贷提供的智能客服聊天机器人真实数据,以自然语言处理和文本挖掘技术为主要探索对象,利用这些资源开发一种提高智能客服的识别能力和服务质量的算法。
    rank6:https://github.com/qrfaction/paipaidai
    rank12:https://www.jianshu.com/p/827dd447daf9
    https://github.com/LittletreeZou/Question-Pairs-Matching
    Rank16:https://github.com/guoday/PaiPaiDai2018_rank16

    3.2018JD Dialog Challenge 任务导向型对话系统挑战赛
    本次大赛要求参赛者基于京东用户与京东人工客服真实对话数据(脱敏后)以及给定的对话数据进行分析,构建端到端的任务驱动型多轮对话系统,输出满足用户需求的答案——该答案需要能正确、完整且高效地解决问题,为用户带来简单、省心、智能的购物咨询体验。
    Rank3: https://github.com/zengbin93/jddc_solution_4th

    4.2018CIKM AnalytiCup – 阿里小蜜机器人跨语言短文本匹配算法竞赛
    本次大赛关注短文本匹配在语言适应的问题,源语言为英语,目标语言为西班牙语。比赛要求参赛者建立跨语言短文本匹配模型,来提升智能客服机器人的能力。
    Rank2: https://github.com/zake7749/Closer
    Rank12:https://github.com/Leputa/CIKM-AnalytiCup-2018Rank18: https://github.com/VincentChen525/Tianchi/tree/master/CIKM%20AnalytiCup%202018
    另外,Smilexuhc 还为大家提供了两篇经验文章,大家感兴趣的话可以一并收藏向前辈们取取经。

    经验文章

    《介绍 featexp一个帮助理解特征的工具包》://www.sohu.com/a/273552971_129720
    《Ask Me Anything session with a Kaggle Grandmaster Vladimir I. Iglovikov》PDF:
    https://pan.baidu.com/s/1XkFwko_YrI5TfjjIai7ONQ
    Via:https://github.com/Smilexuhc/Data-Competition-TopSolution

    京东 AI Fashion-Challenge 挑战赛冠军方案详解(风格识别+时尚单品搜索):
    https://www.leiphone.com/news/201809/LBNzpCx58L98oK7M.html
    ICPR 图像识别与检测挑战赛冠军方案出炉,基于偏旁部首来识别 Duang 字:
    https://www.leiphone.com/news/201808/CkFtca7oz5h2oCp8.html
    KDD Cup 2018 冠军「 first floor to eat latiao」:为什么取这个队名?因为大家都爱辣条:
    https://www.leiphone.com/news/201808/srcNcc3AWQTTJl4z.html
    「2018 机器阅读理解技术竞赛」落下帷幕,看奇点机智如何从 800 多支队伍中杀出重围:
    https://www.leiphone.com/news/201805/zB0caxkxv73YF8F9.html
    看阿里 AliOS 神灯团队在推荐系统上的独门秘籍:
    https://www.leiphone.com/news/201804/du0koPNyTZwLSb7x.html
    专访讯飞病灶分割比赛优胜团队,年内会将该算法投入实用:
    https://www.leiphone.com/news/201803/B5qXDGkp5JUrJYWQ.html
    Kaggle 大神 Eureka 的高手进阶之路:https://www.leiphone.com/news/201803/QtcJFW9OoDI8CMWA.html
    亚马逊 Alexa Prize 比赛冠军团队专访:聊天机器人的突破与创新:
    https://www.leiphone.com/news/201801/ySAXM1p2Qhy20vts.html
    KDD Cup 2017双料冠军是如何炼成的?我们向Convolution团队讨教了他们的「成功方法论」:
    https://www.leiphone.com/news/201708/KVadVGXYYIudv6lr.html
    图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读:
    https://www.leiphone.com/news/201806/sFpN5c4zd0Z0fw32.html


    本文作者:丛末



    沙发
    东方祥 发表于 2018-11-14 12:37:28 |只看作者
    干货满满
    藤椅
    数术 在职认证  发表于 2018-11-14 13:54:10 |只看作者
    东方祥 发表于 2018-11-14 12:37
    干货满满
    板凳
    客初 企业认证  学生认证  发表于 2018-11-14 13:58:09 |只看作者
    整理的很棒,很齐全
    报纸
    啃读 在职认证  发表于 2018-11-14 13:59:04 |只看作者
    已收藏
    地板
    啃读 在职认证  发表于 2018-11-14 14:00:07 |只看作者
    客初 发表于 2018-11-14 13:58
    整理的很棒,很齐全
    7
    Crsky7 发表于 2018-11-14 16:05:31 |只看作者
    达观数据有点水
    8
    huangqidong1987 发表于 2018-11-14 17:35:37 |只看作者
    看看
    9
    amtw14 发表于 2018-11-14 19:29:50 |只看作者
    谢谢分享
    10
    金银花开 发表于 2018-11-14 23:40:57 |只看作者
    必须顶一个。
    您需要登录后才可以回帖 登录 | 我要注册

    京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权?;ど?/a>   免责及隐私声明

    GMT+8, 2019-5-27 21:12
    江苏省十一选五走势
  • 候选企业:中远海运能源运输股份有限公司 2019-05-17
  • 人民网家居频道互动合作联系方式 2019-05-10
  • 【我是援藏教师】这一次,带上女儿去支教 2019-05-07
  • 第四届中华健康节启幕:引领全社会正确的健康养生理念 2019-05-07
  • 定陶战役:示弱于敌重点围歼的范例 2019-05-01
  • 大国担当!中国引领全球气候治理(在习近平新时代中国特色社会主义思想指引下——新时代新作为新篇章) 2019-04-29
  • 合肥市人大常委会副主任吴利林到皖维集团调研 2019-04-21
  • 党的十九大最重大的理论成就 2019-04-16
  • 大数据杀熟,别急着甩锅 2019-04-16
  • 沁园春 春色—野夫.blog的博客—强国博客—人民网 2019-04-10
  • 河北经济日报官方微信 2019-04-10
  • “日照”河山汉字摩崖石刻 2019-03-27
  • 不动产登记全国联网 房价会下跌吗? 2019-03-27
  • 外交部举行中外媒体吹风会:王毅介绍上合组织青岛峰会情况 2019-03-17
  • 对中国人民而言,腐败就是从天上掉下来的,不是从人民群众中滋生出来的。 2019-03-17
  • 北京赛车冠亚军统计 pc蛋蛋自动刷蛋器 双色球2元彩票走势图 北京赛车破解 北京单场提前了 新老时时彩的区别 快乐飞艇怎么计划 重庆百变王牌官方网站 幸运赛车开奖查询 奥拉星刮刮乐怎么用 世界杯足彩14场胜负彩 江西多乐彩视频 快乐飞艇 2019期南国彩票论坛 二分彩绝密规律 上海时时乐中奖号码