• 党的十九大最重大的理论成就 2019-04-16
  • 大数据杀熟,别急着甩锅 2019-04-16
  • 沁园春 春色—野夫.blog的博客—强国博客—人民网 2019-04-10
  • 河北经济日报官方微信 2019-04-10
  • “日照”河山汉字摩崖石刻 2019-03-27
  • 不动产登记全国联网 房价会下跌吗? 2019-03-27
  • 外交部举行中外媒体吹风会:王毅介绍上合组织青岛峰会情况 2019-03-17
  • 对中国人民而言,腐败就是从天上掉下来的,不是从人民群众中滋生出来的。 2019-03-17
  • 安徽中北部遭遇强降雨 十几个县市发布暴雨预警 2019-03-11
  • 风水神话的神话只能骗风水神话,给自己喂糖吃,甜蜜 2018-11-22
  • 老手艺:文物也有生命 修复青铜器就像给人治病 2018-11-22
  • 全国600多万网民通过移动直播看新疆赛龙舟包粽子 2018-11-21
  • 这些度假酒店将改变你的旅行 还不赶紧了解一下! 嗜住 2018-11-20
  • 中央纪委紧盯节点 4年来通报曝光问题近4000起 2018-11-20
  • 162 4

    江苏11选5玩法介绍: [学习笔记] 特征工程小结 [推广有奖]

    • 0关注
    • 4粉丝

    讲师

    14%

    还不是VIP/贵宾

    -

    威望
    0
    论坛币
    342 个
    学术水平
    4 点
    热心指数
    8 点
    信用等级
    3 点
    经验
    5645 点
    帖子
    199
    精华
    0
    在线时间
    250 小时
    注册时间
    2018-9-28
    最后登录
    2019-4-19

    楼主
    诗人都在海底 在职认证  发表于 2019-3-16 12:47:08 |只看作者 |倒序
    本帖最后由 诗人都在海底 于 2019-3-18 10:32 编辑

    1. 为什么要进行归一化

        归一化后会使每一维度数据的更新速度变得更为一致,可更快通过梯度下降法找到最优解。梯度下降法求解的模型有线性回归、逻辑回归、支持向量机、神经网络模型等,但归一化对决策树模型并不适用,以C4.5为例,模型节点分裂时主要依据数据集关于特征的信息增益比,而信息增益比与是否归一化是无关的。

    2.类别特征如何处理
    • 序号编码
    • 独热编码
    • 二进制编码
    3 . 高维组合特征

        一阶离散特征两两组合形成高维组合。

    4. 如何有效找到组合特征

        通过决策树寻找特征组合

    5. 文本表示模型
    • Bag of Words
    • TF-IDF(Term Frequency-Inverse Document Frequency)
    • Topic Model
    • Word Embedding
    6. Word2Vec

        一种浅层神经网络模型,它有两种网络结构,分别是:CBOW根据上下文预测当前词的概率、Skip-gram根据当前词预测上下文的概率。


    • Word2vec和LDA的区别和联系

        LDA:利用文档中的单词共现关系来进行主题聚类。也可理解为对“文档-单词”矩阵进行分解,得到“文档-主题”和“主题-单词”两个概率分布。

        Word2Vec:对“上下文-单词”矩阵进行学习,其中上下文由周围的几个单词组成, 由此得到的词向量表示更多地融入了上下文共现的特征。也就是说,如 果两个单词所对应的Word2Vec向量相似度较高,那么它们很可能经常在同样的上下文中出现。

    • 主题模型和词嵌入两类方法的主要差异

        主题模型基于“上下文-单词”矩阵进行主题推理。主题模型是一种基于概率图模型的生成式模型,其似然函数可以写成若干条件概率连乘的形式,其中包括需要推测的隐含变量(即主题);

    词嵌入方法根据“文档-单词”矩阵学习出词的隐含向量表示。词嵌入模型一般表达为神经网络的形式,似然函数定义在网络的输出之上,需要通过学习网络的权重以得到单词的稠密向量表示。

    7. 图像数据不足时的处方法
    • 迁徙学习
    • 生成对抗网络
    • 图像处理
    • 上采样
    • 数据扩充


    已有 2 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
    zl89 + 80 精彩帖子
    经管之家编辑部 + 100 + 3 + 3 + 3 精彩帖子

    总评分: 经验 + 80  论坛币 + 100  学术水平 + 3  热心指数 + 3  信用等级 + 3   查看全部评分

    本帖被以下文库推荐

    沙发
    经管之家编辑部 在职认证  发表于 2019-3-16 13:22:19 |只看作者
    为你点赞!
    藤椅
    充实每一天 发表于 2019-3-16 13:22:46 来自手机 |只看作者
    已点赞~
    板凳
    jessie68us 发表于 2019-3-16 13:45:31 |只看作者
    已经为您点赞!
    报纸
    amtw14 发表于 2019-3-16 14:15:19 |只看作者
    您需要登录后才可以回帖 登录 | 我要注册

    京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权?;ど?/a>   免责及隐私声明

    GMT+8, 2019-4-19 22:35
    江苏省十一选五走势
  • 党的十九大最重大的理论成就 2019-04-16
  • 大数据杀熟,别急着甩锅 2019-04-16
  • 沁园春 春色—野夫.blog的博客—强国博客—人民网 2019-04-10
  • 河北经济日报官方微信 2019-04-10
  • “日照”河山汉字摩崖石刻 2019-03-27
  • 不动产登记全国联网 房价会下跌吗? 2019-03-27
  • 外交部举行中外媒体吹风会:王毅介绍上合组织青岛峰会情况 2019-03-17
  • 对中国人民而言,腐败就是从天上掉下来的,不是从人民群众中滋生出来的。 2019-03-17
  • 安徽中北部遭遇强降雨 十几个县市发布暴雨预警 2019-03-11
  • 风水神话的神话只能骗风水神话,给自己喂糖吃,甜蜜 2018-11-22
  • 老手艺:文物也有生命 修复青铜器就像给人治病 2018-11-22
  • 全国600多万网民通过移动直播看新疆赛龙舟包粽子 2018-11-21
  • 这些度假酒店将改变你的旅行 还不赶紧了解一下! 嗜住 2018-11-20
  • 中央纪委紧盯节点 4年来通报曝光问题近4000起 2018-11-20