2021华中杯 B 题

2021华中杯 B 题:题目+数据+代码

  • 思路
  • 非结构化文本→结构化表格(英文)
    • 网页标识处理
    • 空格、标点符号过滤,并转换为小写
    • 停用词过滤、保留词根
    • TF-IDF 建模
  • 生成用于机器学习的数据集
    • 将 duplicates 转换成 duplicate
    • 附件一与附件二合并
      • 粗放地合并
      • 选择地合并
        • 特征过滤
        • 合并
    • 类别不均衡问题
  • 逻辑回归模型——判断两问题是否相似
  • TopK 与得分 R
  • 代码与提问

本人专挑数据挖掘、机器学习和 NLP 类型的题目做,有兴趣也可以逛逛我的数据挖掘竞赛专栏

本人不


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部