2021华中杯 B 题
2021华中杯 B 题:题目+数据+代码
- 思路
- 非结构化文本→结构化表格(英文)
- 网页标识处理
- 空格、标点符号过滤,并转换为小写
- 停用词过滤、保留词根
- TF-IDF 建模
- 生成用于机器学习的数据集
- 将 duplicates 转换成 duplicate
- 附件一与附件二合并
- 粗放地合并
- 选择地合并
- 特征过滤
- 合并
- 类别不均衡问题
- 逻辑回归模型——判断两问题是否相似
- TopK 与得分 R
- 代码与提问
本人专挑数据挖掘、机器学习和 NLP 类型的题目做,有兴趣也可以逛逛我的数据挖掘竞赛专栏。
本人不
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
