当前位置: 首页 > news >正文

大数据分析基础及应用案例:第五周学习报告——逻辑回归、决策树

这周一下子学了两个超实用的模型 —— 逻辑回归和决策树,它们俩都是做 “分类任务” 的高手!比如判断 “用户会不会下单”“邮件是不是垃圾邮件”,用这两个模型就能搞定。跟上周的线性回归比,分类模型更贴近生活里的选择场景,学起来特别有代入感,这就跟大家分享我的学习收获~
一、先搞懂:逻辑回归
一开始听 “逻辑回归”,我还以为跟上周的线性回归差不多,后来才发现:线性回归是 “预测具体数值”(比如预测销量多少),逻辑回归是 “判断属于哪一类”(比如判断用户会不会买),但它俩底层逻辑有相通的地方,学起来没那么难。

  1. 逻辑回归
    比如我们想判断 “一条短信是不是诈骗短信”,可以找几个影响因素:“有没有陌生链接”“是不是境外号码”“含不含‘转账’‘中奖’关键词”。逻辑回归会把这些因素整合起来,算出这条短信是 “诈骗” 的概率 —— 概率大于 50%,就归为 “诈骗类”;小于 50%,就归为 “正常类”,就这么简单!
    它的核心是一个叫 “sigmoid 函数” 的东西,能把线性回归算出来的 “任意数值”,压缩到 0~1 之间,这个结果就是 “属于某一类的概率”。比如算出来 0.8,就说明有 80% 概率是诈骗短信,直接分类就好。
  2. 实操里要注意的 “小细节”
    类别要明确:逻辑回归最适合 “二分类”(比如 “是 / 否”“好 / 坏”),如果是 “多分类”(比如 “优 / 良 / 差”),得用特殊处理方法,这点跟线性回归不一样。
    别让 “异常值” 捣乱:比如分析 “用户是否下单” 时,有个用户 “浏览时长” 填了 1000 分钟(明显是误填),如果不删掉,会让模型判断出错,所以数据清洗时一定要检查异常值。
    看 “准确率” 够不够:模型跑完后,要算 “准确率”—— 比如 100 条短信,模型对了 85 条,准确率就是 85%,越高说明模型越靠谱。
    二、再学透:决策树
    如果说逻辑回归是 “靠概率判断”,那决策树就是 “靠规则判断”,特别像我们平时做选择的过程!比如周末要不要出门:“先看天气 —— 下雨吗?下雨就不出;没下雨再看有没有约会 —— 有约会就出,没约会就宅家”,决策树就是把这种 “层层判断” 写成了可视化的 “树状图”,一眼就能看懂。
  3. 决策树的 “树结构” 超直观
    拿 “判断西瓜甜不甜” 举个例子,决策树会这么层层拆分:
    第一层(根节点):先看 “瓜皮颜色”—— 青绿色还是深绿色?
    第二层(中间节点):如果是青绿色,再看 “瓜纹清晰度”—— 清晰还是模糊?
    第三层(叶子节点):如果瓜纹清晰,就判断 “甜”;如果模糊,就判断 “不甜”。
    每一层判断的 “依据”(比如瓜皮颜色、瓜纹),模型会自动从数据里找 —— 哪个因素能最快把 “甜瓜” 和 “不甜瓜” 分开,就先用来当第一层判断,特别智能。
  4. 避坑指南:别让树 “长太疯”
    决策树有个小毛病:如果不管它,会一直拆分到 “每个样本都单独一类”,这就像 “把每个细节都当重点”,反而会判断不准(比如把 “瓜上有个小斑点” 也当判断依据,其实根本不影响甜度)。这时候就要 “剪枝”:
    提前停止:比如规定 “树最多长 3 层”,到层数就不再拆分;
    剪去细枝:把那些 “对分类帮助很小” 的分支删掉,让树更简洁,判断更准。
    二、实践案例:用两个模型 “判断用户会不会下单”
    这周的作业是分析电商数据,预测 “用户浏览商品后会不会下单”,正好用逻辑回归和决策树做对比,结果特别有意思!
  5. 数据准备:挑对 “影响因素”
    原始数据有 “用户浏览时长”“加购次数”“有没有领优惠券”“是不是新用户” 这几个字段,共 500 条用户数据。第一步先筛选有用的因素:
    去掉 “用户 ID”(就是个编号,没用);
    把 “是不是新用户” 转成数字(1 = 新用户,0 = 老用户),方便模型计算。
  6. 两个模型 “PK” 一下
    逻辑回归:靠概率稳赢把 “浏览时长”“加购次数” 等因素放进去,模型算出每个用户 “下单概率”。最后准确率是 82%——100 个用户,82 个判断对了。还能看到 “加购次数” 影响最大:加购 1 次以上的用户,下单概率比没加购的高 50%,这个结论特别实用,以后商家可以重点推 “加购” 活动。
    决策树:靠规则直观赢决策树跑出来后,直接生成了一个树状图,第一层判断 “有没有领优惠券”—— 领了优惠券的用户,再看 “加购次数”;没领的,直接判断 “大概率不下单”。准确率是 79%,比逻辑回归略低,但胜在 “规则清晰”,老板看树状图就能懂 “怎么提升下单率”,不用看复杂公式。
  7. 这次踩的 “坑”,大家别踩
    一开始我把 “浏览时长” 的单位搞混了(有的是 “分钟”,有的是 “秒”),没统一单位就放进模型,结果逻辑回归准确率只有 60%。后来把所有时长都转成 “分钟”,准确率一下子就上去了 —— 原来数据格式不统一,对模型影响这么大!
    三、总结:两个模型各有千秋,按需选就好
    这周学下来,我觉得逻辑回归和决策树就像 “分类界的两个工具”:
    想 “精准算概率”“看因素影响大小”(比如算用户下单概率、分析哪个因素最关键),选逻辑回归;
    想 “快速出规则”“让非技术的人也看懂”(比如给老板看怎么判断垃圾邮件、怎么提升转化率),选决策树。
    而且这两个模型都是数据分析的 “基础款”,后面学更复杂的模型(比如随机森林),都要用到它们的思路。第五周算是跨进了 “分类任务” 的大门,感觉离 “用数据解决实际问题” 又近了一步,下周继续加油!
http://www.hn-smt.com/news/133/

相关文章:

  • 2025修护洗/二硫化硒去屑/香氛/控油蓬松/洗发水品牌推荐:MASIL玛丝兰引领功效细分赛道,哪个牌子好?看实测口碑榜
  • AOP面向切面编程思想
  • 如何找到心仪的 ChatBI 智能体?Aloudata Agent 推荐给你
  • 10月第二篇
  • 天翼云智慧上云月特惠来袭,智算上云正当时!
  • 2025年临沂一次性碗打包盒公司权威推荐榜单:一次性打包碗/一次性圆形打包碗/一次性打包碗商用源头公司精选
  • 洛谷题单指南-进阶数论-CF582A GCD Table
  • 状态迁移与场景法:搞定复杂业务流测试的利器
  • 实用指南:精读C++20设计模式——行动型设计模式:责任链
  • JimuReport 积木报表 v2.1.5 版本发布,免费的可视化报表和大屏
  • 2025年半自动冲芯机生产厂家权威推荐榜单:半自动矽钢片冲芯机/半自动铁芯冲压机/半自动冲芯设备源头厂家精选
  • 告别手动埋点!Android 无侵入式数据采集方案深度解析
  • writing sentences task1
  • bao
  • 2025年贝特曼咨询:权威解析美国高端身份规划的专业服务与法律保障
  • 2025年10月美国投资移民机构推荐榜:五大权威机构深度对比分析
  • 2025年10月美国投资移民机构推荐榜单:权威评价与综合对比分析
  • 2025年10月美国投资移民机构推荐榜:五家权威机构全方位对比分析
  • 构建AI智能体:五十、ModelScope MCP广场 MCP协议 Cherry Studio:AI应用生产线 - 指南
  • zerofs nfs 协议当前的一些限制
  • 2025年10月移民美国机构推荐榜单:五大权威机构对比分析
  • 2025 年 8 卡 RTX 风扇 GPU 服务器,GPU 智算服务器,AI 训练 GPU 服务器厂家最新推荐,聚焦资质、案例、售后的优质机构深度解读
  • 2025 年精选知识管理工具:15 款融合 AI 能力的智能知识库深度对比
  • 2025年10月EB5投资移民中介推荐榜:权威机构对比与选择指南
  • 软件测试哲学:从单元测试到端到端测试的完整指南
  • flume+kafka+flink整合
  • 2025年松木猫砂厂家权威推荐榜单:无尘矿砂/膨润土猫砂/水晶猫砂源头厂家精选
  • 2025年,如何选择Python Web框架:Django, Flask还是FastAPI? - 详解