QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1908|回复: 0
打印 上一主题 下一主题

[其他资源] 数据挖掘——如何利用Python实现产品关联性分析apriori算法篇

[复制链接]
字体大小: 正常 放大
杨利霞        

5250

主题

81

听众

16万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-12 18:44 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    数据挖掘——如何利用Python实现产品关联性分析apriori算法篇, ~0 M) o9 G; p. u3 V
    * _4 O( k! l+ q4 k* T+ C/ f! S( [# H% C
    在实际业务场景中,我们常常会探讨到产品的关联性分析,本篇文章将会介绍一下如何在Python环境下如何利用apriori算法进行数据分析。5 Q8 L" s+ R, _( `$ j6 ]

    * \( }' q2 C, g0 \3 S6 d' ]1.准备工作* r! Y) k0 g0 h" C. C
    如果需要在Python环境下实现apriori算法,就离不开一个关键的机器学习库mlxtend,运行以下代码进行安装:
    ) }" C" T8 f  ^0 Z. }
    $ K4 H( I2 D4 R+ ~) r/ b  |% w8 gpip install mlxtend; {" y5 i+ [' K1 D) D) m
    1
    : @3 w  D* q7 H3 b; @& M8 p! F  H为方便进行过程的演示,在此构建测试数据:4 l7 U5 B1 _9 C9 @. i

    3 B9 y0 U1 i6 Q. J7 P/ zimport pandas as pd6 j# R3 ~. F8 f* Q5 q2 u  K9 L
    df=pd.DataFrame({'product_list':['A-C', 'D', 'A-B-C-D','A-C','A-C-D','A-C-B']})
    ; K$ I4 x# w' a2 I1; e5 O  @$ e0 X) T( Q7 J' Q
    25 }# v+ w* D9 x3 e) u
    测试数据截图如下:
    1 z! u/ E1 o6 R5 S' C  N. T2 F  l- {0 S
    * ]% {$ {$ }) i4 ?
    对上述的数据进行以下处理:
      K1 I$ U3 c: d# ^. j$ i( i7 \5 y' t
    df_chg=df['product_list'].str.split("-")
    % T; A) [0 l4 d" f- |1
    + q0 Q9 h# ^; r数据处理后,结果截图如下:6 m  t4 Z- y! T

    ; A4 c3 q4 ]8 ]3 E& S截止到此,准备工作已经完成,下面个将会以df_chg作为参数进行建模。
    * d; a4 ?1 [" t9 @8 N' |7 _6 i* I) i! O8 M
    2.核心函数及代码* M5 S- ^1 ^4 K! y" ?2 p- H0 w
    2.1 数据预处理. o& z+ D8 n% W0 I6 X- j
    对传入的数据进行预处理,使其成为符合要求的数据。mlxtend模块中有专门用于数据预处理的方法,在这里直接进行调用即可:* }4 U2 B$ o( O( q
    9 C" A3 I9 ?$ E! {! k+ S; B3 ^
    #1.将传入的数据转换为算法可接受的数据类型(布尔值)2 g( C/ E6 A8 H$ ~4 ^( y
    from mlxtend.preprocessing import TransactionEncoder
    # r& S/ C  W  x) P* r! @te = TransactionEncoder(): o5 w* \1 V6 {7 I- y! }: Z" ]9 ?
    df_tf = te.fit_transform(df_chg)$ U) x9 P; n6 }
    #为方便进行查看,生成dataframe
    . \# J, E: N" \7 a- Sdata = pd.DataFrame(df_tf,columns=te.columns_)  z0 f- K' ^/ Z
    1( C  U1 q4 z$ @# E9 v$ V7 M1 Y
    2  v: u, R' j' ~
    3
    : o- ^: j4 g, v* V* |( d' T4
    $ m0 M% W6 l% P, L, a, E# ^5
    / T3 }6 |& [' w& {6
    ' t: ^+ r6 s- Z# Y3 r* {2 O4 P运行以上代码后,传入的df_chg数据会被转换成符合要求的数据data,截图如下:
      U& Y! ?; S0 H4 T0 H: P3 C& @
    ; p' G  z2 p. G$ A2 f& M+ V: Z1 }0 ~
    2.2 两个关键函数
    # n! O4 M3 b% xapriori函数
    7 {1 P' a' K- G语法:7 A$ p$ U( k/ v8 T$ D" }
    " ~% M  h) ], H' L# e  F% [
    apriori(df, min_support=0.5, use_colnames=False, max_len=None, verbose=0, low_memory=False)
    : P) w2 g% y/ g1  @( l1 q: R0 E: }/ I+ H
    参数详解:
    $ m) E1 _. a; v) p: F2 Z, S2 S" K, R( l* W
    df: pandas模块中的数据帧,DataFrame形式的数据;! c* K1 {9 a1 X* X
    min_support:一个介于0和1之间的浮点数,表示对返回的项集的最小支持度。% k7 |5 l3 z. @& k& S& m( w% |! D
    use_colnames: 如果为 True,则在返回的 DataFrame 中使用 DataFrame 的列名;如果为False,则返回为列索引。通常情况下我们设置为True。
    8 c* @9 H" F- _# Xmax_len: 生成的项目集的最大长度。如果无(默认),则计算所有可能的项集长度。1 p+ e; \* q  G9 B) V7 o0 K
    verbose: 如果 > = 1且 low_memory 为 True 时,显示迭代次数。如果 = 1且low_memory 为 False,则显示组合的数目。
    , F/ g$ T/ @- _- V& ylow_memory:如果为 True,则使用迭代器搜索 min_support 之上的组合。low _ memory = True 通常只在内存资源有限的情况下用于大型数据集,因为这个实现比默认设置大约慢3-6倍。2 H, K. i- t7 g5 |* M" d; N
    association_rules函数
    0 z. A& a( V. E语法:" J$ g: F# y9 b  g5 B; h+ n/ T
    7 ]3 d' z( r) ^& R
    association_rules(df, metric='confidence', min_threshold=0.8, support_only=False)
    : g8 q+ w0 {" @# H! O4 p& A$ _1
    ) ^( [9 B7 `4 ^" J) }& ]2 C参数如下:4 [$ S/ g/ b# ^
    ( B& L0 ]5 ~7 X" h, [1 e- w
    df: pandas模块中的数据帧,DataFrame形式的数据;
    6 o& N3 w% M7 D# _metric: 用于评估规则是否有意义的度量。可选参数有以下几种:‘support’, ‘confidence’, ‘lift’, 'leverage’和 ‘conviction’1 o4 v& W9 V) }' P; T
    min_threshold: 评估度量的最小阈值,通过度量参数确定候选规则是否有意义。+ i& w  `- F6 k% |) p+ o
    support_only : 只计算规则支持并用 NaN 填充其他度量列。如果: a)输入 DataFrame 是不完整的,例如,不包含所有规则前因和后果的支持值 b)你只是想加快计算速度,因为你不需要其他度量。
    " `+ j9 C8 b0 l! z. V附带metric几种参数的计算方法:, `* e8 s& F. ~3 s% w0 }5 [
    / Q5 f9 R* F0 ]' T6 y0 \+ o
    support(A->C) = support(A∩C) [aka ‘support’], range: [0, 1]  }. o6 V/ |; }: E. n, J
    5 [& q5 X- x  B% |" f- d
    confidence(A->C) = support(A∩C) / support(A), range: [0, 1]
    1 D+ [8 {2 S. g2 E7 s5 B( O9 v% h  \/ @8 L
    lift(A->C) = confidence(A->C) / support(C), range: [0, inf]
    # t- s3 F7 J) m: r  `* Z
      [7 B( ~- {7 Y' d" U5 L6 Oleverage(A->C) = support(A->C) - support(A)*support(C),
    2 W, B' A* J. {: V0 ~! h: trange: [-1, 1]
    , |0 ]+ W9 g: t& V7 q$ ]! r( F& P: ~
    conviction = [1 - support(C)] / [1 - confidence(A->C)],; N- u+ L$ K% N7 k% ^! ~7 Q* O
    range: [0, inf], T& l, ]  S9 s9 W
    $ b7 K, Q" D' O9 C5 T
    3.实际应用案例
    6 C3 T7 o0 O; m4 F4 Z以下为完整的调用实例:! {0 c' _. `  p9 m
    7 Q' O2 j0 \: I: ^
    import pandas as pd- a+ s. H6 s1 u
    from mlxtend.preprocessing import TransactionEncoder
    3 t8 a0 S% H  N' e% J4 `* ofrom mlxtend.frequent_patterns import apriori6 `) j: S% r  z% S' y8 l
    from mlxtend.frequent_patterns import association_rules% S! E  t. F! Y8 }
    #1.构建测试数据2 i# n) C7 l3 o0 i( }/ |3 B+ _
    df=pd.DataFrame({'product_list':['A-C', 'D', 'A-B-C-D','A-C','A-C-D','A-C-B']})
    " x6 A; ~, G! d4 n* U6 |df_chg=df['product_list'].str.split("-")
    ) y3 f2 D( U) w#2.数据预处理
    2 f5 D3 E9 R, W, `- @* z#将传入的数据转换为算法可接受的数据类型(布尔值)
    0 g2 v. W$ M; x' |9 cte = TransactionEncoder()$ M8 \; A2 Z  _# E- O  Q
    df_tf = te.fit_transform(df_chg)3 J, E0 t9 ?$ d- w+ ~. Q: [
    #为方便进行查看,生成dataframe
    ; o) Z, z% T3 @/ Jdata = pd.DataFrame(df_tf,columns=te.columns_)+ ~. j# ^& ?  B. d
    #3.建模
      e9 F, c$ g" w4 n- {#利用 Apriori函数,设置最小支持度为0.2
    , e  c4 Q4 m, e6 L6 u* z, qfrequent_itemsets = apriori(data,min_support=0.2,use_colnames= True)$ z( e5 A7 h# h! u5 _% k( o6 L  G
    #设置关联规则,设置最小置信度为0.15" q+ ]9 O$ _( h/ _$ ]
    temp= association_rules(frequent_itemsets,metric = 'confidence',min_threshold = 0.15)
    3 @* O' J" ?6 o  K#4.剪枝并控制输出
    , N7 g+ g4 b- Q" n#设置最小提升度,并剔除对应的数据
    1 {8 \4 j3 S: Y& r: cmin_lift=1  @8 Z7 I. `1 p, ^
    rules = temp.drop(temp[temp['lift']<min_lift].index)/ G% ^* G; ?3 a( L! ^$ o1 V
    #筛选需要输出的列. i" V% |4 ~& c  Z
    result = rules[['antecedents','consequents','support','confidence','lift']]
    , l% Z# g9 _, x4 t9 f+ }8 kresult=result.sort_values(['confidence','lift','support'],ascending=False)
    4 s6 t# @# Q+ r9 p3 k% {  H: e/ A3 Rresult.to_csv('apriori_result.csv',index=False,encoding='utf-8-sig')3 T9 l# b& P* E' g
    ! b& Y' B, \) {  J
    1) e8 D# \7 R+ Q; I$ ]  _
    2
    % u$ y$ Z' t/ ^, d+ l3! N3 ]9 v6 F7 @3 J
    4
    5 n4 ^) Y$ ~  \* V5
    ! x& v7 y  t+ T  H, ]. @2 Q6 N6
    : u" ^! U6 x7 Y/ ?) V7
    3 Q2 P4 f5 R$ S, d% r5 F1 Y4 U$ R! x82 }" f8 c" ?% m% x
    9
    / v1 s; |9 J2 Q, A. }6 x9 S10  j: j% o7 a8 F, K3 n
    11
    + \( y4 Z' R' ]1 s; h12# f* A' E$ `3 v4 I
    13
    0 z4 v; Q. w& K( o8 u3 V+ q14) `, w( M9 B) h6 Z0 H6 I
    15
    2 `+ S% O5 p% _- ?16
    / ?4 {; }# p$ e; ~17- I# _- S& |4 c. E: O1 ~; E/ B( V7 g
    18
    1 o8 V* \* y4 ?2 Z' [, e3 u19" z4 [8 J5 |5 [- h7 Q
    20
    ( [, ~: B0 e2 y; c; J! A! N21
    : E3 m1 x( h5 x: U22% E" R6 O, C$ T" A' g1 ^3 H5 z
    23
    # W  Y& l: G) |+ ~, }/ A24
    4 H' M% ?( l$ b& ^9 h3 ]25' |4 t2 J9 w- @! o! I4 ^
    26) B% `& y- s# U9 }, C+ |8 ]. ?) R4 U
    输出结果见下图:. I; H  F+ \' p- K; c4 t
    7 o# R$ }! [/ A4 {. p( w
    ————————————————6 m2 \: a, m4 @$ r
    版权声明:本文为CSDN博主「theskylife」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    ! X6 X& Z" F; ]) P0 y原文链接:https://blog.csdn.net/qq_41780234/article/details/121920759
      Z; L  J( I% A: |6 h4 ?! I7 Y
    7 H3 j+ |- y! n. E: Q9 l! E; F* V) r- i: y, i  u3 T
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-4-28 21:37 , Processed in 0.272548 second(s), 50 queries .

    回顶部