QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1946|回复: 0
打印 上一主题 下一主题

[其他资源] 数据挖掘——如何利用Python实现产品关联性分析apriori算法篇

[复制链接]
字体大小: 正常 放大
杨利霞        

5250

主题

81

听众

16万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2022-9-12 18:44 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    数据挖掘——如何利用Python实现产品关联性分析apriori算法篇
    " I4 ?3 \! r# l2 Q
    6 V; R! W- m5 ?0 z在实际业务场景中,我们常常会探讨到产品的关联性分析,本篇文章将会介绍一下如何在Python环境下如何利用apriori算法进行数据分析。$ f4 z. C( ?6 y; S# V5 m2 m

    0 H; I  O# d3 s8 `6 \  I4 E1.准备工作
    % G! n0 L+ D, x; _! ]  e& M如果需要在Python环境下实现apriori算法,就离不开一个关键的机器学习库mlxtend,运行以下代码进行安装:
    : D( w5 I" y0 i$ ~
    6 f$ m! p) H) y  ]; l! r$ spip install mlxtend$ }6 ]/ W; w/ u+ @
    1
    7 Z, X8 b5 o8 f为方便进行过程的演示,在此构建测试数据:' p( a) y0 P: e  s

    8 \- ~- P" A6 l7 `  T/ T; Qimport pandas as pd0 D9 }- E" i0 o' Y) v
    df=pd.DataFrame({'product_list':['A-C', 'D', 'A-B-C-D','A-C','A-C-D','A-C-B']})1 Q3 g# l! ?% T# m+ n+ N. Y
    1
    ( }% ]0 g) D( }% m25 {* a1 A( L- b. \
    测试数据截图如下:
    7 E" v( Y# _8 `+ S, z3 N7 x; G( R$ C6 P# [! S5 d4 Z# x

    + l; Z; E. }, I# x对上述的数据进行以下处理:
    5 t6 A6 J4 g: {, C& N7 x2 C: b, c+ n% d3 x# t
    df_chg=df['product_list'].str.split("-"), w& }" z+ J8 L4 ~9 ?0 ^5 q) `
    1
    # W1 V( I! b9 X/ o  E数据处理后,结果截图如下:
    ' S6 U& v, L* z% u- ^1 u8 Q* i% Y7 x, A
    截止到此,准备工作已经完成,下面个将会以df_chg作为参数进行建模。
    ' f+ F4 m0 z# f; o4 H) k) F- V+ Y& R# U& f
    2.核心函数及代码
    ( c$ d- w# N" P4 j2.1 数据预处理7 B" e) q- E0 `- u/ ^0 A
    对传入的数据进行预处理,使其成为符合要求的数据。mlxtend模块中有专门用于数据预处理的方法,在这里直接进行调用即可:
    6 ~# U( K7 A+ z
    + h' M6 y0 M& e1 N% I  q5 W1 A#1.将传入的数据转换为算法可接受的数据类型(布尔值)  L. ]5 z; J9 R2 c& ]& |+ j  O3 n8 s
    from mlxtend.preprocessing import TransactionEncoder# e3 }9 o( n  R2 w
    te = TransactionEncoder()
    ) J0 K8 A6 Q* V% f2 Ldf_tf = te.fit_transform(df_chg)' k( t  g6 S! U% N
    #为方便进行查看,生成dataframe- L. {4 J! y- }' M; b
    data = pd.DataFrame(df_tf,columns=te.columns_)
    / I, _" p* J' H8 f1
    1 U: \* g  R+ m5 X- N2
    ; D1 Z- P8 u0 e* z34 s$ W, h1 e5 z2 t- \
    45 A- W/ i3 N( r3 P* r% s
    5
    $ ?. r+ c7 P8 `9 b) B% \6
    ( D7 b1 j% w1 H, m运行以上代码后,传入的df_chg数据会被转换成符合要求的数据data,截图如下:
    1 F* ^8 Q' h& S5 E+ j3 E
    6 I' D2 q) w  ~9 H" p
    & b& g( y* i& m2 c4 U2.2 两个关键函数/ U0 n$ E' K- b/ w. k" J+ F# k; a% J
    apriori函数
    1 M& x; |9 Z! D; ?9 e& `/ q语法:+ b8 ]. j5 j( O) n$ w

    # y7 m/ ~. [9 Yapriori(df, min_support=0.5, use_colnames=False, max_len=None, verbose=0, low_memory=False)# ^5 m7 B$ ^9 N) \
    13 W6 E) y5 p- w- M
    参数详解:
    + J; ]) O; @' A: I
    4 \! |3 G6 r4 q' `# |* }: tdf: pandas模块中的数据帧,DataFrame形式的数据;
    & B$ S( j5 Z! \3 j) umin_support:一个介于0和1之间的浮点数,表示对返回的项集的最小支持度。
    8 H4 o) X$ @$ `3 c) @use_colnames: 如果为 True,则在返回的 DataFrame 中使用 DataFrame 的列名;如果为False,则返回为列索引。通常情况下我们设置为True。
    2 m) R  J0 F) }/ lmax_len: 生成的项目集的最大长度。如果无(默认),则计算所有可能的项集长度。
    " {3 G; m! {1 ]1 d+ y! Overbose: 如果 > = 1且 low_memory 为 True 时,显示迭代次数。如果 = 1且low_memory 为 False,则显示组合的数目。
    7 m7 @; I7 Z: @/ q6 slow_memory:如果为 True,则使用迭代器搜索 min_support 之上的组合。low _ memory = True 通常只在内存资源有限的情况下用于大型数据集,因为这个实现比默认设置大约慢3-6倍。
    / d7 p8 v% {* zassociation_rules函数
    - ]5 g" X4 s" s! i( j) s/ x语法:
    + [: U1 u9 j$ r, j: Y/ p3 m$ y
    ( {% N+ p2 I# o. a$ xassociation_rules(df, metric='confidence', min_threshold=0.8, support_only=False)3 D% o% i  @0 C+ ~: k, q. l5 c& v" |
    1
    1 a/ W3 {6 R* t% m: R; W3 j参数如下:
    + c/ h" _7 N7 b) C8 `5 ~  d4 q( C0 \+ B; `" i7 n8 z% ]- Q1 N
    df: pandas模块中的数据帧,DataFrame形式的数据;  R: C3 c2 E) Y% G" g3 s7 Y5 v  E( O
    metric: 用于评估规则是否有意义的度量。可选参数有以下几种:‘support’, ‘confidence’, ‘lift’, 'leverage’和 ‘conviction’2 H# r: e8 Z  s) [9 \  B
    min_threshold: 评估度量的最小阈值,通过度量参数确定候选规则是否有意义。0 g9 m% Z( z( g8 Y6 T0 Q
    support_only : 只计算规则支持并用 NaN 填充其他度量列。如果: a)输入 DataFrame 是不完整的,例如,不包含所有规则前因和后果的支持值 b)你只是想加快计算速度,因为你不需要其他度量。
    # z* X" c3 `8 m- n) T. H5 W# P! D附带metric几种参数的计算方法:+ @2 [* M1 c3 K, s3 n% w/ x- E" I

    * t+ B/ K8 ^- F" Y# c8 Ssupport(A->C) = support(A∩C) [aka ‘support’], range: [0, 1]
    ; f+ n0 V3 W/ A' }
    , K5 o, Z( M9 R; u7 Zconfidence(A->C) = support(A∩C) / support(A), range: [0, 1]' _% b  _& C- l
    , u% G6 v; H! H7 N, U
    lift(A->C) = confidence(A->C) / support(C), range: [0, inf]9 f( x" P, ]* x/ S2 `8 }2 [
    ) A0 m$ d2 {  W0 x. E
    leverage(A->C) = support(A->C) - support(A)*support(C),
    0 w9 d4 O6 l6 d$ ^( ^, Xrange: [-1, 1], u& T/ @+ R% a8 K" o1 P
    & b3 u) i3 l" |* B
    conviction = [1 - support(C)] / [1 - confidence(A->C)],
    & z* @5 x1 I( x7 J1 Rrange: [0, inf]
    2 k8 `+ n* V& F) R4 y5 e( d  u9 E! J+ s1 P! l  d( T5 G
    3.实际应用案例' p# w- r( ~3 t; W9 Y
    以下为完整的调用实例:/ Z6 Z. V% e" I# v  v# ^' ^; G. m

    1 M( Q/ l& `# j$ Z, w" Vimport pandas as pd
    & ^+ ]$ ^9 Q0 }* mfrom mlxtend.preprocessing import TransactionEncoder7 b$ S/ J, h! b
    from mlxtend.frequent_patterns import apriori
    8 z" R/ w, H# D% Z/ v. f3 ~/ Hfrom mlxtend.frequent_patterns import association_rules
    : P$ R( S- n) f& d#1.构建测试数据
    ' F3 n$ L+ n1 z6 E3 g5 ^% Tdf=pd.DataFrame({'product_list':['A-C', 'D', 'A-B-C-D','A-C','A-C-D','A-C-B']})6 Z3 o) ]  Q( j7 ~$ D) d6 @
    df_chg=df['product_list'].str.split("-")
    & W9 _) g2 G6 Z$ ?, o, ^#2.数据预处理# S: [2 Y5 {+ T7 J, T
    #将传入的数据转换为算法可接受的数据类型(布尔值)
    ' D+ d* X: O4 I1 L' Q& Kte = TransactionEncoder(). @9 U3 G& \  J3 j8 |) K
    df_tf = te.fit_transform(df_chg)
    5 V& u- Y- ]8 P4 f0 f* T- O#为方便进行查看,生成dataframe
    0 v5 P  D; N$ o- ?data = pd.DataFrame(df_tf,columns=te.columns_)1 v0 \/ n0 y. H" V! I$ o  W
    #3.建模
    ( U2 b+ E' o9 O) d#利用 Apriori函数,设置最小支持度为0.2
    1 ~7 G) x5 T3 P& k" F3 A# j( @' dfrequent_itemsets = apriori(data,min_support=0.2,use_colnames= True)
    7 M# n' ~) W) `. A( w#设置关联规则,设置最小置信度为0.15
    4 C. I& F% X6 j. K) k7 Q: {. qtemp= association_rules(frequent_itemsets,metric = 'confidence',min_threshold = 0.15)
    7 c/ O) {4 m5 K0 m) x#4.剪枝并控制输出9 w+ c5 K! \& Z& _  l
    #设置最小提升度,并剔除对应的数据
    2 ?4 T4 j0 y/ |& ?6 mmin_lift=14 q, H& |* z7 G; ~1 w0 c
    rules = temp.drop(temp[temp['lift']<min_lift].index)
    * L% t* D( Q' E$ ^#筛选需要输出的列! a, h+ {# N2 U* d" t9 X
    result = rules[['antecedents','consequents','support','confidence','lift']]
    ' k8 J7 h% ~$ fresult=result.sort_values(['confidence','lift','support'],ascending=False)
    . E/ G$ i5 H3 \5 H8 k" yresult.to_csv('apriori_result.csv',index=False,encoding='utf-8-sig')
    7 V7 l8 y. {2 t: i  w+ v2 Z" k, K; L# [3 h9 b4 E! R; v3 \- P
    1
    9 l, W8 ?4 a$ a! S6 g' z6 y0 }2
    " w6 T8 [, x! [: @: t34 U; J( b) b6 L' A3 v
    4
    . N$ G0 v; a, L7 f" O53 B* b- _- t6 s
    6* F% T0 r7 F, P  f
    7
    : \( r7 s3 K  U8
    ; G8 a4 D' A- |9
    5 P0 i0 R, p& n106 @0 Q, P; X0 m# C) A
    11
    1 o9 T! @& W: d# ]% E12& x# s. D0 M9 T( c$ m; f
    13, Y+ K3 a3 a) o: B; i# a5 d
    144 G. _  L* N* p- ]0 V' R4 x  \
    15
    5 h8 E$ K( L. K7 C- |: E4 N- }% K; x166 r, _  G+ B( P+ L
    17
    + t0 B  G: {! x) ~3 ]18, N! R2 `$ w: _
    19
    $ g, G3 V# d' c20
    1 P' Q2 \# V9 d) ]( `5 M212 ~2 ^5 i4 l, T
    22/ s) ~: U' L0 s$ R8 U; u) g, T
    23* I* K  d" r, v7 N" N
    24
    % U. X, h2 `) I! k  x5 I& h25
    2 T3 ^7 d( i% B+ ]* n26% x( S* A. |# p. H
    输出结果见下图:
    ( m: c% k# A: M- S1 h6 y% o1 y1 J& q& j$ [) k( {1 v8 j  _
    ————————————————
    : F& _) ^4 |5 o& h8 I- \版权声明:本文为CSDN博主「theskylife」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    8 i3 A/ J" j5 ^) ~+ y6 M原文链接:https://blog.csdn.net/qq_41780234/article/details/121920759
    ' t8 y: q" B, H( u' h; m- [2 I# U4 n( |  q0 x
    % M1 p3 L0 R% }- L+ Q  N  @0 A
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-5-13 12:00 , Processed in 0.390722 second(s), 50 queries .

    回顶部