QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2658|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1158

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |正序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言! ~+ r+ K# z5 y; t, P) s8 I9 n
    在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。4 Z; A1 l, W' n3 P1 l9 |* j

    * [. e; m# T: [# y问题描述: D0 C" {: e% `" c% E
    我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。
    ; |2 p% \7 _# I, ]' R% c9 c1 W1 e本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。
    ) ~0 h3 ^3 Q: Y  ^% k数据特征:( J9 F; f! I: D& q) Y% h' p% v6 K- }  R1 t
    人均犯罪率。
    ( B; |( J$ B# }" O/ n: b占地面积超过25,000平方英尺的住宅用地比例。
    , S% @  D: d- u2 u0 }每个城镇非零售业务的比例。3 S. l3 E5 _, f: g7 }6 D
    Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。  i: u; O4 J3 t5 G7 r6 l3 q3 A
    一氧化氮浓度(每千万份)。+ i7 j$ E. n* ]' W
    每栋住宅的平均房间数。4 N  N5 @. F, I% Q( t0 k; [6 S
    1940年以前建造的自住单位比例。
    - p2 }2 t. W% ?' I0 _$ \( c到波士顿五个就业中心的加权距离。
    7 h8 ^" @2 |; b$ g. a& A6 J0 c1 c1 O3 N  @径向高速公路的可达性指数。, w; S, D' o+ v( p' B9 y4 y, v) O- q, G
    每10,000美元的全额物业税率。8 ~1 o* Y9 b: d2 Y6 G  Y
    城镇的学生与教师比例。1 c) l7 z' P/ t4 e- v: C3 Z
    1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。* M+ A; R. u) U) @$ ~
    人口比例较低的百分比。$ q6 \1 {" h$ u. V5 _; N% z3 a
    1. 加载波士顿房价数据% X  o. l2 R; E2 j$ o( \) E- A" U
    library(keras)8 K6 j6 h$ o. z* C

    - L! P$ P) w1 Y, A! }boston_housing <- dataset_boston_housing()" V& X8 s. o9 Z. b; V5 x( b
    ( [2 u/ }9 q2 `- V& ]8 `+ D
    c(train_data, train_labels) %<-% boston_housing$train, b$ }7 F% Z5 n/ w
    c(test_data, test_labels) %<-% boston_housing$test
    " j: K( S% l8 b* M; S# P$ E) j' r. j" b

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。

    & V& q% F( i$ Q: {4 N: T& v2 F! G4 a) C
    # Test data is *not* used when calculating the mean and std.
    9 R' u- B; ^' T1 A9 r" O
    # s9 e" i  D: D. j1 S% W# L5 }" F# N. |# Normalize training data* T+ Y  m! G  [! q
    train_data <- scale(train_data) * v- M2 Q/ s1 C9 W

    7 C6 ?' i+ N3 {6 y* A" t# Use means and standard deviations from training set to normalize test set! H6 Y$ c" ~- n/ I4 E  w+ j. o
    col_means_train <- attr(train_data, "scaled:center") 9 v7 L* O, c5 R
    col_stddevs_train <- attr(train_data, "scaled:scale")
    & Y. |! N* ]+ V5 f) w1 rtest_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)& M8 b8 L) a8 S) b
    . d+ p+ L5 m, @% H+ h9 \+ t
    3. 构建网络

    创建模型

    / o; w5 E. m. T
    build_model <- function() {+ E, P" [; ?: y: L; J8 R
    $ e; l, Z, j  Q3 _, s
      model <- keras_model_sequential() %>%# q# E! H# E, }1 B8 R
        layer_dense(units = 64, activation = "relu",
    # o0 H. X/ Q' W" c5 d1 @                input_shape = dim(train_data)[2]) %>%
    # J; t: V2 a2 R    layer_dense(units = 64, activation = "relu") %>%; M, Y' G! k1 c- Q/ C8 q: `
        layer_dense(units = 1). r! @/ a# i2 H' }
    * a' Q1 W6 f! B3 j
      model %>% compile(- P& I" g, E' B2 v. O. \1 m9 k# s" b
        loss = "mse",; B3 G; Y- F2 E5 W3 b$ c
        optimizer = optimizer_rmsprop(),2 Q& M3 d9 K" y) _4 |& z( x  b1 G
        metrics = list("mean_absolute_error")
    * J, C0 G& f0 A7 b' _  )
    6 f. H! F: B6 B4 s  e: p" S% ^3 b; \7 R4 [4 u1 u
      model" W- ^6 p3 J8 X
    }9 [, `5 p2 S7 f6 \) }& `  ?
    + h* j: Y( N) Y: y* S7 m! ^& G
    model <- build_model()
    4 i6 j' y" h7 j, q3 U$ Z0 ^+ _model %>% summary()
    * b0 Y+ g. n  g) ]& F1 g0 N1 \& C' N1 V

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型
    % S7 S% u; ]% K1 W) i. Z) g# Display training progress by printing a single dot for each completed epoch.
    , W6 T+ o. H* E1 u, Kprint_dot_callback <- callback_lambda(! R% U3 Y6 T9 [5 g
      on_epoch_end = function(epoch, logs) {
    " W% u/ d% u4 Q& R5 k7 p    if (epoch %% 80 == 0) cat("\n")
    % Y! T. `0 O+ H    cat(".")
    5 f6 Z' r5 o# v& R  }
    ; j2 n! C( w1 [0 G)    5 R* S; v+ t0 N" [: y: C8 L1 s3 z
    / [+ L# d: F( X. p4 c6 ^+ ]( Z
    epochs <- 500
    & }. p7 p: C9 w% ^- Y! J3 W9 F0 T% c
    " G+ m8 `4 e5 N7 L7 }# Fit the model and store training stats. K! g) @5 |6 o! u5 |8 W8 u
    history <- model %>% fit(7 @- n! N  n7 ]4 @1 i: M
      train_data,
    , G& ?5 p1 m5 ?; v' ^  train_labels,- f' f7 K& _/ r. y* j- V/ q* w
      epochs = epochs,2 N! f( G# c7 U0 X3 \' u; K
      validation_split = 0.2,
    $ v9 h4 l+ ^# K. k  verbose = 0,- |7 d! u; @4 T& u+ r
      callbacks = list(print_dot_callback)5 |9 b, [- g, a9 A, ?( ?3 x
    )- \( r- T8 a8 a, F" Z/ j

    - K. R1 e8 C& X$ b$ glibrary(ggplot2)
    : P2 t7 e7 {! u0 A7 a2 R* f# k+ V; q. N2 p3 x$ u
    plot(history, metrics = "mean_absolute_error", smooth = FALSE) +7 k" `/ \( D& ~  i9 g7 m$ s) w
      coord_cartesian(ylim = c(0, 5))
    5 i$ n# @3 c) L1 O, `# s& \* j5 [) _1 v% r# C6 K5 U

    0 r' r  A0 i/ \( Y- Y( d+ I; W; c( B
    # L2 h) d% Q" h: G& z; g小结0 P$ S: c9 h# B0 d& a& z% d
    1)回归常用的损失函数是均方误差(MSE)。2 l: m5 F% o- W5 m4 L& P+ p
    2)常见的回归指标是平均绝对误差(MAE)。
    4 x5 k3 e2 Q' A+ W# L3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。, u9 u4 f$ V/ R  h3 b
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。
      K+ J4 j" u9 b1 {
    5 C. U8 y9 z% b/ Z
    ) A; Y. U+ p8 A$ ~  j0 R+ Y$ K1 ?% W* @$ d: D. ~
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-5-9 09:49 , Processed in 0.379714 second(s), 51 queries .

    回顶部