QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2656|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1158

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言
    & Q3 Q9 T. z8 {2 K在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。2 p; K8 H0 j+ A
    , [1 U1 C3 X& {4 M! L, ~) A) F
    问题描述
    ) a- [2 G* e) I$ V$ Z7 y我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。) j- t8 a" ~7 A
    本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。, o' N+ ^) Z3 U5 B6 \* C% }7 f
    数据特征:5 c2 E; c3 W' ^* o; h& l# Q& l8 c
    人均犯罪率。! [& G* \9 f' m5 _0 Q- X
    占地面积超过25,000平方英尺的住宅用地比例。
    8 @0 q. c7 z7 t: k% {每个城镇非零售业务的比例。8 p6 q4 w6 N. y& ^& }7 ~! F6 K+ `& s( U
    Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。5 h9 r( }& F2 Q+ }: ^
    一氧化氮浓度(每千万份)。5 X. C7 _" z! N$ u
    每栋住宅的平均房间数。1 K( m3 v& u+ I8 P
    1940年以前建造的自住单位比例。8 I- n0 H- ?0 L4 Q( B3 c
    到波士顿五个就业中心的加权距离。  }  g2 f$ \0 r4 P  O* Q4 c3 h6 a4 w; X
    径向高速公路的可达性指数。" o( D' }7 H8 b5 [2 ?6 h  E* K
    每10,000美元的全额物业税率。
    & q: d  X* R7 o+ y% a/ |城镇的学生与教师比例。
    0 Y1 z/ r7 x! z0 B: i  Y1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。
    ) P% ~& s$ U2 X% {9 O( x6 F4 z人口比例较低的百分比。/ J$ u, p/ J% u$ b' M& R8 ]
    1. 加载波士顿房价数据
    2 z4 }- o! z' d0 A% B8 ?+ Y  slibrary(keras)7 }- r- S9 \# p" ^7 f: V  j  s

    2 r  C9 h3 A' E( Xboston_housing <- dataset_boston_housing()
    - d7 x; ?# |8 ]9 V9 n, W: w$ Z. f9 L6 x
    c(train_data, train_labels) %<-% boston_housing$train( Z) m, @- ^  V# n+ u% f0 c
    c(test_data, test_labels) %<-% boston_housing$test7 x3 L! d5 \8 j+ I% z& }/ e
    : P4 ^$ w" V2 x

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。


    . b+ ]: w/ P' U' S- g# Test data is *not* used when calculating the mean and std.
    $ ?' t# Y. F0 s& d
    , b# R( o1 n: A( }# t: [  u# Normalize training data
    3 |9 J$ c, Q& W( htrain_data <- scale(train_data) # u: N* k+ K+ \0 Z- Q% }

    # m4 H0 l7 g3 h* q8 Z# Use means and standard deviations from training set to normalize test set! E9 N3 ~' N) }: z
    col_means_train <- attr(train_data, "scaled:center")
      X& \! H) Q8 h  D5 r7 lcol_stddevs_train <- attr(train_data, "scaled:scale")
    / _8 }/ \/ i' ^test_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)5 I, M* ]1 A, w$ `0 d

    5 h+ h: O9 O+ ~5 j3. 构建网络

    创建模型


      v/ z5 c- m0 i% J  ~9 Ebuild_model <- function() {5 F/ S* ~* D" s7 [& U

    4 q3 J5 U2 j! L+ V# n8 V/ p( F  model <- keras_model_sequential() %>%
    - |+ j7 n9 N( x" }( o1 e% A    layer_dense(units = 64, activation = "relu",
    " c- T0 Z: z4 A9 E( S! H                input_shape = dim(train_data)[2]) %>%3 n1 x$ [3 I& m' y( j
        layer_dense(units = 64, activation = "relu") %>%: Q% b4 Y9 @) {1 q4 \2 u
        layer_dense(units = 1)3 b% I5 y1 {7 |) f+ r

    ) L  b5 ^* \* U5 {2 O* x# f% m  model %>% compile(& V7 y4 Q9 p+ y) e4 F0 L0 v
        loss = "mse",5 ]9 X. R9 V$ w: E# t8 c0 \( u* F
        optimizer = optimizer_rmsprop(),
    / K$ _5 c$ r6 r# p& K7 |7 {2 e    metrics = list("mean_absolute_error")' T$ u/ H" e& ?/ [$ C! B
      )
    0 x3 D$ b4 ?) T! k$ H) M
    8 K# e$ W+ Q5 U5 e, o% ^  model$ n. x  X8 O, M9 X
    }
    - j- P+ A% E7 w( K' C! X+ E: K& s/ D1 C
    model <- build_model()) _: G6 d+ d5 d& T7 R8 [- @& N
    model %>% summary()9 L" _+ C+ c2 o. D5 v

    ! w6 a/ G3 x4 T

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型
    ' F9 d& G  y+ i* M; y# Display training progress by printing a single dot for each completed epoch.
    * p* a8 g2 d9 I- Pprint_dot_callback <- callback_lambda(- Q/ H4 {+ p+ ~5 F5 l5 T7 n
      on_epoch_end = function(epoch, logs) {
    ) d9 n! E$ q. w    if (epoch %% 80 == 0) cat("\n")
    2 H! v% Z: [" F$ v0 I    cat(".")
    $ h* d" W% S1 X  }
    1 |: Y6 Q/ y0 Y, z$ E% ^3 O3 w% F)   
    ; Q9 |; b* l" F. V* ?
    ) w+ d3 \4 e4 J5 R( _/ P. Lepochs <- 500
    ) i5 ^! E/ D0 h1 E$ i) E' k+ }6 C; s% N
    # Fit the model and store training stats
    7 ]8 f1 U( @- G7 Chistory <- model %>% fit($ N2 i: g2 ]: z3 a
      train_data,& T# R5 ^7 {1 h; ~. m
      train_labels,
    $ ]# y; I7 Y) {( U% T2 [. {( D  epochs = epochs,
    1 x: I1 e/ ^$ A& I  validation_split = 0.2,7 C, W& G/ S  p! f7 f
      verbose = 0,
    4 E1 M# E. Z6 ]: a' \, c  callbacks = list(print_dot_callback)
      _! q% B# |$ H* e2 q)
    . Z: s2 h" t, r9 P' _( K) v6 @  o. U& O. k$ T' D# O
    library(ggplot2)
    9 t& S2 V3 m  r. Z5 j) g8 N1 p) T0 c* a+ u
    plot(history, metrics = "mean_absolute_error", smooth = FALSE) +8 Q$ \6 B1 {  a$ q0 s5 s; Q
      coord_cartesian(ylim = c(0, 5))" I! P( Q9 a1 `- |% `

    " R& i! j0 H: \0 o$ D# s
    7 A" j. a( `% N# s- M# E0 Z" H6 e0 D3 x8 L# Z" y
    小结
    # P# J+ K1 o. {+ f5 ]5 o1 S7 |1)回归常用的损失函数是均方误差(MSE)。
    " Q' ?. x! G, r; q% x) A; e2)常见的回归指标是平均绝对误差(MAE)。
    # ?3 t! \$ G' N" H  }3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。! w, A+ ~# p* z& a" T5 o4 ^
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。0 e" n9 d5 U' r& p. e  r4 c4 c
    ( _) [/ E7 O& X; H5 N
    1 S" \8 A; }. K- q0 T
    / e* F% |8 P' E9 u
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-5-9 01:42 , Processed in 0.453623 second(s), 50 queries .

    回顶部