QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2644|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1158

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言! a6 o/ c: B" c0 c8 I
    在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。$ @0 }7 S/ y4 P, a: I9 r* \$ y  y
    1 T% q( I$ v8 |, U# J
    问题描述
    ; A4 I& e/ d; k我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。
    5 |9 @6 u* g+ I7 s本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。
    % s" A; Y6 [$ O/ ]/ H数据特征:( S4 v* n) ?1 K! e
    人均犯罪率。' G& g$ G5 T- ^1 p0 l
    占地面积超过25,000平方英尺的住宅用地比例。
    ! }6 C' @0 p) x3 R# i- L4 `每个城镇非零售业务的比例。: X+ e2 x, Z- t3 m  b5 w
    Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。
    / Q9 N" T, `( K& T: O' B一氧化氮浓度(每千万份)。5 [4 X6 s1 T. ^- y: o  P* x. y
    每栋住宅的平均房间数。
    1 ?- n% M$ @8 I6 l1940年以前建造的自住单位比例。2 t6 e6 j) S3 P
    到波士顿五个就业中心的加权距离。" p- [8 B) A, V. y5 K# y
    径向高速公路的可达性指数。+ b% |8 ~4 I& }  {" U
    每10,000美元的全额物业税率。! Q% ^' A+ _: U' l9 U  q$ k
    城镇的学生与教师比例。2 W0 x& k8 C6 `8 \) X! ~4 ^8 D& d4 S
    1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。
    + ~5 S% K2 k- Q: t& S1 Y1 f人口比例较低的百分比。
    9 T8 E' P+ [# v8 Q) z+ x+ N1. 加载波士顿房价数据
    % W" C2 \0 G" Z9 Nlibrary(keras)5 {, E5 R! N5 W: r6 Y: j. i

      W7 w* O0 W+ I5 X" _boston_housing <- dataset_boston_housing(), S/ @7 e* \/ y. d. G" V& f
    ! x& O  `4 V# k: a  C  Y8 y2 A
    c(train_data, train_labels) %<-% boston_housing$train, m% t  E6 [  n/ [' F2 a4 z+ p" m
    c(test_data, test_labels) %<-% boston_housing$test. L9 @2 u* o. |' Q
    : T8 I3 n5 s6 b9 O" c& W7 S& S  F

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。

    $ D; ], G- ~, g- j  M" ?5 e
    # Test data is *not* used when calculating the mean and std.& z+ k9 ~, A9 B( A

    0 v3 a. z3 h6 e: z+ I+ e# Normalize training data
    - C6 |, a! p7 U( \* {5 j- T5 Ztrain_data <- scale(train_data)
    + t7 h' @+ y3 i9 M% G7 I- x8 _" o+ v6 r8 o4 A) J
    # Use means and standard deviations from training set to normalize test set
    2 Y3 Z, V, t! f1 F9 B2 k: ]col_means_train <- attr(train_data, "scaled:center") $ l/ u1 s% B- ]5 s# R, e
    col_stddevs_train <- attr(train_data, "scaled:scale")' \$ g/ X$ C, c% D5 D* v0 |
    test_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)
    / V% ?" N' ~0 K$ p/ w) J" T( e  Z' v/ b) `" Q  U
    3. 构建网络

    创建模型


    ( K. ^% j6 k7 |% r" U$ Xbuild_model <- function() {
    : f) ?' v: e! W- N+ ^% a
    , {! d/ R1 ~  R9 n4 d: `8 W  model <- keras_model_sequential() %>%: H% `6 i: j8 |7 W' z
        layer_dense(units = 64, activation = "relu",- ]8 y2 k' {4 ]
                    input_shape = dim(train_data)[2]) %>%
    5 S/ e" B* I$ h    layer_dense(units = 64, activation = "relu") %>%
    7 u6 R2 a& ]$ O3 ]1 U    layer_dense(units = 1). f) @8 o1 d1 Q* D  n! T+ Y$ x9 `

    " J5 U" b3 q8 v  model %>% compile(/ `6 c+ t) B3 O0 U* {# }/ @5 x. R
        loss = "mse",
    * I6 C3 Q# G  l* p4 ?    optimizer = optimizer_rmsprop(),
    ! ]4 E4 N5 |- {, k, {    metrics = list("mean_absolute_error")2 p  m6 j4 |. |
      )! Y; r) M% [$ l# r1 C( {6 C
    , ^# @/ `3 V5 Z* ^
      model
    % r$ G7 i! z- _, r$ e}4 Q5 Q- s3 F3 t1 }/ M* _

    % y, R, B0 D1 u) X" T! imodel <- build_model()2 I; x' ^1 S3 ~$ }% R" Q2 k  m% X
    model %>% summary()
    ; j( I' b# t: S$ p/ ?  v) m7 ]( m8 F( [6 i( l

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型
    , q" e& o1 G/ s5 M# Display training progress by printing a single dot for each completed epoch.
    ! g, X, f$ F; u3 @! n5 nprint_dot_callback <- callback_lambda(3 X2 b  V4 o* E9 p! M
      on_epoch_end = function(epoch, logs) {+ S% [* }% E" w4 N; u; r4 A6 z
        if (epoch %% 80 == 0) cat("\n")9 v' {& J9 f0 t2 |  s/ l
        cat(".")
    % I: |- ^0 o: P- B  }
    ; p9 K( N* S0 |)    5 H! w2 M8 K2 ^! ?* h# m6 a, d. H* e

    ( ?/ t' f% ?7 ?4 Q* @: L0 _: bepochs <- 500
    / i& L) }  t* b; x$ z6 m+ s
    1 \5 J* m: o8 L' Y: `3 f6 r# Fit the model and store training stats
    2 E* C* y; h. ?* [+ n1 `6 c0 bhistory <- model %>% fit(3 t, r9 O# M3 @& ]9 D9 i; |& ~5 p
      train_data,
    , ?% a8 J1 r5 E3 o6 l  train_labels,
    1 c8 B6 O/ T9 z3 O  epochs = epochs,# h( p+ c# u4 n! f* }
      validation_split = 0.2,
    * {6 l0 F$ K  \  verbose = 0,5 O; _/ s  ~" B% X: n
      callbacks = list(print_dot_callback); f6 W( f& y" S5 N5 ?9 _  y# @. _
    )
    . W6 f' x9 t/ r, K0 |1 n& {7 O' c  L
    library(ggplot2)9 c9 c6 c4 g7 {. j# a5 e
    0 b, G; [& W% J
    plot(history, metrics = "mean_absolute_error", smooth = FALSE) ++ S( w' h% I% A/ e5 @- N0 ]
      coord_cartesian(ylim = c(0, 5))- ]( O6 u$ i- Q/ ?1 k' P9 o

    0 Y2 P# x1 [) m9 V5 }2 n
    6 j/ x6 |  _# b0 I9 q0 k4 O
    $ h' C# t6 i+ E' h' v( @小结8 H. M. U3 |, J
    1)回归常用的损失函数是均方误差(MSE)。5 d, T1 J2 Y8 e4 i! i0 q3 ]8 X
    2)常见的回归指标是平均绝对误差(MAE)。
    * V' p( u8 Z6 W' b0 V8 g% w( X3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。8 e& \$ s! c' x3 Y
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。
    , n/ p( e2 W0 g! H9 x' e0 P  M) S4 z$ F! P
    : f' q* z. K* g9 {1 G) Y( a/ J( ^

    . D* @0 d" ]+ I7 {0 T3 H& U; b! \! X
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-4-27 15:42 , Processed in 0.309885 second(s), 50 queries .

    回顶部