QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2690|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1158

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言
    ( ?9 o4 c5 G6 b, \7 m+ r. z在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。1 J3 _  K2 @, ]
    2 S$ P2 c" _) k$ a1 P
    问题描述
    $ @! Y, ^! f$ h6 s4 h1 _9 V  j我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。0 J; U- e" ]! F; r7 F. Q
    本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。
    + A4 F, d1 b. E) t( I; A+ N数据特征:
    6 _7 V7 V; [0 N$ |人均犯罪率。% M# Z- K5 r" _: D
    占地面积超过25,000平方英尺的住宅用地比例。( o6 _  _- T  `, h5 {- P! ~+ `
    每个城镇非零售业务的比例。) x& a& p+ L  ~. V
    Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。
    1 Y: @: A( w: S" }) z一氧化氮浓度(每千万份)。
    2 M6 D, v0 L, ]+ f: h每栋住宅的平均房间数。
    * Y; r# [( _+ z: X- b1940年以前建造的自住单位比例。2 D) R* |3 e' c6 t. r
    到波士顿五个就业中心的加权距离。, K- i0 D$ O* Y& @8 P' \
    径向高速公路的可达性指数。
    ' C/ s& N6 j8 x# j7 x; X5 K) u每10,000美元的全额物业税率。
    ' {# a* _- P6 g( U- r城镇的学生与教师比例。
    0 n% s# {5 d' v5 S; ]) F' I2 J; g1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。
    % \$ p, r: m1 q- J( e人口比例较低的百分比。
    9 x+ s! K& {# O7 ?/ r1. 加载波士顿房价数据
    0 |; \* h0 j* o2 Q) o. jlibrary(keras)
    & v: [, N" W& u3 z5 `3 ]  M- Y* ]+ S8 S
    boston_housing <- dataset_boston_housing()
    ) Z! \, j7 ]+ U4 }- R& E0 o6 I3 R' R
    $ A+ w3 p' C6 _  Q% xc(train_data, train_labels) %<-% boston_housing$train
      N* z" n3 D) a; a0 ~, G3 w( _; lc(test_data, test_labels) %<-% boston_housing$test
    : A' A+ R% Q& j; ^
    & I6 ^2 r$ I8 t. y$ z9 |

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。

    # @0 d# }$ `% a5 j% l4 F
    # Test data is *not* used when calculating the mean and std.
    ' B; Z. V$ M' [9 `+ M! @% b1 a6 v
    . C8 @* x2 O2 H6 L# Normalize training data
    " {0 k7 v) X$ R# s: z% etrain_data <- scale(train_data)
    ! r$ z. P* Q$ O: v( j& y; ]: l" J6 W9 `
    # Use means and standard deviations from training set to normalize test set+ X7 c+ M5 k# }8 v: h) }
    col_means_train <- attr(train_data, "scaled:center")
    & k! \( B# U; scol_stddevs_train <- attr(train_data, "scaled:scale")
    ' |/ r  X; t3 i# o: Q9 xtest_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)
    " M; q* s, ^' k$ l) H3 K7 ], J; S& |+ k$ Q8 K8 \
    3. 构建网络

    创建模型


    / ~9 {% _/ f2 W) [6 w, ]5 Obuild_model <- function() {
    & m, Q' ~9 M- I" U
    1 ~' t! y4 p6 M8 I, ]* [. P  model <- keras_model_sequential() %>%
    / O9 O! B' q3 y7 U    layer_dense(units = 64, activation = "relu",8 B. T3 i0 E: r& R0 C+ G1 f
                    input_shape = dim(train_data)[2]) %>%+ i) M* h5 W; ~+ i
        layer_dense(units = 64, activation = "relu") %>%
    + C; c& B5 r( L    layer_dense(units = 1)
    $ V+ c/ C$ L* |- W1 Y- n. Z: D& C1 M6 e( j' b$ h9 H
      model %>% compile(: O: G5 V! k# `6 j+ V& |5 s, Y
        loss = "mse",9 A$ L. ?0 F/ s- I1 g: \, W
        optimizer = optimizer_rmsprop(),  B& P5 O5 E* X
        metrics = list("mean_absolute_error")
    / K" I* Z; a1 y9 k; a  )
    6 u7 f; W( E% b# y
    - a( a2 K; U) ~8 W! Y' o  model
    ; Q* Q2 I! ^0 g: N' X}& ^. r* |# b" c& V
    % R% E' t4 t2 C
    model <- build_model()9 m$ @3 s4 X  O! W2 e" M* M
    model %>% summary()% P& d( C0 ]# I+ T5 f9 A% |" d

    7 O' ]' p! ?6 G$ S/ O

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型
    ) f5 N( o! d% l# Display training progress by printing a single dot for each completed epoch.
    $ q5 j$ a! @1 c: fprint_dot_callback <- callback_lambda(
    ! q; I4 j: V( E5 g8 h  on_epoch_end = function(epoch, logs) {; j1 @1 O1 K3 e- K
        if (epoch %% 80 == 0) cat("\n")
    ) ~' Y% R9 e# l. m9 \- Z    cat(".")
    & C( I. w7 J1 P4 _% U  }4 V: U4 i- ~3 n# {6 Q: B/ E
    )   
    " ?3 N' I, D4 Q5 x& z; ]* @
    . B" Y: L' x+ Eepochs <- 500" T$ |% ~* g1 \8 ^
    + U1 S* L/ Z3 _
    # Fit the model and store training stats* v3 X% h; r. `2 E! B
    history <- model %>% fit(
    : P6 ?3 G6 X, |# P& u  train_data,/ t# M/ O6 W. q" [6 B6 \- w- H+ d
      train_labels,: }* ?0 y1 ?8 j& P- c1 P
      epochs = epochs," W# `8 ], n* D$ [$ d2 A1 p4 ^  ^
      validation_split = 0.2,
    3 v& q9 O+ K+ g, A5 _% O; o  verbose = 0,: Z  O: ~. N  K0 B7 N$ `# F
      callbacks = list(print_dot_callback)+ v* e) Q6 b6 w! X9 J6 ^: s
    )
    ' I' x; Y+ \% D" r
    ) q2 g7 U2 I+ {& \% _" @library(ggplot2)  i+ Z- j! p  y7 d) _9 H" y2 R

    0 k2 ?1 O! W& i. L0 C9 ~* Splot(history, metrics = "mean_absolute_error", smooth = FALSE) +) h  n0 J5 B5 F4 t9 A/ z
      coord_cartesian(ylim = c(0, 5))
    9 G3 M+ q+ U1 p. h0 Y: T2 j: G  L5 i( f

    ' W3 N6 ^9 A9 I8 k% a
    , L9 x* d3 b6 ]( U小结
    + H9 u! G, [, L4 h( M8 o1)回归常用的损失函数是均方误差(MSE)。
    ( x2 q, v& J7 d# u! z2)常见的回归指标是平均绝对误差(MAE)。
    ) n0 B$ C: a! t- A) B: K3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。' k. m+ H# f7 Y
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。
    - S, a0 W0 U* V& e" d% |% c' s6 x5 y! `& D
    5 N7 r5 }- o$ c! R% X2 p
    . Z5 N, t# l! Q# p" j
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-5-20 06:20 , Processed in 0.415701 second(s), 50 queries .

    回顶部