QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 2657|回复: 0
打印 上一主题 下一主题

预测房价:回归问题——R语言

[复制链接]
字体大小: 正常 放大

1158

主题

15

听众

1万

积分

  • TA的每日心情
    开心
    2023-7-31 10:17
  • 签到天数: 198 天

    [LV.7]常住居民III

    自我介绍
    数学中国浅夏
    跳转到指定楼层
    1#
    发表于 2021-10-29 10:50 |显示全部楼层 |倒序浏览
    |招呼Ta 关注Ta
    预测房价:回归问题——R语言
    , ^9 ~5 d/ Q* c- i4 B  V在回归问题中,我们的目标是预测连续值的输出,如价格或概率。将此与分类问题进行对比,分类的目标是预测离散标签(例如,图片包含苹果或橙色)。1 a9 F- r+ d4 k8 H, F
      D$ v: c- X% r: e; b1 l4 ^9 f& b
    问题描述9 n* U. l5 S6 b/ a2 J' S
    我们将要预测20世纪70年代中期波士顿郊区房屋价格的中位数,已知当时郊区的一些数据点,比如犯罪率、当地房产税率等。* T# ~* G& }+ q  W
    本次用到的数据集包含的数据点相对较少,只有506个,分为404个训练样本和102个测试样本。输入数据的每个特征(比如犯罪率)都有不同的取值范围。例如,有些特征是比例,取值范围0 ~ 1;有的取值范围为1 ~ 12;还有的取值范围0 ~ 100,等等。/ u: r! w. H2 O) L
    数据特征:- _) t0 t% k1 ^1 y* b
    人均犯罪率。
    / O4 h$ P# ]9 a3 r% ?占地面积超过25,000平方英尺的住宅用地比例。4 V$ _, Y2 G5 O- ^5 ~% R
    每个城镇非零售业务的比例。( D( m1 E$ [. l& g' P3 K
    Charles River虚拟变量(如果管道限制河流则= 1;否则为0)。/ u+ T5 ?: Z# U9 T7 E7 \
    一氧化氮浓度(每千万份)。
    $ x3 t' X# z, [$ a每栋住宅的平均房间数。
    ( X5 W5 _4 T: _1940年以前建造的自住单位比例。" \' J% S+ n& O/ c" t3 B% ~: {
    到波士顿五个就业中心的加权距离。* {: l! w+ Z1 u$ }+ o* x& O. j
    径向高速公路的可达性指数。( D! e  l# d7 P( e5 g
    每10,000美元的全额物业税率。
    - d/ |  K6 u. x2 ~城镇的学生与教师比例。* h4 B/ V+ h$ h! v! a( X5 W
    1000 (Bk - 0.63)* 2其中Bk是城镇黑人的比例。
      h$ n4 N9 F; k/ E人口比例较低的百分比。
    1 ^# \6 b, ^7 B" U) b1 U- v. a) m' x0 A1. 加载波士顿房价数据
    ! O. y( \( R3 N- \& D, Wlibrary(keras)
    - p2 O/ ~. y% X* n3 _0 @5 t, ~! H9 C, P( ~7 o& s
    boston_housing <- dataset_boston_housing()
    3 K) m0 [9 @7 O+ @2 N* B7 e$ V- O! _) s7 p6 d3 o# C7 L
    c(train_data, train_labels) %<-% boston_housing$train
    5 l  C9 x4 d( f$ bc(test_data, test_labels) %<-% boston_housing$test
      F: g8 b8 i2 }+ m
    " P: {# m/ Q6 l& b

    每个样本有13个数值特征,目标是房屋价格的中位数,单位千美元。

    2. 准备数据

    数据标准化

    将取值范围差异很大的数据输入到神经网络中,这是有问题的。网络可能会自适应这种取值范围不同的数据,但学习肯定变得更加苦难。对于这种数据,普遍采用的最佳实践是对每个特征做标准化。


    8 ~1 o, H6 j; @2 [0 p/ o+ K# Test data is *not* used when calculating the mean and std.) I) @- R8 `& `: n1 S/ {8 v1 _

    & r: R9 d$ U3 y6 U' m2 Y, X' @# Normalize training data8 G0 a+ ?, v' ~! t8 N
    train_data <- scale(train_data) : }* K0 p; n/ n% q$ G5 W

    6 q; C! `4 H$ f6 _; g# q# Use means and standard deviations from training set to normalize test set. ]' e$ F& A/ B+ C: g; `  h* S
    col_means_train <- attr(train_data, "scaled:center") 9 c* p0 v+ w. g4 v( F' q1 O2 N* j
    col_stddevs_train <- attr(train_data, "scaled:scale")' q" t$ y1 r2 O6 U' Z5 m
    test_data <- scale(test_data, center = col_means_train, scale = col_stddevs_train)
    8 y  ^' @0 [7 p, h: g* i' P/ }: M; S/ X' n: d
    3. 构建网络

    创建模型


      Z8 N6 K3 h3 e+ s; [' y3 e( Fbuild_model <- function() {
    5 G7 a. ?8 _# T! T: M4 J8 a% B% f8 g5 n3 Q- O
      model <- keras_model_sequential() %>%
    2 v* |! I# r4 b! E    layer_dense(units = 64, activation = "relu",
    : [6 }5 S5 e/ V& E                input_shape = dim(train_data)[2]) %>%2 d9 e. x3 t4 J6 I: {7 I! V
        layer_dense(units = 64, activation = "relu") %>%
    # V; I' V1 a8 ^1 t' z: b4 R    layer_dense(units = 1)0 l  t9 k0 l- R+ B  c6 R9 W5 y% w

    3 l" H5 `* W4 C5 H% X1 m7 d' ~( T/ ~  model %>% compile(: a- J! w5 E+ L3 D* j; y+ ]. y
        loss = "mse",
      ~) P0 d% d7 f6 x: ]3 W- u    optimizer = optimizer_rmsprop(),2 @. n7 y+ p( F3 `3 S% p5 Q6 K/ ^
        metrics = list("mean_absolute_error")  w, w  ?" Y) o6 K" e
      )3 l3 \4 B$ {- z/ ~% A  h
    ; q( r5 O- c4 z
      model
    2 c" ]- h% C8 d! E1 o}* @. T. y7 w+ b6 E- F7 x' J
    ! n0 L$ d+ b3 I9 `: W2 m# E0 v8 t
    model <- build_model()8 u! b8 l9 O5 S
    model %>% summary()3 s- n4 \$ W" E3 m1 ]
    & P6 Q/ R( E" t1 _- Z- o

    网络的最后一层只有一个单元,没有激活,是一个线性函数。这是标量回归(标量回归是预测单一连续值得回归)得典型设置。添加激活函数将会限制输出范围。

    4. 训练模型7 Q5 o. R6 V3 E
    # Display training progress by printing a single dot for each completed epoch.
    / k1 j: G: n! B* B4 ~4 I2 cprint_dot_callback <- callback_lambda(9 _9 w4 h+ ]' g7 D' R
      on_epoch_end = function(epoch, logs) {
    , T) }$ ~0 G- [; U' G* Q! w& N/ N    if (epoch %% 80 == 0) cat("\n")4 M- E) x6 T6 G
        cat(".")9 T3 x, `9 W# M" x4 C
      }
    * c4 s/ T# |4 [)    " Y- p+ ]2 H% Q

    1 G- O: t0 P4 m0 B% L: Eepochs <- 500
      R8 r3 [( m& E" s, K
    , K' ]  J7 g: J7 J) y  s# Fit the model and store training stats
    0 [' y' h% \( X) @5 ~history <- model %>% fit(! O% L9 j' a4 _0 v# L. m  A# {
      train_data,# C' S1 J2 {- z& z$ G$ K0 `8 a
      train_labels,: `) _9 C" M" ]9 Z: I
      epochs = epochs,5 ]# `7 x" G! ?& f0 y
      validation_split = 0.2,
    + F# ~+ v' F/ R* n  verbose = 0,8 a: x% Y* w7 l: X% a
      callbacks = list(print_dot_callback)4 i8 l3 u- ~/ q! O+ i- P
    )7 i2 g& ?. F% e/ g% r  V+ |

    ) X: O1 p9 Z* qlibrary(ggplot2)$ r4 D% t1 h4 M0 U  ^. h7 t' m
    % D7 m4 {% L! h$ h4 z; u3 a1 g
    plot(history, metrics = "mean_absolute_error", smooth = FALSE) +: D+ }: o" e$ v* ^: ~8 g3 _
      coord_cartesian(ylim = c(0, 5))5 h8 [  k7 a& N% ^. ~
    ; k- D& ^& p  J) `# C$ \5 {

    3 k4 b" F5 c% e' F, E; ~9 x
    # l: Y: ?5 r) q! m; k( g小结
    - \# y, u) b5 x+ ^2 W' R& m1)回归常用的损失函数是均方误差(MSE)。7 N5 ^2 X- \  U6 M( O
    2)常见的回归指标是平均绝对误差(MAE)。
    8 U) T9 G4 f8 p; P3)如果输入数据的特征具有不同的取值范围,应该先进行预处理,对每个特征单独进行缩放。/ E# V+ t$ R' e& i. X
    4)如果可用训练数据很少,最好使用隐藏层较少(通常只有1~2个)的小型网络,以避免严重的过拟合。5 p$ W! L9 l9 E$ S1 B. o
    $ s" j# O  ~5 e

    & C" h2 C( p, z% j2 Z4 q2 w$ Q. a( }" l) D/ @/ q1 Q
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-5-9 08:00 , Processed in 0.370829 second(s), 51 queries .

    回顶部