机器学习的术语:
1.标签:标签指的是我们要对其作出预测的目标。比如说小麦的价格,鱼的种类
2.特征:特征是输入变量。我们通过特征来判断标签。比如判断一件东西是不是叶子。可以通过它的颜色,形状等等
3.样本:有标签样本&无标签样本
有标签样本:已明确表明为垃圾邮件的信件;使用有标签样本训练模型
无标签样本:使用无标签样本来检测模型的正确性
4.模型:通过上述方式,可以定义特征和标签之间的关系 这就是模型。它包括两个生命周期:训练和判断
回归模型:连续的。股票的价格
分离模型:离散的。
深入了解机器学习:
1.线性回归:Y = WX+b W是斜率。W和X可能有小下标,因为它有多个维度
2.误差:用方差来表示。 (标准值-预测值)^2 有时是((标准值-预测值)^2 )/D
3经验风险最小化:使整体误差达到最小
4损失:损失即误差
减小误差的方法:
1.寻找一个合适的学习梯度,使其以更少的步数达到最低点。该学习梯度不能太大也不能太小。太大将造成永远无法到达最低点。太小造成步数过多
2.小批量梯度下降法:使用10-1000个样本
3.迭代方法
4.梯度下降法(凸型结构):
1)起点并不重要,可选择0或随机值
2)梯度是偏导数的矢量,可以让我们了解到哪个方向离目标值更远或更近
5.学习速率
6.超参数:编程人员在机器学习算法中用于调整的旋钮;学习速率就是一个超参数
编程案例
根据加尼福利亚洲的数据,基于单个输入特征预测各城市街区的房屋中位数,通过调整模型的超参数提高模型准确率。
引入需要的包
|
|
加载数据集
|
|
处理数据和获取数据
|
|
优化器
|
|
定义输入函数
|
|
训练模型
|
|