1 01:28:20,000 --> 02:22:13,333 同学们欢迎回到自然园处理这门课 2 02:35:00,000 --> 02:53:20,000 啊这节课呢 3 02:53:20,000 --> 03:32:46,666 我给大家介绍一下我们课程的 4 03:32:46,666 --> 03:50:33,333 总体框架 5 04:04:26,666 --> 05:17:13,333 下面呢是一个课程大概的组织架构 6 05:45:00,000 --> 06:34:26,666 我们这个课程分为三大部分 7 06:56:40,000 --> 07:15:33,333 在第一部分 8 07:20:33,333 --> 08:02:13,333 我们介绍一些基本的概念 9 08:53:20,000 --> 09:07:46,666 首先呢 10 09:26:06,666 --> 09:49:26,666 在这节课里面 11 10:11:40,000 --> 11:00:33,333 我们有一个课程的整体的框架 12 11:35:00,000 --> 12:17:46,666 那么在后面的几节课里 13 12:32:46,666 --> 13:18:53,333 我将给自然语言处理是什么 14 13:27:13,333 --> 14:15:00,000 还有自然语言处理所研究的主要任务 15 14:22:46,666 --> 15:16:40,000 以及为什么要以机器学习的角度 16 15:19:26,666 --> 15:50:33,333 来享受自然语言处理 17 16:03:53,333 --> 16:31:40,000 给一个深入的介绍 18 17:23:20,000 --> 17:49:26,666 之后的几节课呢 19 17:56:40,000 --> 18:19:26,666 我们将学习到 20 18:33:53,333 --> 19:17:13,333 数数的基本统计方法 21 19:23:53,333 --> 19:52:13,333 和数学建模的思想 22 20:13:53,333 --> 20:34:26,666 我们管这几节课 23 20:34:26,666 --> 21:19:26,666 叫 counting relative frequencies 24 21:48:20,000 --> 22:15:33,333 这里的模型基本上 25 22:21:40,000 --> 23:03:20,000 都是通过统计意义上的频率 26 23:11:40,000 --> 24:02:46,666 相对数量来对概率进行建模的 27 24:44:26,666 --> 25:10:00,000 在下面几节课呢 28 25:21:06,666 --> 25:56:40,000 我们将介绍一种 29 25:59:26,666 --> 26:30:33,333 叫做判别式模型的 30 26:32:46,666 --> 27:02:13,333 自然语言处理建模方法 31 27:31:40,000 --> 27:44:26,666 其中呢 32 27:47:46,666 --> 28:43:20,000 最重要的统计知识叫做特征项链 33 29:16:06,666 --> 29:47:46,666 我们会以项链空间 34 29:47:46,666 --> 30:15:00,000 为最基本的数学模型 35 30:21:06,666 --> 31:03:20,000 对自然语言处理的任务进行建模 36 31:20:33,333 --> 31:57:46,666 那我们将讨论以这个切入点 37 32:06:40,000 --> 33:00:00,000 为核心的所有相关的机器学习方法 38 33:58:20,000 --> 34:24:26,666 在下面几节课呢 39 34:43:53,333 --> 35:27:13,333 我们叫 unified linear models 40 36:05:33,333 --> 36:20:00,000 我们会把 41 36:42:13,333 --> 37:17:46,666 上一节课介绍的这些 42 37:33:53,333 --> 38:04:26,666 基于特征项链的模型 43 38:25:33,333 --> 38:56:06,666 和概率统计的模型 44 39:10:00,000 --> 39:58:20,000 统一到完全相同的一个 45 40:06:06,666 --> 40:25:00,000 框架底下 46 40:35:00,000 --> 41:05:00,000 这个框架呢我管他叫 47 41:23:20,000 --> 42:01:40,000 泛化的感知机模型 48 42:16:40,000 --> 42:51:06,666 也就是单层的神经网络 49 43:06:40,000 --> 43:41:40,000 我们会讨论这个最基本的 50 43:46:06,666 --> 44:18:20,000 线性模型的优化方式 51 44:38:53,333 --> 45:21:40,000 以及相关的机器学习的一些 52 45:26:40,000 --> 45:50:00,000 最基本的概念 53 45:53:20,000 --> 46:40:33,333 比如过拟核和泛化性问题 54 47:30:33,333 --> 47:57:13,333 在下面几节课呢 55 48:18:20,000 --> 48:31:40,000 我们会 56 48:45:33,333 --> 49:17:46,666 把上几节课的 57 49:25:33,333 --> 50:03:53,333 一个泛画的感知金模型 58 50:11:06,666 --> 50:41:40,000 进行一个理论上的升华 59 51:13:20,000 --> 51:45:00,000 我们会对数数的模型 60 51:50:00,000 --> 52:21:40,000 也进行一个理论的升华 61 52:43:53,333 --> 53:27:46,666 最后发现所有这些模型背后的 62 53:33:20,000 --> 54:12:13,333 嗯一些数学意义呢 63 54:23:53,333 --> 55:04:26,666 他可以归结于信息论的范畴 64 55:29:26,666 --> 55:51:06,666 在这节课里呢 65 55:55:00,000 --> 56:16:06,666 我们将会研究 66 56:16:06,666 --> 56:56:06,666 怎么用信息论里面的基本概念 67 56:59:26,666 --> 57:32:46,666 比如信息商 68 57:41:40,000 --> 58:25:00,000 困惑度等等这些概念 69 58:30:33,333 --> 59:39:26,666 我们推出前面几节课的各大类模型 70 60:09:26,666 --> 60:32:46,666 并且我们还介绍 71 60:40:33,333 --> 61:16:06,666 这些基本的信息论概念 72 61:19:26,666 --> 62:15:00,000 在自然语言处理里面的大体应用方向 73 63:15:33,333 --> 63:50:00,000 第一部分的最后几节课呢 74 63:56:40,000 --> 64:15:00,000 我们将引入 75 64:25:33,333 --> 64:52:46,666 引变量这个概念 76 65:41:06,666 --> 66:20:33,333 就是机器学习的训练数据里 77 66:27:46,666 --> 67:01:06,666 并不能直接观察到的 78 67:07:13,333 --> 67:41:40,000 这样一些数据和变量 79 68:17:13,333 --> 68:36:40,000 我们会介绍 80 68:43:53,333 --> 69:35:00,000 解决引边量问题的最基本的思想 81 70:04:26,666 --> 71:03:20,000 并且呢引入一个叫做期望最大 82 71:18:20,000 --> 71:52:13,333 expectation maximization 83 71:57:13,333 --> 72:26:40,000 也就是 em 的算法 84 72:48:53,333 --> 73:02:13,333 我们会看到 85 73:02:13,333 --> 73:51:06,666 这个算法在自然语言处理领域到 86 74:01:40,000 --> 74:25:00,000 一些典型应用 87 74:47:13,333 --> 75:01:06,666 并且呢 88 75:08:53,333 --> 76:06:40,000 我们会根据前面这些课学到的基本 89 76:10:33,333 --> 76:44:26,666 概率和信息论的知识 90 76:48:53,333 --> 77:37:13,333 来推导出 em 算法本身 91 78:32:13,333 --> 79:04:26,666 那第一部分基本上是 92 79:05:00,000 --> 79:36:06,666 自然语言处理模型的 93 79:43:20,000 --> 79:54:26,666 基础 94 80:07:46,666 --> 80:27:46,666 这些基础呢 95 80:33:20,000 --> 81:17:13,333 决定了我们对第二部分 96 81:18:20,000 --> 81:42:46,666 第三部分的学习 97 82:27:13,333 --> 82:48:20,000 在第二部分呢 98 82:55:33,333 --> 83:13:53,333 我们将会介绍 99 83:13:53,333 --> 83:57:13,333 自然语言处理非常独特的一些 100 84:00:33,333 --> 84:22:13,333 机器学习算法 101 84:38:20,000 --> 85:03:53,333 为什么说独特呢 102 85:07:13,333 --> 85:39:26,666 因为这些机器学习算法 103 85:53:53,333 --> 86:22:46,666 大概上有别于 104 86:41:06,666 --> 86:59:26,666 图像处理 105 87:15:33,333 --> 88:05:33,333 等其他机器学习的应用领域 106 88:47:46,666 --> 89:35:33,333 我们发现自然语言里面很多现象 107 90:01:06,666 --> 90:22:13,333 是结构现象 108 90:41:06,666 --> 90:57:13,333 比如一句话 109 90:58:53,333 --> 91:26:40,000 他就是一个词的序列 110 91:38:53,333 --> 92:03:53,333 他本身是一个结构 111 92:30:33,333 --> 93:05:00,000 你要深入理解这句话呢 112 93:10:33,333 --> 93:41:06,666 你需要一些句法上的 113 93:43:53,333 --> 94:14:26,666 语意上的结构表达 114 94:18:53,333 --> 94:47:46,666 这些语言学的结构呢 115 94:56:06,666 --> 95:18:53,333 也属于结构问题 116 95:56:40,000 --> 96:24:26,666 如何让机器学习算法 117 96:24:26,666 --> 96:50:00,000 处理好这些结构 118 96:52:46,666 --> 97:15:33,333 是我们第二部分 119 97:22:46,666 --> 97:47:46,666 所讲述的内容 120 98:27:13,333 --> 98:47:46,666 前几节课呢 121 99:03:53,333 --> 99:29:26,666 我们首先把 122 99:51:40,000 --> 100:25:00,000 带绿的数数的模型 123 100:47:13,333 --> 101:07:46,666 从简单的 124 101:20:33,333 --> 101:40:33,333 分类的问题 125 102:20:33,333 --> 102:35:33,333 推演成 126 102:47:46,666 --> 103:38:20,000 如何解决序列结构的问题 127 104:16:40,000 --> 104:58:20,000 我们管这些模型叫生成模型 128 105:28:53,333 --> 105:41:06,666 所以呢 129 105:42:46,666 --> 106:47:13,333 这些课程讨论的是生成序列标注问题 130 107:12:46,666 --> 107:43:20,000 有一个最典型的模型 131 107:46:40,000 --> 108:21:40,000 叫做饮马尔可夫模型 132 109:07:13,333 --> 109:31:40,000 下面几节课呢 133 109:40:00,000 --> 109:59:26,666 我们会讨论 134 110:21:40,000 --> 110:48:53,333 限量空间模型 135 111:10:00,000 --> 111:48:53,333 对于同样的问题的处理方式 136 112:07:46,666 --> 112:22:46,666 也就是说 137 112:31:06,666 --> 112:46:06,666 我们会把 138 113:07:46,666 --> 113:27:13,333 判别模型 139 113:54:26,666 --> 114:32:46,666 用到序列标注上 140 114:41:40,000 --> 115:26:40,000 那么这里面有一个典型的模型呢 141 115:37:13,333 --> 116:06:06,666 叫做条件随机场 142 116:17:13,333 --> 116:45:00,000 肯定是呢 random field 143 117:04:26,666 --> 117:26:40,000 或者 crf 144 118:28:53,333 --> 118:54:26,666 在下面几节课呢 145 119:11:40,000 --> 119:48:53,333 我们会讨论一种新的结构 146 120:02:46,666 --> 120:27:13,333 叫做序列切分 147 120:53:53,333 --> 121:28:53,333 其中有一个典型的例子呢 148 121:43:53,333 --> 122:01:06,666 就是中文 149 122:19:26,666 --> 122:32:13,333 一句话 150 122:52:46,666 --> 123:36:40,000 他由一个字符的序列构成 151 124:05:00,000 --> 124:37:46,666 如何把这个字符的序列 152 124:48:53,333 --> 125:16:06,666 切成词的序列 153 125:30:33,333 --> 125:49:26,666 这么样的问题 154 126:31:40,000 --> 127:10:33,333 我们会针对这样的问题呢 155 127:31:40,000 --> 128:20:33,333 把过去学过的概率的生成模型 156 128:25:33,333 --> 129:06:06,666 或者集于项链的判别模型 157 129:15:00,000 --> 129:41:06,666 都分别对他建模 158 130:12:13,333 --> 130:47:13,333 这里面一个典型的模型呢 159 130:55:00,000 --> 131:32:13,333 叫做半条件随机场 160 131:38:20,000 --> 132:12:13,333 或者3米 mark of crf 161 133:07:46,666 --> 133:33:20,000 在下面几节课呢 162 133:36:40,000 --> 134:15:00,000 我们继续结构的演化 163 134:23:20,000 --> 135:00:33,333 我们会讨论竖状结构 164 135:10:33,333 --> 135:47:46,666 是如何去进行生成的 165 136:17:13,333 --> 136:43:20,000 我们会把同样的 166 136:46:40,000 --> 137:31:06,666 生成式模型和判别式模型 167 137:59:26,666 --> 139:00:00,000 改造成对于竖状结构的预测模型 168 139:40:33,333 --> 140:17:46,666 这里面一个典型的结构呢 169 140:23:20,000 --> 140:47:46,666 是锯法的结构 170 141:51:40,000 --> 142:21:40,000 一个典型的模型呢 171 142:41:06,666 --> 143:31:40,000 是概率的上下文无关语法模型 172 144:12:46,666 --> 144:48:20,000 另外呢条件随机场 173 144:52:46,666 --> 145:43:53,333 也会被泛化成树状的条件随机场 174 146:52:46,666 --> 147:17:13,333 在下面几节课呢 175 147:39:26,666 --> 148:02:46,666 我们会研究一下 176 148:33:20,000 --> 148:55:33,333 结构预测里面 177 149:08:53,333 --> 149:28:53,333 算法复杂度 178 149:42:46,666 --> 149:50:00,000 和 179 150:04:26,666 --> 150:22:13,333 模型精度 180 150:29:26,666 --> 151:27:13,333 或者说你的特征销量空间之间的关系 181 151:45:33,333 --> 152:28:53,333 并且呢我们将讨论一类 182 152:52:13,333 --> 153:02:13,333 能够 183 153:31:40,000 --> 154:16:40,000 中和算法复杂度和 184 154:36:40,000 --> 155:35:33,333 限量空间复杂度的内在矛盾的算法 185 155:58:20,000 --> 156:50:00,000 也就是基于转移的结构预测算法 186 158:10:33,333 --> 158:36:40,000 在下面几节课呢 187 158:58:20,000 --> 159:18:53,333 我们将讨论 188 159:35:00,000 --> 160:22:13,333 生成式的结构预测模型的一个 189 160:46:06,666 --> 161:25:00,000 很泛化的普遍的版本 190 161:34:26,666 --> 162:13:53,333 叫做贝耶斯学习 191 162:22:13,333 --> 162:53:20,000 或者叫做贝耶斯网络 192 163:20:33,333 --> 163:45:00,000 我们会了解到 193 164:02:13,333 --> 164:55:00,000 当训练数据里面有隐边亮的时候 194 165:07:13,333 --> 165:45:00,000 被夜思网络如何去学习 195 166:12:46,666 --> 166:57:46,666 我们也会对比贝叶斯学习 196 167:07:13,333 --> 168:11:40,000 和前面基于数数的统计学习之间的 197 168:28:20,000 --> 168:57:46,666 相同点和不同点 198 170:24:26,666 --> 170:53:53,333 在课程的最后一部分 199 170:53:53,333 --> 171:18:20,000 也就是第三部分 200 171:44:26,666 --> 172:03:20,000 我们会介绍 201 172:20:00,000 --> 173:26:40,000 神经网络对于自然处理建模的作用 202 173:56:06,666 --> 174:43:53,333 这一部分将以第一部分所介绍的 203 174:46:40,000 --> 175:06:06,666 概率知识 204 175:12:46,666 --> 175:35:00,000 信息论知识 205 175:42:46,666 --> 176:24:26,666 引边量知识为基础 206 176:46:40,000 --> 177:29:26,666 把第一部分介绍的 207 177:32:46,666 --> 178:30:00,000 单层的感知机模型以及他的优化算法 208 178:40:33,333 --> 179:34:26,666 扩展到多层感知机模型 209 179:39:26,666 --> 180:16:06,666 也就是 multi layer perceptron 210 180:25:00,000 --> 181:16:06,666 以及更复杂的网络结构里 211 181:33:53,333 --> 181:52:13,333 我们会发现 212 182:01:06,666 --> 182:36:40,000 所有这些模型内在上 213 182:48:53,333 --> 183:06:40,000 是统一的 214 183:19:26,666 --> 183:36:06,666 和整体的 215 184:10:33,333 --> 184:56:40,000 在这一部分的前几节课里呢 216 185:13:20,000 --> 185:40:00,000 我们会给大家讨论 217 185:50:00,000 --> 186:09:26,666 如何把一个 218 186:18:53,333 --> 186:39:26,666 线性的模型 219 186:50:33,333 --> 187:00:33,333 通过 220 187:17:13,333 --> 187:55:33,333 层数堆叠的方法变成一个 221 187:58:53,333 --> 188:21:40,000 非线性的模型 222 188:59:26,666 --> 189:23:53,333 我们会介绍一个 223 189:35:00,000 --> 190:15:33,333 最基本的最简单的 224 190:37:46,666 --> 190:57:13,333 用神经网络 225 191:11:06,666 --> 192:02:46,666 去做文本分类的解决分类任务的模型 226 192:53:20,000 --> 193:22:13,333 在下面几节课里呢 227 193:43:53,333 --> 194:10:00,000 我们将通过对比 228 194:23:53,333 --> 195:02:13,333 单层模型和多层模型 229 195:20:33,333 --> 195:36:06,666 背后的 230 195:48:20,000 --> 196:07:13,333 能力差别 231 196:33:20,000 --> 196:58:53,333 着重的讨论 232 197:07:13,333 --> 197:25:33,333 神经网络 233 197:40:33,333 --> 198:05:00,000 的一个关键技术 234 198:19:26,666 --> 198:43:53,333 叫做表示学习 235 199:18:20,000 --> 199:38:53,333 我们会了解 236 199:58:20,000 --> 200:26:06,666 表示学习的含义 237 200:46:40,000 --> 201:08:20,000 以及不同的 238 201:16:06,666 --> 201:28:20,000 实现 239 201:40:33,333 --> 202:05:33,333 自然语言处理 240 202:12:13,333 --> 202:56:06,666 表示学习的神经网络架构 241 203:34:26,666 --> 203:59:26,666 以及这些架构的 242 204:12:13,333 --> 204:36:40,000 不同优化方法 243 205:33:20,000 --> 206:02:46,666 在下面的几节课呢 244 206:26:06,666 --> 207:23:53,333 我们会针对第二部分所讨论的 245 207:36:06,666 --> 208:22:13,333 不同的特点的结构 246 208:48:20,000 --> 209:22:13,333 进行神经网络的建模 247 209:58:20,000 --> 210:11:40,000 我们会 248 210:25:00,000 --> 210:56:40,000 把基于转移的方法 249 211:12:46,666 --> 211:53:53,333 和非基于转移的方法 250 212:02:46,666 --> 212:26:40,000 都神经网络换 251 212:48:20,000 --> 213:14:26,666 并通过对比 252 213:45:33,333 --> 214:22:13,333 来观察到神经网络解决局 253 214:22:13,333 --> 214:48:53,333 结构预测问题的 254 215:04:26,666 --> 215:15:33,333 特点 255 216:28:20,000 --> 216:57:13,333 那么在下面几节课呢 256 217:19:26,666 --> 217:48:53,333 我们会介绍神经网络 257 217:56:40,000 --> 218:29:26,666 由于他的强大表达能力 258 218:40:00,000 --> 219:21:06,666 所能做到的传统统计模型 259 219:21:06,666 --> 219:50:33,333 难以做到的一些任务 260 220:01:06,666 --> 220:13:20,000 其中呢 261 220:33:20,000 --> 221:01:40,000 很经典的任务就是 262 221:12:46,666 --> 221:44:26,666 对两个不同的文本 263 221:53:20,000 --> 222:25:00,000 进行复杂建模的任务 264 222:47:13,333 --> 223:26:40,000 比如我们将研究序列到序列 265 223:43:20,000 --> 224:32:13,333 sequence to sequence 这样的模型 266 224:46:40,000 --> 225:46:06,666 他可以把一个文本转换成另一个文本 267 226:05:33,333 --> 226:32:46,666 我们也将介绍 268 226:44:26,666 --> 227:38:20,000 对两个文本之间进行对比 269 228:16:06,666 --> 228:55:33,333 和理解的这样的模型 270 228:55:33,333 --> 229:28:53,333 比如说啊一个 271 229:43:53,333 --> 230:22:13,333 根据文本的问答模型 272 231:15:00,000 --> 231:41:06,666 啊下面几节课呢 273 232:00:00,000 --> 232:44:26,666 我们还是针对神经网络的特点 274 233:01:40,000 --> 233:15:33,333 来介绍 275 233:31:06,666 --> 233:58:53,333 玉训练这个概念 276 234:20:00,000 --> 235:21:06,666 以及用神经网络如何进行迁移学习 277 235:26:06,666 --> 235:40:00,000 也就是说 278 235:42:46,666 --> 236:13:53,333 把一个问题学到的知识 279 236:15:33,333 --> 236:44:26,666 用到另一个问题上的 280 236:46:06,666 --> 237:25:00,000 所有基本的这些想法和思路 281 238:33:20,000 --> 239:29:26,666 在我们课程的最后几个部分呢 282 239:51:06,666 --> 240:17:46,666 我们会重点讨论 283 240:25:00,000 --> 241:05:33,333 如何用神经网络 284 241:26:06,666 --> 241:41:40,000 来解决 285 241:53:53,333 --> 242:27:46,666 隐变量的建模问题 286 242:58:53,333 --> 243:30:33,333 在这一部分内容里面呢 287 243:41:06,666 --> 244:15:33,333 我们既会讨论分类问题 288 244:15:33,333 --> 244:48:20,000 也会讨论结构预测问题 289 245:08:53,333 --> 245:22:13,333 但是呢 290 245:30:33,333 --> 246:33:20,000 我们的讨论着重点在于一个泛化的 291 247:02:13,333 --> 247:38:20,000 期望最大就是 em 292 247:48:20,000 --> 248:02:46,666 方法上 293 248:48:20,000 --> 249:13:20,000 我们不会去讨论 294 249:26:40,000 --> 250:03:53,333 神经网络的贝叶斯方法 295 250:12:46,666 --> 251:05:00,000 因为这些方法目前在自然语言处理中 296 251:07:46,666 --> 251:36:40,000 应用还相对比较少 297 253:25:00,000 --> 253:54:26,666 这部分的内容就讲完了 298 253:56:06,666 --> 254:14:26,666 咱们下次再见