第一单元阅读笔记

本文由 Gideon（AI）翻译自英文原版。

第一单元阅读内容整理如下。

FOA 第 1.1 节：Finding Out About（认知活动）

本节的核心论点是：进步要求我们充分认识到自己作为学者、语言使用者乃至适应性生物所具备的认知基础。人类已进化出一套广泛的策略，用以从环境中获取有用信息，包括：对正确路径作出初步猜测、运用复杂的特征集判断是否走在正确的方向上，以及不断向前推进。

作为人类，语言是我们最主要的信息搜索媒介。
- 口头语言——说与听
  - 如何获得我们想要的东西
- 书面记录重要事实
与我们的搜索目标相关
WWW –> 信息量过于庞大
FOA 的核心关注点：
- 含义：涉及词语、句子、问题和文档的语义
- 理解文档与主题的语义 –> “关于性”（aboutness），这一概念在图书馆学传统中最为典型
良好的技术解决方案必须以更广泛的语言哲学为基础，同时也可以为其做出贡献
电子工件——从电子邮件和万维网语料库，到数百万用户的浏览行为，这些都在寻找信息——为语言新理论提供了实证基础，这些理论很可能具有革命性意义
FOA 过程中，浏览者的阅读过程可以分为三个阶段：
- 提出问题
  - 用户会有疑问
  - 用户的信息需求构成了其认知状态
  - 查询 –> 查询语言
  - 问题往往表述模糊
  - 将内部认知状态转化为对问题的外部表达
- 构建答案
  - 需要考虑以下几点：
    - 能否将用户模糊的问题转化为更清晰的表述？
    - 是否自身知道答案？
    - 是否能够将答案用语言表达出来？
    - 能否用用户能够理解的方式表达答案？
    - 能否为用户提供理解答案所需的背景知识？
  - 问答：搜索引擎
  - 每个段落视为一个"文档"
  - 所有文档的集合 –> 语料库
  - 当语料库较大时，检索相关信息较为困难
  - 当文档集合较小时，检索效率更高
- 评估答案
  - 就像用户排队等待向教授提问
  - 提问者与回答者之间"闭环"的形成
  - 用户对所获答案的相关性作出评估
  - FOA 是提问者与回答者之间的对话，并不以搜索引擎第一次返回答案为终点
  - 提问者与回答者交换段落内容
在 IR 传统框架内工作
- IR（信息检索）是一个自计算机首次被用于词频统计以来就存在的领域
- IR 大量借鉴了语言学领域的成果，尤其是计算语言学
- 能够搜索和检索整个生物医学文献、全国司法体系或所有主要报纸杂志文章的计算机，已经在医生、律师、记者、学生……所有人和互联网之间创造了新的市场
- “搜索引擎"并非指某一具体实现，而是指一个理想化的系统，代表了目前实际使用的各代各类搜索引擎的共同模型
- 搜索引擎本质上是一种匹配：将用户查询中提到的描述性特征，与共享这些特征的文档进行匹配

IES 第 1.1 节和第 1.2 节

1.1 什么是信息检索

信息检索关注的是对大型电子文本集合及其他人类语言数据的表示、搜索与处理。

1.1.1 网络搜索

机器识别出包含查询词的一组网页，为每个网页计算相关性得分，消除重复和冗余页面，生成剩余页面的摘要，最后将摘要和链接返回给用户浏览。

这一快照必须由网络爬虫持续采集和更新，爬虫同样运行在数百乃至数千台机器组成的集群上，定期（例如每周一次）下载每个页面的最新副本。

考虑包含"信息"和"检索"这两个词的数百万网页——其中许多与信息检索这一主题相关，但其范围远不如排名前十的页面广泛。

在各种情境和需求下高效实现并评估相关性排名算法，是信息检索的核心问题，也是本书的中心议题。

1.1.2 其他搜索应用

桌面和文件系统搜索是另一个广泛使用的 IR 应用示例。桌面搜索引擎为本地硬盘及可能通过局域网连接的磁盘上存储的文件提供搜索和浏览功能。

1.1.3 其他 IR 应用

文档路由、过滤与选择性分发是对典型 IR 流程的反转
文本聚类与分类系统根据共同属性对文档进行分组
摘要系统将文档压缩为少数关键段落、句子或短语以描述其内容
信息抽取系统识别地点、日期等命名实体，并将这些信息整合为描述实体间关系的结构化记录
话题检测与跟踪系统识别新闻文章流等信息源中的事件，并随事件演变持续追踪
专家搜索系统识别组织中在特定领域具有专业知识的成员
问答系统整合多个来源的信息，为具体问题提供简洁答案
多媒体信息检索系统将相关性排名及其他 IR 技术扩展到图像、视频、音乐和语音领域

信息检索系统

1.2.1 基本 IR 系统架构

Screenshot 2019-01-12 18.31.07.png

相关性排名的基本目标通常以概率排名原则（PRP）来表达，其表述如下：

如果 IR 系统对每个查询的响应是按相关概率递减顺序对文档集合进行排名，那么系统对用户的整体效果将达到最大化。

该原则忽略了实践中必须考虑的相关性的重要方面。

在处理不同情境时，我们不仅需要应对不同类型的文档格式。

MIR 第 1.1–1.4 节

本节主要介绍了 IR 的发展历史以及 IR 多年来的演变。在万维网出现之前，获取信息的主要途径是图书馆。随着 WWW 的出现，一切迅速发生了变化。

信息的相关性仍然取决于每个人自身的判断。

IR 系统仍然遵循基于用户查询的信息检索和排名流程。

全新形式的百科全书将会出现，预先编织好联想索引的网络，随时可以放入 Memex 中并在那里得到扩充 [303]

由于网络的出现，信息搜索方式发生了变化：

文档集合本身的特性
集合的规模以及每日提交的用户查询量
文档集合的庞大规模
网络不仅是文档和数据的存储库，也是开展商业活动的媒介
网络搜索源于网络广告及其他经济利益驱动

安全、隐私、版权和专利权、扫描光学字符识别以及跨语言检索，都是网络上的现实问题。

最难懂的知识点：

我们都知道，如今我们从各种渠道获取的信息越来越多，如何有效地获取所需信息是关键所在。从阅读材料来看，它向我们介绍了过滤数据、获取所需信息的过程。作为人类，我们可以通过阅读内容来筛选出相关信息，但要教会机器做到类似的事情，最有效的方法是什么？