在线图像描述和OCR

  • 作者
  • NVDA兼容版本: 2018.3至2019.1
  • 下载开发版

这个插件的目的是添加在线图像识别引擎到 NVDA。 有两种类型的引擎。OCR 和图像描述。 OCR 从图像中提取文本。 图像描述描述以文本形式描述图像中的视觉特征。 如一般描述、颜色类型地标等。使用这个插件需要联网,因为需要访问在线API。 这些不同的API在插件里叫做引擎。

引擎设置

您可以选择识别引擎, 并在 NVDA 设置对话框的 * 在线图像描述 * 类别中对其进行详细配置。

加载项的作者注册了具有免费 API 配额的帐户, 并在中文站 上设置了代理服务器, 以便在开始时更容易测试这个插件。测试配额是有限的, API 提供商可能随时取消测试配额。 强烈建议根据每个引擎中的指南注册您自己的密钥。

以下设置适用于所有引擎。

  • 识别后将结果复制到剪贴板: 如果启用, 识别结果将在识别后复制到剪贴板。
  • 使用弹出对话框展示识别结果 如果启用,识别结果文本将显示在弹出窗口中, 而不是直接播报语音或盲文消息·。
  • 交换按一次和按两次的效果, : 默认情况下, 只有在按下相应手势两次时才会显示虚拟结果文档, 如果您经常使用该手势, 则可以启用此选项, 以便只需按一次即可获得结果文档。
  • 为调试目的启用更详细的日志记录: 某些日志对于调试至关重要, 但会影响性能并占用大量空间。只有在插件作者或 NVDA 开发人员特别指示的情况下, 才打开此功能。
  • 代理类型: 您使用的是哪种类型的代理。如果你不知道什么是代理,请不要更改这个选项。
  • 代理地址: 您的代理的完整地址。如果你不知道什么是代理, 就保持原来的样子。 如果您选择使用代理, 您的代理将在保存前进行验证, 在验证后, 将提示您告知结果。

以下设置在所有引擎中的含义相同, 这里统一做出说明:

  • API 访问类型: 这控制了访问相应 API 终结点的方式。 如果选择 "使用公共配额", 则在 addon 作者注册的帐户中使用免费配额。 如果您选择 "使用自己的 API 密钥", 此加载项将使用您自己帐户中的配额。
  • APP ID、API 密钥或 API 密钥: 如果要使用自己帐户中的配额, 则需要相应的访问令牌。某些引擎只需要 API 密钥。 有些引擎需要两个令牌。 只有在 API 访问类型中选择 "使用自己的 API 密钥" 时, 这些功能才有效。

请注意, 结果的质量和准确性受到许多因素的影响:

  • 引擎商使用的模型和技术
  • 上传图像的质量
  • 导航对象是否隐藏在其他东西后面
  • 屏幕分辨率

在线图像描述

键盘快捷键

NVDA + alt + P 识别当前导航对象然后读取结果。如果按两次, 请打开虚拟结果文档。

Control+Shift+NVDA+P 识别剪贴板中图像。然后读取结果。如果按两次, 请打开虚拟结果文档。 它接受两种内容:

它接受两种内容。 首先是一个直接复制的图像 (CF _ DIB), 你可以把它放到剪贴板通过在浏览器中使用打印屏幕键或复制图像的屏幕截图。

第二是在资源管理器中复制的文件。(CF _ HDROP)

如果它不是一个图像。这个插件会告诉你, 剪贴板中没有图像。 如果剪贴板中只有文本, 此加载项将尝试将其用作本地文件的路径。如果它不是路径, 此加载项将告诉您: 剪贴板中的文本不是有效的路径。如果相应的文件不是图像, 这个插件会告诉你: 剪贴板中指定的文件不是图像。

这里有三个引擎可用。

奥利弗·埃德霍尔姆提供的人工智能引擎

这是一个免费的引擎给图像的描述。 如果图像中有文本, 它将在图像上执行 OCR。 此引擎有两个设置。

  • 访问类型此插件的作者已在 www.nvdacn.com 上为无法访问 google 服务访问的用户设置了代理。 如果要使用此代理, 请在访问类型设置中选择 Www.nvdacn.com 上使用代理。 如果您想在以下两个 Microsoft 引擎中使用自己的密钥。请按照 Microsoft Azure OCR 部分中的指南操作。
  • 结果语言: 默认为英语。如果配置的语言不是英语, 则说明可能存在翻译问题, 因为它是由机器翻译服务自动生成的。

安全:

  • 这些图像被发送到 Google 云平台上托管的脚本进行分析。分析后, 图像将从服务器中删除, 并且将永远不会再被看到。

微软 Azure 图像分析

此引擎根据图像内容提取一组丰富的视觉功能。 只支持英文。如果要使用其他语言的说明, 可以使用 Microsoft Azure 图像描述器

视觉特征包括:

  • 成人-检测图像在本质上是否色情 (描绘裸体或性行为)。性暗示内容也被检测到。
  • 品牌-检测图像中的各种品牌, 包括大致位置。品牌论点仅提供英文版本。
  • 类别-根据文档中定义的分类对图像内容进行分类。
  • 颜色-确定强调色、主导颜色以及图像是否为黑色和白色。
  • 描述-描述图像内容与一个完整的句子在支持的语言。
  • 人脸-检测图像上是否有人脸。如果存在, 则生成坐标、性别和年龄。
  • 图像类型-检测图像是不是剪贴画,是不是简笔画。
  • 对象-检测图像中的各种对象, 包括大致位置。"对象" 参数仅在英语中提供。
  • 标签-标记图像与图像内容相关的单词的详细列表。

某些功能还提供了其他详细信息:

  • 名人-识别名人, 如果检测到图像。
  • 地标-如果在图像中检测到地标, 则标识地标。

微软 Azure 图像描述

此引擎生成一个图像的简单描述。这个描述是通过检测到的一系列标签合成的。可以为每个图像生成多个说明。描述是根据可能性排序的。 此引擎有两个设置。 * 语言服务将返回图像描述的语言。默认情况下为英语。

  • 语言: 用于识别的文本语言。默认情况下为英语。
  • 最多返回多少个可能的描述 要返回的描述的最大数量。默认值为1。

在线 OCR

Online engines rely on the use and presence of the following services.

https://www.nvdacn.com

https://ocr.space/ocrapi

https://azure.microsoft.com/en-us/services/cognitive-services/

http://ai.qq.com

http://ai.baidu.com

http://ai.sogou.com/

键盘快捷键

NVDA+Alt+R 使用在线 OCR 引擎识别当前导航对象然后读取结果。如果按两次, 请打开虚拟结果文档。

Control+ Shift + NVDA + R 识别剪贴板中的图像与在线 OCR 引擎。然后读取结果。如果按两次, 请打开虚拟结果文档。 它接受两种内容:

它接受两种内容。 首先是一个直接复制的图像 (CF _ DIB), 你可以把它放到剪贴板通过在浏览器中使用打印屏幕键或复制图像的屏幕截图。

第二是在资源管理器中复制的文件。(CF _ HDROP) 如果它不是一个图像。这个插件会告诉你, 剪贴板中没有图像。 如果剪贴板中只有文本, 此加载项将尝试将其用作本地文件的路径。如果它不是路径, 此加载项将告诉您: 剪贴板中的文本不是有效的路径。如果相应的文件不是图像, 这个插件会告诉你: 剪贴板中指定的文件不是图像。

还有一个取消当前识别的手势。 如果您认为您等待太久并希望取消, 则此手势可能会很有用。 另外, 有时您也不希望被识别消息打扰, 因为您需要查看识别开始后到达的一些消息。 此手势未分配。请在使用前进行分配。

引擎

有五个引擎可用。

OCR空间

这是一个付费 API, 由 https://ocr.space 提供免费配额

它支持24种语言, 包括:

  • 阿拉伯语
  • 保加利亚语
  • 简体中文
  • 繁体中文
  • 克罗地亚语
  • 捷克语
  • 丹麦语
  • 荷兰语
  • 英文
  • 芬兰语
  • 法语
  • 德语
  • 希腊语
  • 匈牙利语
  • 韩语
  • 意大利语
  • 日语
  • 波兰语
  • 葡萄牙语
  • 俄语
  • 斯洛文尼亚语
  • 西班牙语
  • 瑞典语
  • 土耳其语

以下是此引擎的设置:

  • 语言: 用于识别的文本语言。默认情况下为英语。
  • 检测图像方向: 如果设置为 true, API 将正确自动调整图像。
  • 缩放映像以获得更好的质量 如果选中, API 将执行放大操作。这可以显著提高 OCR 结果, 特别是对于低分辨率 PDF 扫描。
  • 优化表格识别 如果选中, OCR 引擎将确保分析的文本结果始终逐行返回。如果要处理表格、收据 、发票和具有类似表结构的文档, 建议开启这个选项。

如果要使用自己的密钥, 还需要指定 API 密钥。

您可以通过在 [OCR 空间] 上注册获得自己的免费 API 密钥 (http://index. space·ocorapi)

这里有一个简单的指南。

查找链接 "注册免费 API 密钥"。点击它, 你会发现一个表格来填写。

该窗体要求您输入以下数据:

  • 电子邮件地址
  • 名字
  • 您计划如何使用 OCR API?

你可以通过在 [OCR 空间] 上注册来获得自己的免费 API 密钥 (http:/index. spacex\ ocrapi) 这里有一个简单的指南。 找到链接 "注册免费的 API 密钥" 点击它, 你会发现一个表单填写。 该窗体要求您输入以下数据电子邮件地址名字姓氏您计划如何使用 OCR API?填写后提交。您可能还需要传递验证码然后您将收到一封确认电子邮件在该电子邮件中查找名为 "是的, 请订阅此列表" 的链接。访问该链接, 您将很快通过电子邮件收到 API 密钥。

微软 azure ocr

此引擎在 Microsoft Azure 认知服务计算机视觉中使用 OCR API。

它支持24种语言, 包括:

  • 简体中文
  • 繁体中文
  • 捷克语
  • 丹麦语
  • 荷兰语
  • 英文
  • 芬兰语
  • 法语
  • 德语
  • 希腊语
  • 匈牙利语
  • 意大利语
  • 日语
  • 韩语
  • 挪威语
  • 波兰语
  • 葡萄牙语
  • 俄语
  • 西班牙语
  • 瑞典语
  • 土耳其语
  • 阿拉伯语
  • 罗马尼亚语
  • 塞尔维亚西里尔文
  • 塞尔维亚语
  • 斯洛伐克语

以下是此引擎的设置:

  • 语言: 用于识别的文本语言。默认情况下自动检测。
  • 检测图像方向: 如果设置为 true, API 将正确自动调整图像。

如果您使用自己的密钥, 则应从以下链接获取使用 Microsoft 计算机视觉 API 的订阅密钥:

步骤 1: 创建帐户。

https://azure.microsoft.com/en-ua/try/cognitive-services/

请注意, 必须为计算机视觉 API 创建密钥。您在使用单个密钥导航时遇到的第一个 "GET API 密钥" 按钮。目前, Microsoft 提供了创建7天试用密钥的选项。你也可以注册一个免费的 azure 帐户更多的线索。注册需要信用卡。如果您已经拥有订阅帐户, 则可以跳过此步骤。

步骤 2: 部署认知服务

现在你有了一个账户。

首次登录 [Azure 门户] (http://portal.azure.com)

等待, 直到您收到消息门户已准备就绪, 您将登录到 azure 门户。

在 "所有服务" 按钮后找到名为 "所有资源" 的链接, 并将其激活。

第2步: 部署认知服务现在你有了一个模糊的帐户。 首次登录 [Azure 门户] (http://portal.azure.com) 等待, 直到您收到消息门户已准备就绪, 您已登录到 azure 门户。 在 "所有服务" 按钮后找到名为 "所有资源" 的链接, 并将其激活。 等待, 直到你得到消息刀片所有资源都准备好了, 你的重点将是一个编辑框, 然后按 shift 选项卡找到一个名为添加并激活它的菜单项。

等待, 直到你得到消息搜索市场, 键入认知服务, 然后按向下箭头。 等待, 直到你得到消息列表的选项认知服务五个之一, 然后按回车键。 等待, 直到你得到消息刀片认知服务是准备按下选项卡或 b 找到一个按钮名为创建激活它。 等待, 直到您收到消息刀片创建准备好, 您的焦点将是一个编辑框, 键入此资源的名称。请注意, 您的资源名称只能包含字母数字字符 ",-", 并且不能以 "" 或 "-" 结尾。 我选择 NVDAOCR。 按选项卡转到 "订阅" 组合框。通常你可以让它原封不动。 按选项卡转到 "位置" 组合框。选择一个靠近您当前位置的位置。请务必记住这一点, 因为在引擎配置中需要位置。 按选项卡转到 "定价捆绑" 组合框。通常像 F0 这样的免费领带就足够了。如果这还不够, 您可以在查看完整定价详细信息链接中的 "查看完整定价详细信息" 中选择其他层。 按选项卡转到 "创建新资源组编辑框"。如果没有任何资源组, 则应创建一个资源组。按选项卡查找 "创建新按钮"。 然后按 "选项卡转到" 创建按钮 "以创建此资源。 等待, 直到您得到的消息部署成功。 然后找到 "转到资源" 按钮, 有时您需要上去激活 "通知" 按钮, 然后才能找到 "转到资源" 按钮。 等待, 直到您收到消息刀片快速启动是繁忙的。 找到名为键的链接, 然后将其激活。 等待, 直到您收到消息刀片管理密钥已准备就绪。 查找名为键1或键2的编辑框。该编辑框的内容是引擎配置中所需的 API 密钥。然后, 如果您使用自己的 API 密钥, 则可以填写所需的这两个设置。 Azure 资源区域: 在 Azure 门户中部署认知服务时选择的区域。 API 密钥: 建议使用 key 2 作为在 Azure 门户中成功部署认知服务后获得的密钥。

等待, 直到你得到消息搜索市场, 键入认知服务, 然后按向下箭头。 等待, 直到你得到消息列表的选项认知服务五个之一, 然后按回车键。 等待, 直到你得到消息刀片认知服务是准备按下选项卡或 b 找到一个按钮名为创建激活它。 等待, 直到您收到消息刀片创建准备好, 您的焦点将是一个编辑框, 键入此资源的名称。请注意, 您的资源名称只能包含字母数字字符 ",-", 并且不能以 "" 或 "-" 结尾。 我选择 NVDAOCR。 按选项卡转到 "订阅" 组合框。通常你可以让它原封不动。 按选项卡转到 "位置" 组合框。选择一个靠近您当前位置的位置。请务必记住这一点, 因为在引擎配置中需要位置。 按选项卡转到 "定价捆绑" 组合框。通常像 F0 这样的免费领带就足够了。如果这还不够, 您可以在查看完整定价详细信息链接中的 "查看完整定价详细信息" 中选择其他层。 按选项卡转到 "创建新资源组编辑框"。如果没有任何资源组, 则应创建一个资源组。按选项卡查找 "创建新按钮"。 然后按 "选项卡转到" 创建按钮 "以创建此资源。 等待, 直到您得到的消息部署成功。 然后找到 "转到资源" 按钮, 有时您需要上去激活 "通知" 按钮, 然后才能找到 "转到资源" 按钮。 等待, 直到您收到消息刀片快速启动是繁忙的。 找到名为键的链接, 然后将其激活。 等待, 直到您收到消息刀片管理密钥已准备就绪。 查找名为键1或键2的编辑框。该编辑框的内容是引擎配置中所需的 API 密钥。然后, 如果您使用自己的 API 密钥, 则可以填写所需的这两个设置。 Azure 资源区域: 在 Azure 门户中部署认知服务时选择的区域。 API 密钥: 建议使用 key 2 作为在 Azure 门户中成功部署认知服务后获得的密钥。

等待, 直到你得到消息搜索市场, 键入认知服务, 然后按向下箭头。 等待, 直到你得到消息列表的选项认知服务五个之一, 然后按回车键。 等待, 直到你得到消息刀片认知服务是准备按下选项卡或 b 找到一个按钮名为创建激活它。 等待, 直到您收到消息刀片创建准备好, 您的焦点将是一个编辑框, 键入此资源的名称。请注意, 您的资源名称只能包含字母数字字符 ",-", 并且不能以 "" 或 "-" 结尾。 我选择 NVDAOCR。 按选项卡转到 "订阅" 组合框。通常你可以让它原封不动。 按选项卡转到 "位置" 组合框。选择一个靠近您当前位置的位置。请务必记住这一点, 因为在引擎配置中需要位置。 按选项卡转到 "定价捆绑" 组合框。通常像 F0 这样的免费领带就足够了。如果这还不够, 您可以在查看完整定价详细信息链接中的 "查看完整定价详细信息" 中选择其他层。 按选项卡转到 "创建新资源组编辑框"。如果没有任何资源组, 则应创建一个资源组。按选项卡查找 "创建新按钮"。 然后按 "选项卡转到" 创建按钮 "以创建此资源。 等待, 直到您得到的消息部署成功。 然后找到 "转到资源" 按钮, 有时您需要上去激活 "通知" 按钮, 然后才能找到 "转到资源" 按钮。 等待, 直到您收到消息刀片快速启动是繁忙的。 找到名为键的链接, 然后将其激活。 等待, 直到您收到消息刀片管理密钥已准备就绪。 查找名为键1或键2的编辑框。该编辑框的内容是引擎配置中所需的 API 密钥。然后, 如果您使用自己的 API 密钥, 则可以填写所需的这两个设置。 Azure 资源区域: 在 Azure 门户中部署认知服务时选择的区域。 API 密钥: 建议使用 key 2 作为在 Azure 门户中成功部署认知服务后获得的密钥。

等待, 直到你得到消息搜索市场, 键入认知服务, 然后按向下箭头。 等待, 直到你得到消息列表的选项认知服务五个之一, 然后按回车键。 等待, 直到你得到消息刀片认知服务是准备按下选项卡或 b 找到一个按钮名为创建激活它。 等待, 直到您收到消息刀片创建准备好, 您的焦点将是一个编辑框, 键入此资源的名称。请注意, 您的资源名称只能包含字母数字字符 ",-", 并且不能以 "" 或 "-" 结尾。 我选择 NVDAOCR。 按选项卡转到 "订阅" 组合框。通常你可以让它原封不动。 按选项卡转到 "位置" 组合框。选择一个靠近您当前位置的位置。请务必记住这一点, 因为在引擎配置中需要位置。 按选项卡转到 "定价捆绑" 组合框。通常像 F0 这样的免费领带就足够了。如果这还不够, 您可以在查看完整定价详细信息链接中的 "查看完整定价详细信息" 中选择其他层。 按选项卡转到 "创建新资源组编辑框"。如果没有任何资源组, 则应创建一个资源组。按选项卡查找 "创建新按钮"。 然后按 "选项卡转到" 创建按钮 "以创建此资源。 等待, 直到您得到的消息部署成功。 然后找到 "转到资源" 按钮, 有时您需要上去激活 "通知" 按钮, 然后才能找到 "转到资源" 按钮。 等待, 直到您收到消息刀片快速启动是繁忙的。 找到名为键的链接, 然后将其激活。 等待, 直到您收到消息刀片管理密钥已准备就绪。 查找名为键1或键2的编辑框。该编辑框的内容是引擎配置中所需的 API 密钥。然后, 如果您使用自己的 API 密钥, 则可以填写所需的这两个设置。 Azure 资源区域: 在 Azure 门户中部署认知服务时选择的区域。 API 密钥: 建议使用 key 2 作为在 Azure 门户中成功部署认知服务后获得的密钥。

等待, 直到你得到消息搜索市场, 键入认知服务, 然后按向下箭头。 等待, 直到你得到消息列表的选项认知服务五个之一, 然后按回车键。 等待, 直到你得到消息刀片认知服务是准备按下选项卡或 b 找到一个按钮名为创建激活它。 等待, 直到您收到消息刀片创建准备好, 您的焦点将是一个编辑框, 键入此资源的名称。请注意, 您的资源名称只能包含字母数字字符 ",-", 并且不能以 "" 或 "-" 结尾。 我选择 NVDAOCR。 按选项卡转到 "订阅" 组合框。通常你可以让它原封不动。 按选项卡转到 "位置" 组合框。选择一个靠近您当前位置的位置。请务必记住这一点, 因为在引擎配置中需要位置。 按选项卡转到 "定价捆绑" 组合框。通常像 F0 这样的免费领带就足够了。如果这还不够, 您可以在查看完整定价详细信息链接中的 "查看完整定价详细信息" 中选择其他层。 按选项卡转到 "创建新资源组编辑框"。如果没有任何资源组, 则应创建一个资源组。按选项卡查找 "创建新按钮"。 然后按 "选项卡转到" 创建按钮 "以创建此资源。 等待, 直到您得到的消息部署成功。 然后找到 "转到资源" 按钮, 有时您需要上去激活 "通知" 按钮, 然后才能找到 "转到资源" 按钮。 等待, 直到您收到消息刀片快速启动是繁忙的。 找到名为键的链接, 然后将其激活。 等待, 直到您收到消息刀片管理密钥已准备就绪。 查找名为键1或键2的编辑框。该编辑框的内容是引擎配置中所需的 API 密钥。然后, 如果您使用自己的 API 密钥, 则可以填写所需的这两个设置。 Azure 资源区域: 在 Azure 门户中部署认知服务时选择的区域。 API 密钥: 建议使用 key 2 作为在 Azure 门户中成功部署认知服务后获得的密钥。

等待, 直到你得到消息搜索市场, 键入认知服务, 然后按向下箭头。 等待, 直到你得到消息列表的选项认知服务五个之一, 然后按回车键。 等待, 直到你得到消息刀片认知服务是准备按下选项卡或 b 找到一个按钮名为创建激活它。 等待, 直到您收到消息刀片创建准备好, 您的焦点将是一个编辑框, 键入此资源的名称。请注意, 您的资源名称只能包含字母数字字符 ",-", 并且不能以 "" 或 "-" 结尾。 我选择 NVDAOCR。 按选项卡转到 "订阅" 组合框。通常你可以让它原封不动。 按选项卡转到 "位置" 组合框。选择一个靠近您当前位置的位置。请务必记住这一点, 因为在引擎配置中需要位置。 按选项卡转到 "定价捆绑" 组合框。通常像 F0 这样的免费领带就足够了。如果这还不够, 您可以在查看完整定价详细信息链接中的 "查看完整定价详细信息" 中选择其他层。 按选项卡转到 "创建新资源组编辑框"。如果没有任何资源组, 则应创建一个资源组。按选项卡查找 "创建新按钮"。 然后按 "选项卡转到" 创建按钮 "以创建此资源。 等待, 直到您得到的消息部署成功。 然后找到 "转到资源" 按钮, 有时您需要上去激活 "通知" 按钮, 然后才能找到 "转到资源" 按钮。 等待, 直到您收到消息刀片快速启动是繁忙的。 找到名为键的链接, 然后将其激活。 等待, 直到您收到消息刀片管理密钥已准备就绪。 查找名为键1或键2的编辑框。该编辑框的内容是引擎配置中所需的 API 密钥。然后, 如果您使用自己的 API 密钥, 则可以填写所需的这两个设置。 Azure 资源区域: 在 Azure 门户中部署认知服务时选择的区域。 API 密钥: 建议使用 key 2 作为在 Azure 门户中成功部署认知服务后获得的密钥。

按选项卡转到 "定价捆绑" 组合框。通常像 F0 这样的免费领带就足够了。如果这还不够, 您可以在查看完整定价详细信息链接中的 "查看完整定价详细信息" 中选择其他层。

按选项卡转到 "创建新资源组编辑框"。如果没有任何资源组, 则应创建一个资源组。按选项卡查找 "创建新按钮"。然后按 "选项卡转到" 创建按钮 "以创建此资源。

等待, 直到你得到消息搜索市场, 键入认知服务, 然后按向下箭头。 等待, 直到你得到消息列表的选项认知服务五个之一, 然后按回车键。 等待, 直到你得到消息刀片认知服务是准备按下选项卡或 b 找到一个按钮名为创建激活它。 等待, 直到您收到消息刀片创建准备好, 您的焦点将是一个编辑框, 键入此资源的名称。请注意, 您的资源名称只能包含字母数字字符 ",-", 并且不能以 "" 或 "-" 结尾。 我选择 NVDAOCR。 按选项卡转到 "订阅" 组合框。通常你可以让它原封不动。 按选项卡转到 "位置" 组合框。选择一个靠近您当前位置的位置。请务必记住这一点, 因为在引擎配置中需要位置。 按选项卡转到 "定价捆绑" 组合框。通常像 F0 这样的免费领带就足够了。如果这还不够, 您可以在查看完整定价详细信息链接中的 "查看完整定价详细信息" 中选择其他层。 按选项卡转到 "创建新资源组编辑框"。如果没有任何资源组, 则应创建一个资源组。按选项卡查找 "创建新按钮"。 然后按 "选项卡转到" 创建按钮 "以创建此资源。 等待, 直到您得到的消息部署成功。 然后找到 "转到资源" 按钮, 有时您需要上去激活 "通知" 按钮, 然后才能找到 "转到资源" 按钮。 等待, 直到您收到消息刀片快速启动是繁忙的。 找到名为键的链接, 然后将其激活。 等待, 直到您收到消息刀片管理密钥已准备就绪。 查找名为键1或键2的编辑框。该编辑框的内容是引擎配置中所需的 API 密钥。然后, 如果您使用自己的 API 密钥, 则可以填写所需的这两个设置。 Azure 资源区域: 在 Azure 门户中部署认知服务时选择的区域。 API 密钥: 建议使用 key 2 作为在 Azure 门户中成功部署认知服务后获得的密钥。

等待, 直到你得到消息搜索市场, 键入认知服务, 然后按向下箭头。 等待, 直到你得到消息列表的选项认知服务五个之一, 然后按回车键。 等待, 直到你得到消息刀片认知服务是准备按下选项卡或 b 找到一个按钮名为创建激活它。 等待, 直到您收到消息刀片创建准备好, 您的焦点将是一个编辑框, 键入此资源的名称。请注意, 您的资源名称只能包含字母数字字符 ",-", 并且不能以 "" 或 "-" 结尾。 我选择 NVDAOCR。 按选项卡转到 "订阅" 组合框。通常你可以让它原封不动。 按选项卡转到 "位置" 组合框。选择一个靠近您当前位置的位置。请务必记住这一点, 因为在引擎配置中需要位置。 按选项卡转到 "定价捆绑" 组合框。通常像 F0 这样的免费领带就足够了。如果这还不够, 您可以在查看完整定价详细信息链接中的 "查看完整定价详细信息" 中选择其他层。 按选项卡转到 "创建新资源组编辑框"。如果没有任何资源组, 则应创建一个资源组。按选项卡查找 "创建新按钮"。 然后按 "选项卡转到" 创建按钮 "以创建此资源。 等待, 直到您得到的消息部署成功。 然后找到 "转到资源" 按钮, 有时您需要上去激活 "通知" 按钮, 然后才能找到 "转到资源" 按钮。 等待, 直到您收到消息刀片快速启动是繁忙的。 找到名为键的链接, 然后将其激活。 等待, 直到您收到消息刀片管理密钥已准备就绪。 查找名为键1或键2的编辑框。该编辑框的内容是引擎配置中所需的 API 密钥。然后, 如果您使用自己的 API 密钥, 则可以填写所需的这两个设置。 Azure 资源区域: 在 Azure 门户中部署认知服务时选择的区域。 API 密钥: 建议使用 key 2 作为在 Azure 门户中成功部署认知服务后获得的密钥。

等待, 直到你得到消息搜索市场, 键入认知服务, 然后按向下箭头。 等待, 直到你得到消息列表的选项认知服务五个之一, 然后按回车键。 等待, 直到你得到消息刀片认知服务是准备按下选项卡或 b 找到一个按钮名为创建激活它。 等待, 直到您收到消息刀片创建准备好, 您的焦点将是一个编辑框, 键入此资源的名称。请注意, 您的资源名称只能包含字母数字字符 ",-", 并且不能以 "" 或 "-" 结尾。 我选择 NVDAOCR。 按选项卡转到 "订阅" 组合框。通常你可以让它原封不动。 按选项卡转到 "位置" 组合框。选择一个靠近您当前位置的位置。请务必记住这一点, 因为在引擎配置中需要位置。 按选项卡转到 "定价捆绑" 组合框。通常像 F0 这样的免费领带就足够了。如果这还不够, 您可以在查看完整定价详细信息链接中的 "查看完整定价详细信息" 中选择其他层。 按选项卡转到 "创建新资源组编辑框"。如果没有任何资源组, 则应创建一个资源组。按选项卡查找 "创建新按钮"。 然后按 "选项卡转到" 创建按钮 "以创建此资源。 等待, 直到您得到的消息部署成功。 然后找到 "转到资源" 按钮, 有时您需要上去激活 "通知" 按钮, 然后才能找到 "转到资源" 按钮。 等待, 直到您收到消息刀片快速启动是繁忙的。 找到名为键的链接, 然后将其激活。 等待, 直到您收到消息刀片管理密钥已准备就绪。 查找名为键1或键2的编辑框。该编辑框的内容是引擎配置中所需的 API 密钥。然后, 如果您使用自己的 API 密钥, 则可以填写所需的这两个设置。 Azure 资源区域: 在 Azure 门户中部署认知服务时选择的区域。 API 密钥: 建议使用 key 2 作为在 Azure 门户中成功部署认知服务后获得的密钥。

等待, 直到你得到消息搜索市场, 键入认知服务, 然后按向下箭头。 等待, 直到你得到消息列表的选项认知服务五个之一, 然后按回车键。 等待, 直到你得到消息刀片认知服务是准备按下选项卡或 b 找到一个按钮名为创建激活它。 等待, 直到您收到消息刀片创建准备好, 您的焦点将是一个编辑框, 键入此资源的名称。请注意, 您的资源名称只能包含字母数字字符 ",-", 并且不能以 "" 或 "-" 结尾。 我选择 NVDAOCR。 按选项卡转到 "订阅" 组合框。通常你可以让它原封不动。 按选项卡转到 "位置" 组合框。选择一个靠近您当前位置的位置。请务必记住这一点, 因为在引擎配置中需要位置。 按选项卡转到 "定价捆绑" 组合框。通常像 F0 这样的免费领带就足够了。如果这还不够, 您可以在查看完整定价详细信息链接中的 "查看完整定价详细信息" 中选择其他层。 按选项卡转到 "创建新资源组编辑框"。如果没有任何资源组, 则应创建一个资源组。按选项卡查找 "创建新按钮"。 然后按 "选项卡转到" 创建按钮 "以创建此资源。 等待, 直到您得到的消息部署成功。 然后找到 "转到资源" 按钮, 有时您需要上去激活 "通知" 按钮, 然后才能找到 "转到资源" 按钮。 等待, 直到您收到消息刀片快速启动是繁忙的。 找到名为键的链接, 然后将其激活。 等待, 直到您收到消息刀片管理密钥已准备就绪。 查找名为键1或键2的编辑框。该编辑框的内容是引擎配置中所需的 API 密钥。然后, 如果您使用自己的 API 密钥, 则可以填写所需的这两个设置。 Azure 资源区域: 在 Azure 门户中部署认知服务时选择的区域。 API 密钥: 建议使用 key 2 作为在 Azure 门户中成功部署认知服务后获得的密钥。

等待, 直到你得到消息搜索市场, 键入认知服务, 然后按向下箭头。 等待, 直到你得到消息列表的选项认知服务五个之一, 然后按回车键。 等待, 直到你得到消息刀片认知服务是准备按下选项卡或 b 找到一个按钮名为创建激活它。 等待, 直到您收到消息刀片创建准备好, 您的焦点将是一个编辑框, 键入此资源的名称。请注意, 您的资源名称只能包含字母数字字符 ",-", 并且不能以 "" 或 "-" 结尾。 我选择 NVDAOCR。 按选项卡转到 "订阅" 组合框。通常你可以让它原封不动。 按选项卡转到 "位置" 组合框。选择一个靠近您当前位置的位置。请务必记住这一点, 因为在引擎配置中需要位置。 按选项卡转到 "定价捆绑" 组合框。通常像 F0 这样的免费领带就足够了。如果这还不够, 您可以在查看完整定价详细信息链接中的 "查看完整定价详细信息" 中选择其他层。 按选项卡转到 "创建新资源组编辑框"。如果没有任何资源组, 则应创建一个资源组。按选项卡查找 "创建新按钮"。 然后按 "选项卡转到" 创建按钮 "以创建此资源。 等待, 直到您得到的消息部署成功。 然后找到 "转到资源" 按钮, 有时您需要上去激活 "通知" 按钮, 然后才能找到 "转到资源" 按钮。 等待, 直到您收到消息刀片快速启动是繁忙的。 找到名为键的链接, 然后将其激活。 等待, 直到您收到消息刀片管理密钥已准备就绪。 查找名为键1或键2的编辑框。该编辑框的内容是引擎配置中所需的 API 密钥。然后, 如果您使用自己的 API 密钥, 则可以填写所需的这两个设置。 Azure 资源区域: 在 Azure 门户中部署认知服务时选择的区域。 API 密钥: 建议使用 key 2 作为在 Azure 门户中成功部署认知服务后获得的密钥。

等待, 直到你得到消息搜索市场, 键入认知服务, 然后按向下箭头。 等待, 直到你得到消息列表的选项认知服务五个之一, 然后按回车键。 等待, 直到你得到消息刀片认知服务是准备按下选项卡或 b 找到一个按钮名为创建激活它。 等待, 直到您收到消息刀片创建准备好, 您的焦点将是一个编辑框, 键入此资源的名称。请注意, 您的资源名称只能包含字母数字字符 ",-", 并且不能以 "" 或 "-" 结尾。 我选择 NVDAOCR。 按选项卡转到 "订阅" 组合框。通常你可以让它原封不动。 按选项卡转到 "位置" 组合框。选择一个靠近您当前位置的位置。请务必记住这一点, 因为在引擎配置中需要位置。 按选项卡转到 "定价捆绑" 组合框。通常像 F0 这样的免费领带就足够了。如果这还不够, 您可以在查看完整定价详细信息链接中的 "查看完整定价详细信息" 中选择其他层。 按选项卡转到 "创建新资源组编辑框"。如果没有任何资源组, 则应创建一个资源组。按选项卡查找 "创建新按钮"。 然后按 "选项卡转到" 创建按钮 "以创建此资源。 等待, 直到您得到的消息部署成功。 然后找到 "转到资源" 按钮, 有时您需要上去激活 "通知" 按钮, 然后才能找到 "转到资源" 按钮。 等待, 直到您收到消息刀片快速启动是繁忙的。 找到名为键的链接, 然后将其激活。 等待, 直到您收到消息刀片管理密钥已准备就绪。 查找名为键1或键2的编辑框。该编辑框的内容是引擎配置中所需的 API 密钥。然后, 如果您使用自己的 API 密钥, 则可以填写所需的这两个设置。 Azure 资源区域: 在 Azure 门户中部署认知服务时选择的区域。 API 密钥: 建议使用 key 2 作为在 Azure 门户中成功部署认知服务后获得的密钥。

  • Azure 资源区域: 在 Azure 门户中部署认知服务时选择的区域。
  • API 密钥: 建议使用 key 2 作为在 Azure 门户中成功部署认知服务后获得的密钥。

百度OCR

这也是一个由百度提供的免费配额的付费 API。百度 OCR 支持10种语言, 包括:

  • 中文和英文混合
  • 英文
  • 葡萄牙语
  • 法语
  • 德语
  • 意大利语
  • 西班牙语
  • 俄语
  • 日语
  • 韩语

这个引擎还可以得到每个字符的位置

以下是它的设置:

  • 获取每个字符的位置允许您在某些无法访问的应用程序上执行更精确的操作。启用此功能将使识别速度稍慢。
  • 使用准确的 API 如果启用将使用高精度API。 高精度API需要更长的时间, 但具有更高的质量(如果您使用自己的 API 密钥, 其价格也较高)。

它有四个具有单独配额限制的终结点。

  • 基本 OCR, 没有任何有关文本位置的信息: 目前每天50000次。
  • 基本 OCR 包含有关文本位置的信息: 目前每天500次。
  • 准确的 OCR, 没有任何有关文本位置的信息: 目前每天500次。
  • 基本 OCR, 不提供任何有关文本位置的信息。 目前每天50000。 基本 OCR, 包含有关文本位置的信息。 目前每天500次。 准确的 OCR, 没有任何有关文本位置的信息。 目前每天500次。 准确地提供有关文本位置的信息。 目前每天50次。

如果按只读取结果的手势, 则使用的是终结点, 而不使用任何有关文本位置的信息。

如果按显示结果查看器的手势, 则说明正在使用包含文本位置信息的API。

虽然它提供了相当慷慨的免费配额, 但它的网站只有中文, 并不十分方便。

搜狗OCR 和腾讯 AI OCR

这两个 API 可自由使用频率限制。如果要绕过限制, 可以注册自己的 API 密钥。

这些 API 文档中没有有关语言支持的信息。 根据我的测试, 中文和英文及其混合物是支持的。 这些 API 没有其他配置。

更新日志

0.17

  • 修复了以下问题:

    • 设置对话框内选择在线图像描述分类时焦点跳到引擎设置
    • 微软 Azure 图像分析描述里的错误

0.16

  • 添加取消识别的手势
  • 修复了以下问题:

    • 无法朗读 "复选列表框" 状态更改
    • 交换在线图像描述中不起作用的重复手势的效果

0.15

  • 添加一个选项, 使用弹出对话框展示识别结果 将 Microsoft Azure 图像分析器中的配置视觉特征复选框更改为 复选框列表
  • 将 Microsoft Azure 图像分析器中的可视功能复选框更改为 "复选框列表"。
  • 修复以下问题:

    • 无法从剪贴板加载 jpg 图像文件
    • 识别后, 结果文档对象不会显示。
    • 如果图像在内部调整大小, 则结果文档对象中的位置不可靠。
    • Microsoft Azure 图像描述器的结果位于同一行中, 因此很难在该行中导航。

0.14

  • 修正了一些错误:

    • 如果有盲文显示器, 则无法在 Microsoft Azure 引擎中使用您自己的 api 键无法获得文本结果
    • 如果有盲文显示, 则无法获取文本结果

0.13

  • 在不重新启动的情况下重新加载插件时, 确保加载项正常工作 (NVDA+Control+F3)

0.12

  • 修正了 Microsoft Azure 图像描述器的浏览模式消息
  • 用NVDA内置的方法描述强调色。
  • 改进的 Microsoft Azure 图像分析仪的结果格式
  • 根据审阅注释改进文档
  • 修正手势不一致的问题。
  • 控制 + 移位 + NVDA 的剪贴板, 而 NVDA + ALT 用于导航对象
  • 修复识别时丢失的 imageInfo 错误。

0.11

  • 增加了图像描述功能
  • 将插件摘要更改为在线图像描述器

0.10

  • 修复在搜狗API 中无法使用用户自己的 api 密钥的问题。
  • 通过将设置添加到支持的设置来修复未知的面板问题

0.9

  • 修复重复手势无效果问题。
  • 修订文档, 以反映代码的更改。
  • 修复双按手势无效果问题。阐明了支持哪种类型的剪贴板图像以及如何复制图像进行识别。
  • 修复了剪贴板识别无法打开结果查看器问题的问题。
  • 添加了对在剪贴板中识别复制的本地图像文件路径的支持。

0.8

  • 如果识别结果为空, 提示用户内容为空。
  • 修复了另一个不兼容非 ascii 配置路径的问题

0.6

  • 添加了代理设置。
  • 添加了几个常规选项。
  • 修复由于将 Unicode URL 发送到 urllib3 而导致的 unicode 解码错误。

0.5

  • 修复OCR 引擎直接上传图像文件, 而不是 base64 编码时发生的unicode 错误。
  • 将识别剪贴板的手势更改为 "Control + Shift + NVDA + R", 因为 WORD 和 Excel 中使用 NVDA + Shift + r 来定义表中的行标题, 或在按两次时删除定义。

0.4

  • 修复配置路径包含非 ascii 字符时的安装错误
  • 更改手势以避免与金色光标冲突。
  • 将默认引擎更改为 Microsoft azure, 因为它可以自动检测文本语言。

0.3

  • 添加有关如何获取 Microsoft Azure OCR 密钥的详细文档
  • 修复了有关新安装的问题。
  • 删除自动 OCR, 因为此功能是有问题的, 而且可能与在线引擎混淆。未来问题修复之后 自动 OCR会放在另一个插件里。