研究:近一半热门新闻网站屏蔽了 OpenAI 爬虫

热搜大全 > 新闻热搜 > 科技热搜 > 正文

研究:近一半热门新闻网站屏蔽了 OpenAI 爬虫

热搜大全 2024-02-28

IT 之家 2 月 27 日消息,一项由路 * 透社研究所进行的研究表明,截至 2023 年底,全球 10 个国家的热门新闻网站中,近一半 ( 48% ) 屏蔽了 OpenAI 的爬虫(Crawler),而近四分之一 ( 24% ) 屏蔽了谷歌的 AI 爬虫。

研究:近一半热门新闻网站屏蔽了 OpenAI 爬虫

图源 Pexels

据 IT 之家了解,该研究所分析了包括纽约 * 时报、BuzzFeed 新闻、华尔街 * 日报、华盛顿邮报、CNN 和 NPR 在内的 15 家覆盖面最广的网络新闻来源的 robots.txt 文件。这些新闻机构来自德国、印度、西班牙、英国和美国等国家,涵盖传统印刷媒体、电视广播公司和数字原生媒体等三种类型。

研究发现,截至 2023 年底,超过一半 ( 57% ) 的传统印刷媒体网站,例如《纽约 * 时报》,屏蔽了 OpenAI 的爬虫,相比之下,电视和广播公司为 48%,数字原生媒体为 31%。同样,32% 的印刷媒体网站屏蔽了谷歌的爬虫,而广播公司和数字原生媒体的比例分别为 19% 和 17%。

与此同时,康奈尔大学最近的一项研究发现,当新型人工智能模型仅使用先前模型而非人类输入的数据进行训练时,它们往往会陷入 " 模型崩溃 " 或退化,导致生成内容出现更多错误和误导信息。

网站爬虫被用于多种目的。例如,谷歌的 Googlebot 会抓取发布商网站,将其收录到搜索结果中。而 OpenAI 的爬虫 GPTBot 则会在互联网上收集数据,用于训练其大型语言模型,例如 ChatGPT。这使人工智能工具能够生成准确、实时的内容,而新闻发布商尤其擅长提供此类内容:大型语言模型对优质出版商内容的重视程度是其他来源内容的 5 到 100 倍。

该研究还指出,北半球国家的新闻机构比南半球国家更倾向于屏蔽人工智能爬虫。例如,在美国,79% 的热门在线新闻网站屏蔽了 OpenAI,而在墨西哥和波兰,这一比例仅为 20%。与此同时,德国 60% 的新闻网站屏蔽了谷歌的爬虫,而在波兰和西班牙,这一比例仅为 7%。

研究发现,几乎所有屏蔽谷歌爬虫的网站也屏蔽了 OpenAI ( 97% ) 。虽然该研究没有提供确切解释,但这可能表明 OpenAI 比谷歌更早发布爬虫有关。

值得注意的是,在大多数国家,一些发布商在爬虫刚发布时就立即屏蔽了它们。OpenAI 于去年 8 月初启动了其人工智能爬虫,谷歌随后于 9 月份效仿。研究还表明,一旦做出屏蔽决定后,没有一家网站撤销对 OpenAI 或谷歌人工智能爬虫的屏蔽。

用户对喜马拉雅的“一台设备一充值”的抱怨引发了网友的吐槽,认为这是一种花式割韭菜行为。

用户对喜马拉雅的“一台设备一充值”的抱怨引发了网友的吐槽,认为这是一种花式割韭菜行为。

科技热搜 喜马拉雅 天猫精灵 手表 设备 韭菜 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-08-07

“遥遥领先”,一个华为热梗的走红

“遥遥领先”,一个华为热梗的走红

科技热搜 华为 芯片 余承东 华为mate 雷蒙 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-09-29

华为 Mate 60 Pro  DXOMARK 影像测试结果出炉:总分157,位列排行榜第 1 名

华为 Mate 60 Pro DXOMARK 影像测试结果出炉:总分157,位列排行榜第 1 名

科技热搜 华为mate google pixel oppo find x iphone 新闻 资讯 直播 视频 美图 社区 本地 热点 2023-11-17

韩国女团大尺度造型惹争议,穿着令人费解,成员还有中国人

韩国女团大尺度造型惹争议,穿着令人费解,成员还有中国人

娱乐热点 造型 韩国 尺度 中国人 穿着 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-02-04

《繁花》:A先生最后一集终于露脸,为何是宝总的模样?

《繁花》:A先生最后一集终于露脸,为何是宝总的模样?

娱乐热点 导演 a股 李产 股市 陈真 新闻 资讯 直播 视频 美图 社区 本地 热点 2024-01-18

曾被卖出19万美元高价!这台初代iPhone太猛了 曾被卖出19万美元高价!这台初代iPhone太猛了