如上所述,除了从网络上收集公共网络数据的法律方面,还有其他方面与网络抓取的道德有关。随着时间的推移,这些原则成为该领域参与者不成文的行为准则的一部分。主要考虑因素如下:
速率限制。数据提取是通过向网站提交请求来执行的。网站请求过载会影响其性能,应避免这种情况。
专用 API。请记住,有些网站提供用于访问其数据的 API。
代理。用于网页抓取的代理 谎言数据 应符合道德规范。
负责任的企业将道德的网络抓取视为一种承诺,与成为公共网络数据业务中信誉良好的参与者密不可分。
去年,一些领先的网络数据聚合公司发起了一项道德网络数据收集倡议,旨在鼓励对话并提高消费者和公司的数字安心。此后,他们公布了一系列道德网络数据收集原则,例如:
谨慎。这意味着数据收集公司应该谨慎并意识到数据的潜在滥用。
社会责任。公司绝不应该出于可能危害社会的目的收集数据。有道德的数据收集公司还会通过向研究机构或非政府组织等组织和项目提供数据来为其提供支持。
网页抓取和人工智能
高质量的网络数据有助于将人工智能技术的关键类型之一——大型语言模型 (LLM) 推向如今的水平。训练 LLM 以理解人类语言并生成情境感知响应需要大量数据。
例如,GPT-4 的前身 GPT-3 的训 B2C 电子邮件营销最佳实践 练需要45 TB 的文本。来自互联网的公开信息是用于训练人工智能的重要信息支柱之一。
预计未来几年人工智能市场将呈指数级增长。这自然引发了关于使用网络数据训练人工智能和创建人工智能产品的问题。
人工智能训练和版权法
有人认为,这项蓬勃发展的技术背后的公司未经许可抓取在线数据来训练人工智能和创造新产品,违反了版权法。此外,还有人认为,像 ChatGPT 这样的大型语言模型会使用训练数据集中的所有数据来生成响应,有时会“模仿”原始内容。
为了更好地理解双方的争论,让我们来看看自 OpenAI 推出领先的法学硕士之一 ChatGPT 并向公众开放以来发生的一些案例。
《纽约时报》与 OpenAI
2023 年底,《纽约时报》起诉 OpenAI使用其内容训练 AI,这是第一家这样做的美国主要媒体。此后,其他几家媒体也起诉了 OpenAI,声称 汤加营销 公司使用其文章训练 AI 系统违反了联邦版权法。
内容许可协议
一些媒体公司采取了不同的做法。例如,《金融时报》与一家生成式人工智能公司达成了内容许可协议,允许他们使用《金融时报》的内容来开发人工智能产品。
使用公共数据训练人工智能
而站在讨论另一方的 OpenAI 则认为,使用公共网络数据来训练 AI 是合理使用。从这个角度来看,许多新闻出版物都是向公众开放的,无需登录或付费墙,因此,它们应该被视为公共网络数据。网络上的其他内容也是如此,例如维基百科文章、公司网站、社交网站等。
与此同时,人工智能无疑正在彻底改变我们的工作和经商方式。它还为社会提供了可用于造福社会的工具,帮助研究人员和科学家找到解决环境、医疗和其他全球挑战的解决方案。此外,许多营利性人工智能公司免费提供强大的模型,例如 GPT-3.5 或 Gemini Pro。
但它也伴随着挑战。
这不是非黑即白的问题。不再需要讨论人工智能系统成为我们个人和职业生活中不可或缺的一部分的重要性。人工智能市场增长的预期轨迹证明了这一点。
然而,仍然有必要建立行业特定的原则,以构成 LLM 培训中网络数据的可接受使用,并在 AI 培训中区分好坏。
这些原则可能会随着时间的推移而演变和变化。但它们应该以达成共识和共识为目标,让争论双方的实体能够成功运作并平衡商业利益,同时也为公共利益创造人工智能创新的空间。