对于致力于涉及自然语言处理 (NLP) 和人工智能 (AI) 的变革性、数据密集 为项目成功做 型项目的团队来说,数据安全和治理问题会对项目的成功产生重大影响。
在我们最近对 NLP 从业人员的调查中,我们要求受访者根据他们的成熟度确定三大挑战。正在评估NLP 用例或处于早期实验阶段的组织认为数据安全和治理 (64%) 是他们面临的最大挑战。
那么,为什么安全和治理问题在这个阶段如此重要?公司如何做好准备,让这一部分流程尽可能顺利进行?
收集必要的数据和来源
在大多数组织中,数据通常不由构建 NLP 项目的团队拥有。因此,需要 花费大量时间来收集正确的数据以构建用于实施和实验的训练和测试集。
为了避免这个问题,我们建议团队首先为 手机号码数据 项目建立一个责任分配 (RACI) 矩阵。这应该用来明确定义每个部门在获取必要数据和资源方面的责任。
在这里,如果您有项目负责人(我们强烈建议您这样做),他可以与对 NLP 项目至关 重要的部门主管合作。这使您可以轻松地从拥有数据的团队建立责任制,控制数据的质量并最终将数据传输给 NLP 项目团队。
确定所有来源的安全和治理问题
接下来,确定每个数据源或数据集的安全和治理问题。这应包 劳斯莱斯的社交媒体和数字营销策略 括有关数据来源、数据所含信息性质以及您计划如何使用数据的信息。例如:
- 它是否包含个人身份信息或其他涉及隐私的信息?
- 它是否包含图像和文本?
- 它来源于您拥有的数据还是由第三方来源托管的数据?
- 它是结构化的、非结构化的,还是两者兼而有之?
这对于确保您的活动符合数据收集和隐私的内部政策、负责任的人工智能或您制定的任何其他框架或政策至关重要。
数据安全最佳实践
无论您的 AI 成熟度如何,数据问题的重要性只会不断增加,尤其是在选择所使用的 AI 模型和算法方面。世界各地的数据保护机构对 ChatGPT 提出的数据隐私和版权侵权担忧只是一个例子,说明了了解您的数据和机器学习模型 企业对企业数据库 包含的内容非常重要。
在我们最近对 300 名商业、技术和学术自然语言 AI 专家进行的调查中,数据隐私和安全是企业采用大型语言模型和生成 AI 的首要关注点(73%)。
欧洲和世界其他地区即将出台的 ESG 报告法规是另一个因素——在这里,作为 ESG 指标的一部分,所使用的数据和技术将受到更严格的审查。