AI2发布开放数据集Dolma:打破AI语言模型的数据壁垒
编程客栈() 8月21日 消息:艾伦人工智能研究android所(AI2)发布了名为Dolma的开放式文本数据集,旨在促进AI语言模型的透明度和创新。Dolma作为AI2开放式语言模型(OLMo)计划的核心,将为研究人员和开发者提供免费的数据资源,以支持更广泛的AI编程客栈研究。*
在GPT-4和Claude等语言模型的崛起中,人们对这些模型的强大能力感到惊叹,但模型背后的数据集却笼罩在神秘的面纱之下,引发了对透明度的担忧。为了改变这种现状,AI2决定采取一项突破性举措,向全球发布了Dolma数据集,以推动AI语言模型领域的透明度和协作。
【资料图】
Dolma作为AI2开放式语言模型(OLMo)计划的基石,其名称缩写代表“Data to feed OLMo"s Appetite”(供养OLMo食欲的数据)。AI2旨在通过向研究社区提供免费、开放的数据资源js,鼓励更多的创新和研究。该数据集的发布不仅是AI2首次共享关于OLMo的“数据成果”,还是AI2在透明度方面迈出的重要一步。
根据AI2的Luca Soldaini在php详细的博文中所述,Dolma数据集的来源和处理过程得到了透明记录。AI2团队详细解释了将文本还原为原始英语内容等决策的方法。AI2强调,他们计划发布更全面的论文,以深入探讨数据集的细节。
与此同时,Dolma不仅仅是一个规模庞大的开放数据集,拥有惊人的30亿标记(AI中内容量的本地度量),而且使用和许可方面也非常简便。AI2采用了“中风险成果的ImpACT许可证”,并鼓励用户:
- 提供联系信息和使用情况
- 披露基于Dolma的衍生创作
- 在相同许可下分发这些衍生创作
- 同意不将Dolma应用于禁止领域,如监视或虚假信息
AI2还为担心个人数据隐私的用户提供了专门的数据删除请求表单,以确保个人数据的保护。
Dolma的发布标志着AI2在透明度和协作方面迈出的重要一步,为AI语言模型的开放和共享知识设立了有力的先例。该数据集的开放为研究人员和开发者提供了更多的资源,将推动AI领域走向更加透明和合作的未来。用户可通过Hugging Face平台访问Dolma,这是一个对AI领域的积极而重要的发展。
关键词:
您可能也感兴趣:
为您推荐
头狼:原油81的空,还没跌到底,耐心等67一线
河北举办首届职工戏迷票友大赛
从“900亿大腕”到“600亿顶流”只用两年 广发基金刘格菘的冠军魔咒?
排行
最近更新
- AI2发布开放数据集Dolma:打破AI语言模型的数据壁垒
- 华为小艺做起“贾维斯”梦
- 哈尔滨市平房区着力打造智慧赋能市场监管新模式
- 别再拿“七夕”当“情人节”过了!知道真相的我沉默了
- 最摇滚!2023乌鲁木齐迷笛音乐节火热开唱
- A股收跌 创业板指创3年新低
- “被法人”调查:政务APP被破解,冒名开公司轻而易举
- [快讯]中环环保公布半年报 净利润同比减少-21.46%
- 特力A08月21日被深股通减持39.51万股
- 万洲国际:经营利润同比降超四成,猪肉业务亏损4.09亿美元
- 明清古建筑被改成日式餐厅、火锅店……曾花超8亿元修缮保护!...
- 厄瓜多尔大选前夕枪声四起,美媒:打击暴力犯罪成选举热门话题
- 鳝鱼高效养殖方法:养殖黄鳝十大忌讳你一定要提前了解!
- 哈萨克斯坦和越南签署包括互免签证在内的12项合作协议
- 创新引领!TA的“杏仁酸”获双重权威认证
- 央行降息催化债市走牛,鹏扬30年国债ETF(511090)21日小幅上涨
- 社保基金二季度持有科创板股名单(附股)
- 百城房贷利率最新数据出炉,下月会有变化吗?
- 我国夏粮收购超过5500万吨 小麦收购进度超八成
- 活跃资本市场25条措施出台 政策面和基本面将迎来共振丨财经头条
- 供应链称戴尔今年AI服务器备货量上看2万台
- 游泳被吸入排水口身亡 湖南一水上乐园停业
- 新地盘上,中美俄印上演大博弈
- 行业最大规模招聘!京东2024届校招:超1.5万个就业岗位【附人...
- 封面有数|黑猫投诉有效投诉量突破1500万,近千万件消费纠纷...
- 京东为在校学生提供超1.5万个岗位,连续五年开启行业最大规模招聘
- 东吴证券:SiC东风已来 关注衬底与外延环节的材料+设备国产化机遇
- 绵阳G5成绵扩容公路什么时间通车?
- 测绘股份:控股股东部分股票解除质押
- 黑猫股份:股东黑猫集团、景北创投股份解除质押