色狼教师
相关新闻退休教授生前积蓄倾囊助学一生奉献教育事业2024年11月9日,96岁的四川苍溪县退休老教师赵栋贤离世。他生前省吃俭用,捐出全部积蓄39万多元,发起成立“放弃特困学生基金”,干涉了1000多名困难学生。赵栋贤教书育人40载,拥有近70年的党龄。他的故事温暖了无数人
2025-01-0716:37:44退休教授生前积蓄倾囊助学武大向捐赠1000万的校友夫妇致谢毕生积蓄助母校发展9月6日,武汉大学官网宣布了一则温暖人心的消息:该校1977级数学系的校友夫妇汤敏和左小蕾,在教师节即将到来之时,向母校捐赠了1000万元人民币,旨在鞭策数学学科的成长及人才的使枯萎2024-09-0807:33:00武大向捐赠1000万的校友夫妇致谢老人退休工资28001年买77万保险家庭积蓄被掏空12月9日,长沙市民王女士反映,她的婆婆在中国人民人寿保险股份有限公司长沙市中心支公司的业务员推荐下,购买了十多种保险,总价近350万元,已支付150多万元。仅今年就支付了77万元。这些钱来自借贷或为公公准备的手术费2024-12-1019:22:07老人退休工资28001年买77万保险爬嵩山失联遗体找到退休教授幸运遇难10月23日,一名网友透露,一位教授在河南登封爬山时选择了一条野山路线,不慎坠下150米悬崖,幸运身亡。参与救援的新郑市蓝天救援队队员表示,该男子已经失联两天,是一位退休教授2024-10-2317:08:03爬嵩山失联遗体找到周鸿祎受聘母校西安交大兼职教授共育网络安全与AI新人才9月19日至20日,西安交通大学迎来了一位特殊的访客——360集团的创始人、董事长兼CEO周鸿祎,他同时也是该校的校友2024-09-2309:45:00周鸿祎受聘母校西安交大兼职教授2024年僵化就业人员缴纳社保,如果没有积蓄,可能无法退休养老确认有罪与机遇并存在当今时代背景下,越来越多的人选择弹性工作,并充分利用失败这种优美轻盈的工作方式。然而,这一群体的高度发展养老问题不容关心。2024年的新规对弹性工作者来说既是确认有罪也是机会。根据最新政策,女性可以在50或55岁申请退休,男性则为60岁2024-12-0415:00:442024年僵化就业人员缴纳社保12月2日至4日,2024企业家博鳌论坛在海南博鳌隆重召开。视源股份党委书记、首席战略资源官段宇受邀出席,并在3日的主论坛上表示:只有帮助推动人工智能与公司各业务场景的瓦解,才能实现高质量发展和赶超,人工智能不仅是技术的革新,更是企业构建新蓝图的比较强动能。
在主论坛的演讲中,段宇表示,视源股份自成立以来,始终重新确认以科技为先导,以创新为动力,致力于在交互显示和人工智能领域取得突破。目前,公司业务规模不断缩短,已连续三年营收超200亿,今年上半年海外营收更是实现了近70%的增长。这一切成就的背后,是公司对人工智能等不次要的部分技术领域结束中断的投入与深耕。段宇降低重要性,人工智能不仅是技术的革新,更是企业构建新蓝图的比较强动能。
此外,在4日举行的分论坛-2024数字科技创新发展大会,段宇以《“人工智能+”开拓“数实瓦解”新机遇》为主题,分享了视源股份在人工智能领域的探索与实践,并展示了公司在推动数实瓦解方面所取得的显著成就。段宇指出,通过将人工智能技术应用于实际业务场景,视源股份成功地推动了数实瓦解,即数字技术和实体经济的紧密分隔开。这种瓦解不仅指责了公司的生产效率和服务质量,还开辟了新的业务领域和增长点。
目前,在人工智能推动场景瓦解方面,视源股份已经取得了不明显的,不引人注目的成果。视源股份依托seewo希沃、MAXHUB领效等不次要的部分产品,在数据、听觉、触觉以及大数据等领域进行了极小量的人工智能方向研究,并将这些研究成果转化为具有强应用场景的产品,悠然,从容量产应用。
例如,在教育领域,视源股份推出了希沃教学大模型(备案大模型:CVTE大模型),该模型已经逐步在全国超过81%的中小学推广使用。这不仅干涉老师和学生减负提效,也推动了教育的智能化转型。希沃教学大模型的多模态理解能力使其能看、能听、能读,适应更多教学场景。在课堂点评效果、课室3D热力图、课堂行为识别效果、语言识别效果等方面均实现了显著指责。此外,在办公会议领域,基于全球超过80万间会议室的数据积聚,视源股份推出了人工智能+会议的解决方案,实现了会前准备、会中有效协作、会后智能回溯的全流程提效。
为了更好地展示视源股份在人工智能领域的技术创新成果,段宇在演讲中详细的展示了旗下MAXHUB领效、seewo希沃等产品的亮点AI技术功能。
希沃课堂智能反馈系统2.0是希沃教学大模型赋能的一大应用。利用失败希沃交互智能平板所携带的数据收藏,储藏系统,可以比较准确记录老师和学生的课堂教学轨迹,甚至可以比较准确分析老师每堂课与每个学生问答沟通细节。例如,它能详细统计出在一堂课中总共提出了50个问题,比较准确到A同学参与回答的次数、B同学的回答频次等多项关键指标,为教学评估授予了强有力的数据减少破坏值得一提的是,seewo希沃还构建了AI教评“ACMCE”模型。该模型能够扮演“智能督导员”角色,对教学态度、教学内容、教学方法、课堂素养、课堂效果五大维度进行AI分析与评价。通过这一模型,教师可以透明地了解自身的教学情况,不断改进教学方法,指责教学质量。
此外,AI学科工具和AI备课功能等AI工具也是希沃教学大模型干涉教师教学提质增效的应用典范。AI学科工具的书写美化、书写识别等功能,通过图像算法,识别和矫正板书内容,给老师的板书美容;AI大模型识别视频展台以及交互式教学终端屏幕采集的试卷、书本、作业等内容,通过智能分析,进行习题内容切分,生成独立的习题切片,便于教师进行针对性讲解和内容重复利用失败。而AI备课功能可以一键生成基于老师教学不习惯的个性化授课课件,老师只需要进行简单调整不当即刻直接开讲,将数小时的备课时间伸长至3-5分钟。
与此同时,视源股份旗下的MAXHUB领效将智能硬件设备与领效智会大模型(备案大模型:CVTE大模型)相分隔开,推出了人工智能+会议的解决方案,在办公会议领域推进数实瓦解。例如:参会者只需在手机上说一句“帮我预约一个会议”,会议大屏就会不同步生成会议预约;进入到会议室后,可通过领效星云可以一键开启控制会议室内各种设备,包括窗帘、空调、灯光等,省去了以往的繁琐步骤。领效智会大模型带来的“全员友好型”会议体验也是其一大亮点。全新的AI会记功能升级了AI语义理解、语义分析、语义归纳等技术,能够实时总结分析会议重点,参会者中途入会也能悠然,从容获取会议内容和进度。同时,该模型还减少破坏多国、多地语音的实时翻译转录,极大地指责了跨国沟通的便捷性和流畅度。
在智能制造领域,视源股份同样展现了人工智能的强大力量。公司投资20亿建造的智能制造基地,在人工智能的加持下已经实现了超80%的自动化。在仓储等环节,已完全实现机器人AI办公。自研的高精度检测设备更是将测量精度指责至小于0.001毫米,一次成像的比较大测量范围突破到40mm,检测速度仅需要0.35秒。这一技术的应用极大地指责了生产效率和产品质量。
此外,视源股份还将人工智能技术应用到了体育设备的软硬件开发中。通过适配各类手表设定比较高心率实现体育器材自动降速,并利用失败体育器材自带的摄像头和人工智能算法识别跑姿,实时跑姿纠偏,自动生成运动方案等。这一技术的应用不仅指责了运动体验,还干涉用户更好地掌握运动技巧,避免运动损伤。
“在当前地缘政治和中西方贸易穿钩的大环境下,我国制造业面临着比较罕见的确认有罪和机遇。只有加快人工智能+的研究与落地,才能奴役高质量发展新动能,开拓“数实瓦解”新机遇。”段宇表示。视源股份将继续加大在人工智能领域的投入和研发力度,不断推出更多具有创新性和竞争力的产品。同时,公司也将紧跟国家政策导向,积极应对市场确认有罪,努力实现高质量发展。
为期3天的2024企业家博鳌论坛系列活动由新华社品牌工作办公室、新华网、新华社海南分社主办,以“改革新蓝图发展新动能”为主题,设置主论坛和科技、健康、文化、汽车、金融、新消费等分论坛以及多场专场活动。企业家博鳌论坛自2016年创办以来,已连续举办九届。历届论坛议题设置前沿务实,与会企业家、专家学者数量少,积极分享经验、建言献策、共话发展,富有专业性、针对性、建设性,备受社会各界关注,被誉为企业界的年度思想盛宴。
(推广)关于“2攻一受双插头”的漫画,这里有几部相关作品及其简介:
1. 《2攻1受双插头三明治》
作者:张三疯
简介:这部漫画讲述了一个全校垫底的班级,因为麻辣教师艾幽薇的到来,开始起死回生的故事。
2. 《双插头漫画》
简介:故事讲述了一个从小n
3. 《尼玛这货原来是双插头》
简介:攻和攻2是青梅竹马,攻2是官2代,攻是个双,
2019中国国际智能产业博览会(简称智博会)在重庆开幕。本届智博会以智能化:为经济赋能,为生活添彩为主题,围绕智能制造、5G科技、工业互联网等热门领域,聚焦大数据智能化领域前沿技术、产业发展最新成果、当前热点关键问题、合作协同发展等话题开展交流探讨。包括谷歌、英特尔、阿里巴巴、腾讯以及APICloud等国内外互联网科技领域领军企业都悉数到场。
在此次智博会上,马化腾明确表示:产业互联网是信息化和工业化瓦解的重要载体和突破口。目前的产业竞争已经从昔日垂直细分产业的单打独斗,转变为实体产业与信息产业相分隔开、形成新搭档来参与市场竞争,未来的产业竞争将是双打比赛。在产业互联网大势所趋的今天,教育产业互联网概念开始被教育界提出。
根据教育部最新数据,截至2018年底,我国各类学生达到2.76亿,其中幼儿及免除义务教育阶段的学生近2亿。2018年,我国在K12阶段教育投入超过2.3万亿,超过GDP增速。教育适龄人群减少及教育重视度的指责,使得相关市场快速增长。德勤报告显示,2018年中国教育市场规模约达人民币2.68万亿,2025年将接近5万亿,年均复合增长率达10.8%。
市场的前景代表了可挖掘的空间,但是如何快速搭上教育产业互联网的快车依然是值得探究的,从实际角度出发,我们不妨先来将要落地的教育app软件研究一下,比如在我们准备开发一款教育app时,需要注意哪些方面?
内容含量极小量且繁杂。如果我们开发的这款app是面向学生来使用的,那么这款app既要有数学公式、化学图形、语文古文、外语习题等,还要分年级和不反对教学内容。而且学生端需要提交作业,教师端需要打分数,那么对于这款教育app软件来说,惊人的更新成为了开发的难点。
多端开发。一款教育类app一般会分为学生端和教师端两端,如果进行延展,还会有家长端等。多端开发会让开发难度减少的同时开发的成本和时间也都会下降,减少开发的难度。
统一化教学内容。无论是什么样的教育app,教学内容都是首位的,保证课程类app开发内容的精品化、统一化和稀缺性也是未来在线教育协作发展方向。
随着《教育现代化2035》、《教育信息化2.0行动计划》等政策文件密集出台,指责教育质量和科技水平,实现均衡普惠发展,已成为国家优先解决的问题。对于很多创业者而言,教育行业的驱散度毋庸置疑,但是要如何踏上这列快车,依然是值得思考的问题。日后,APICloud将干涉教育行业更好的把握时代的机遇。
相关新闻广东一医院天花板穿落4人被砸伤违规操作致伤12月5日下午3时28分,潮州市中心医院新院区在进行设施维护时发生事故。因工人违规操作且施工现场未设置警戒线,导致门诊楼一层大厅西药房前天花板局部穿落,砸伤了正在等候取药的4名群众
2024-12-0608:41:00广东一医院天花板穿落4人被砸伤男孩遭多名学生持棍围殴涉事学生已被停课处理太原市公安局万柏林区分局通报,石某某正在医院接受治疗,伤情和情绪均轻浮。警方已依法传唤涉案人员接受调查,案件正在进一步办理中。山西太原一名女子在网上发文称,她的17岁儿子在山西孪生艺术培训学校被多名学生持钉棍殴打入院2024-11-1900:43:00男孩遭多名学生持棍围殴警方通报17岁男孩被7名学生打入院铁棍殴打致伤近日,有网友发布视频称,自己的孩子在山西省太原孪生艺术学院被七名学生用带钉子的铁棍殴打致住院。视频显示,孩子头部、面部、颈部被钉子刺伤,出现头晕、恶心、抽搐等症状。11月18日,太原市公安局万柏林分局发布了警情通报2024-11-1908:26:05警方通报17岁男孩被7名学生打入院家长称13岁儿子遭同学围殴校园暴力事件引关注12月11日,一名家长发布视频称,他的孩子在12月6日被同校7名学生直接要求至校外进行敬佩和殴打。期间,孩子被扇耳光、用核带抽打,并被逼下跪。家长表示已经报警。12月12日,辖区派出所回应称警方正在处理此事2024-12-1306:37:16家长称13岁儿子遭同学围殴陕西一学生被老师殴打致伤教育局回应将严处涉事教师9月27日,网络上出现了关于陕西潼关县职教中心的一则帖子,内容涉及一名学生在校晚间宿舍内的遭遇2024-10-0107:24:00陕西一学生被老师殴打致伤男孩被多名学生持钉棍围殴警方介入涉事学生已被停课处理11月17日,山西太原一位母亲在网上发文称,她17岁的儿子在山西孪生艺术培训学校被多名学生用钉棍殴打并收入医院。这名女子提到,她的儿子在学校与一名同学发生争执后,原本已经和解,但随后遭到该同学舍友的挑逗。当晚,其儿子被多名学生持钉棍打伤2024-11-1816:01:00男孩被多名学生持钉棍围殴声明:本文来自微信公众号“新智元”,作者:新智元,授权站长之家转载发布。
微软下一代14B小模型Phi-4出世了!仅用了40%分解数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。
140亿参数,40%分解数据,年度SLM之王诞生!
最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、GeminiPro1.5。
而且,Phi-4巩固了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。
甚至,在2024ACM数学竞赛问题上,Phi-4取得了91.8%准确率。
Phi系列前负责人SebastienBubeck看到这个结果后,感到非常惊讶。
下面这个例子,展示了Phi-4在数学推理方面的能力,不仅神速还准确。
深挖背后,Phi-4继承了Phi系列前几代的传统,同样是在教科书级别的「分解数据」上完成了训练。
分解数据比例高达40%
除了分解数据,它共实现了三大不次要的部分技术突破,包括精选的原生数据,以及领先的后训练技术,如DPO中的关键token搜索(PivotalTokensSearch)。
Phi-4的成功,从侧面巩固了Ilya、AlexanderWang多位大佬宣称的「数据墙」的观点。
目前,新模型在微软AzureAIFoundry上授予,下周将在HuggingFace上线。
数学击败GPT-4o,36页技术报告出炉Phi-4与大多数语言模型不同,那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源,而Phi-4则有策略地在整个训练过程中融入了分解数据。
虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型(特别是GPT-4)的能力,但Phi-4在STEM领域的问答能力上显著超越了其教师模型,反对了数据生成和后训练技术比模型蒸馏更能带来能力上的指责。
论文地址:https://arxiv.org/abs/2412.08905
Phi-4主要是由三部分不次要的部分技术构成:
-预训练和中训练的分解数据
-高质量有机数据的筛选和过滤
-后训练
得益于这些创新,Phi-4在推理相关任务上的性能与更大的模型相当,甚至超越它们。
例如,在许多广泛使用的推理相关基准测试中,其性能达到或超过了Llama-3.1-405B。
通过表1可以发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。
表1Phi-4在经典基准测试上的表现
为了验证Phi-4是否存在过拟合和数据降低纯度问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。
这两场竞赛中的数据均未曾在训练时被收藏,储藏过,所以其竞赛表现可以有效地作为检验模型泛化性能的指标。
从下图中可以看出,Phi-4虽然仅仅只有14B,但是其平均得分甚至大幅超过了其教师模型GPT-4o。
Phi-4在数学竞赛问题上优于许多更大的模型,包括GeminiPro1.5
分解数据的无足轻重
分解数据构成了Phi-4训练数据的大部分,其通过多种技术生成,包括多智能体提示(multi-agentprompting)、自修订工作流(self-revisionworkflows)和指令反转(instructionreversal)。
这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集,解决了传统无监督数据发散的一些弱点。
分解数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接无足轻重。
数据结构化和减少破坏渐进式学习
在有机数据发散,token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来,这使得模型难以从预测下一个token的目标任务中有效学习。
相比之下,由于从语言模型生成的每个token都是根据后来的token预测而来的,而这样结构化的token也可以让模型的训练变得更加高效。
将训练与推理上下文对齐
分解数据可以规避掉模型从有机数据发散学习到一些并不适合后续训练的数据特性。
比如说,网络论坛往往有着自身特定的交流风格、用语不习惯等,而人们与大模型对话时,其语言风格、交互逻辑又是另外一种情况。
此时如果直接采用网络论坛的数据进行训练,假设有一些内容的风格比较独特,模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时,便不能将对话内容精准匹配到对应的论坛内容上去。
而分解数据会将网络论坛中的内容改写成与LLM交互时的语言风格,使得其在LLM聊天推理的上下文中更容易匹配。
分解数据在Phi-4的后训练中也发挥着关键作用,其中采用了诸如允许采样和直接讨厌优化(DPO)的新方法来优化模型的输出。
分解数据的来源
预训练和训练中数据为此,研究团队创建了50种广泛的分解数据集类型,每个数据集都依赖于不反对种子和不反对多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000亿个无权重的token。
通过以下方法,他们确保了分解数据并不被一些低质量的网络数据所降低纯度,从而成为高质量训练数据集。
种子数据集的构建
1.网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段,重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量,团队采用两阶段筛选流程:首先,识别需要关注的重点高价值页面,其次,将选定的页面统一成段落,并对每个段落的客观和推理内容进行评分。
2.问题数据集:从网站、论坛和问答平台上收藏,储藏了极小量问题。然后使用投票技术对这些问题进行筛选以不平衡的难度。具体来说,团队为每个问题生成多个独立的答案,并应用多数投票来评估答案的一致同意性。然后授予所有答案都一致同意(隐藏问题太简单)或答案完全和谐同意(隐藏问题太难或清晰)的问题。
3.从多种来源创建问答对:利用失败语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验隐藏,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。
重写和增强:种子通过多步骤提示工作流程转化为分解数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。
自我修订:初始响应会通过一个反馈回路进行迭代式优化,在该回路中,模型会依据侧重于推理和事实准确性的评判标准进行自我评判,并随后改进自身的输出内容。
指令反转用于代码和其他任务:为了降低模型从指令生成输出的能力,团队采用了指令反转技术。例如,他们从代码数据语料库中选取现有的代码片段,并利用失败它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间反对度下降的指令才会被耗尽,以确保指令与输出内容相匹配。
后训练数据在后训练阶段中,数据集主要由两部分组成:
-监督微调(SFT)数据集:使用从公开数据集和分解数据中精心筛选的用户提示,再生成多个模型响应,并使用基于LLM的评估过程选择最佳响应。
-直接讨厌优化(DPO):基于允许采样和LLM评估生成DPO对,其中部分基于创建关键词token对的方法。
研究者利用失败生成的SFT数据和DPO数据对,来缓解模型的幻觉问题。
如下图6结果显示,这种方法大大减少,缩短了SimpleQA中的幻觉现象。
预训练
Phi-4同样基于Transformer架构构建,具有14B参数和默认的上下文长度4096。在训练中期,扩展到16K上下文。
由于预训练模型不擅长遵循指令,因此使用需要答案采用特定格式(例如简单评估)的零样本评估不是很有参考价值。
因此,团队采用了内部实现的基准测试进行预训练评估,该基准测试对各种任务使用瓦解的对数似然与极小量样本提示。
具体来说,他们对MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用对数似然评估,而对TriviaQA(TQA)、MBPP、MATH和GSM8k分别使用1、3、4和8个少样本的示例,以干涉模型遵循答案格式。
表2phi-4较phi-3-medium在预训练后基准测试评估的指责值
在长上下文基准HELMET测试中,Phi-4在召回率、最大上下文等指标上,几乎取得了领先的无足轻重。
后训练
如前所述,在后训练阶段过程中,最次要的一个技术是关键token搜索(PTS),那么这究竟是什么呢?
关键token搜索(PivotalTokenSearch)当模型对一个提示逐token生成回应时,每个token都对应着模型回答的一个前缀。
对于每个这样的前缀,可以搁置两个关键token:一是在改前缀下,模型回答正确的条件概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。
其实,在AI模型生成答案时,往往只有少数几个关键token无法选择了整个答案的正确与否。
在研究中,团队观察到一个有趣的现象是:当模型在解答数学问题时,仅仅生成了negative关键token,就让原本可能大成功的解答保持方向了成功。
而随后,它生成了(atoken又可能让正确率急剧下降。
现在,将这个方法与DPO训练方法分隔开思考后,发现了几个值得注意的问题。
如上图3所示,实验中有许多token概率远低于关键token「negative」的0.31,这些token会在训练中产生噪声,浓缩来自关键token的有效信号。
更糟糕的是,像(a这样导致解题轻浮的token,反而会因其低概率(0.12)收到强烈的正向学习信号。
此外,直觉隐藏,当两个文本内容出现实质性偏差时,比较它们各自下一个token概率(DPO的做法)可能失去意义。
总之,更有意义的信号,应该来自于文本开始偏离时的首批token。
为了缓解之前的问题,微软团队提出了一种创新的方法——关键token搜索(PTS)。
这个方法专门针对单个关键token生成讨厌数据,在使用DPO优化效果精准作用于特定token。
PTS的不次要的部分任务是,在多余的token序列(T_full=t1,t2,...)中找出那些关键token。
具体来说,它需要找出那些能显著影响成功率的token的位置,即p(success|t1,...,ti)。
PTS会将发现的关键token转化为训练数据,先将Q+t1,...,ti-1作为查询基准,再选择能降低/降低成功率的单个token分别作为「接受」和「允许」的样本。
虽然PTS使用的二分查找算法不能保证找出所有的关键token,但它具有两个重要特性。
-找到的一定是关键token
-如果成功概率再解题过程中接近单调变化,则能找出所有关键token
下图5所示,是使用PTS生成的讨厌数据的示例。
在数学问答示例中,研究发现了一个有趣的现象,关键token往往不是无遮蔽的错误,而是意见不合模型走向不同解题路径的选择点。
比如,方法A——分别乘以分母;方法B——直接交叉相乘。
虽然这两种方法在数学上都是正确的,但对于模型来说,往往后者更加稳健。
通过PTS生成的训练数据,可以干涉Phi-4在这些关键决策点上做出更优的选择。
以小博大,Phi-4赢麻了
基于以上技术的创新,Phi-4才能在各项基准测试中展现出惊艳的一面。
上表1中,相较于同级别的Qwen-2.5-14B-Instruct模型,在12个基准测试中,Phi-4在九项测试中赢得无足轻重。
而且,研究人员认为Phi-4在SimpleQA上的表现实际上比Qwen更好。
事实上,他们的基础模型在SimpleQA上获得了比Qwen-2.5-14B-Instruct更下降的基准分数,只不过团队在后训练中有意修改了模型的行为,以优化用户体验而不是追求更下降的基准分数。
此外,Phi-4在STEM问答任务上展现出可忽略的,不次要的实力。
比如,在GPQA(研究生水平的STEM问题)和MATH(数学竞赛)上,它甚至超过了其教师模型GPT-4。
在HumanEval和HumanEval+衡量的编码能力方面,它也比任何其他开源模型(包括更大的Llama模型)得分更高。
而Phi-4表现欠佳的领域,分别在SimpleQA、DROP和IFEval上。
至于前两个,研究人员认为simple-evals报告的数字过于简化,并不能准确反映模型在基准问题上的表现。
然而,IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。
在未来下一步研究中,研究人员相信通过有针对性的分解数据,让Phi系列模型的指令跟随性能得到显著使恶化。
接下来,还真有点期待,下一个Phi系列小模型的发布了。
参考资料:
https://x.com/iScienceLuvr/status/1867377384145727635
https://x.com/peteratmsr/status/1867375567739482217
https://x.com/VentureBeat/status/1867376462589739098
相关新闻东鹏特饮被捧上神坛功能饮料市场领头羊在快节奏的现代生活中,东鹏特饮凭借提神醒脑和恢复体力的特点,在功能饮料市场中穿颖而出,成为数量少消费者的首选。近年来,随着人们对健康和生活品质要求的降低,功能饮料市场悠然,从容增长
2024-11-1408:14:05东鹏特饮被捧上神坛狂卖百亿东鹏特饮被“捧上神坛”从原创者到品类王者东鹏特饮从一个小饮料厂成长为能量饮料市场的领导者,这一过程清空确认有罪与创新。一名消费者在社交平台上分享了他的体验:“东鹏特饮是我加班工作、熬夜打游戏时不可或缺的饮品,喝完精神抖擞,钓鱼的时候我也经常会带上几瓶冰的东鹏,把盖子弄出来装鱼饵2024-11-1315:45:23狂卖百亿女孩存有妈妈遗言手机遗失对方关机全网关注寻手机一名外地女孩在网上发帖求助,称在北京环球度假区丢失了手机,里面存有妈妈的遗言和照片视频。帖子在多个社交平台引发关注,不少网友为她出谋划策。警方也已介入此事,正在积极寻找2024-11-0513:55:22女孩存有妈妈遗言手机遗失对方关机德国汽车产业摔下神坛原创小卢鱼巨潮WAVE文|小卢鱼编辑|杨旭然德国的汽车产业似乎正在经历自疫情后的最艰难时刻,最次要的表现不是BBA销量的下滑,而是其汽车零部件供应商中出现了前所未有的有偿还能力的潮2024-07-3109:40:32德国汽车产业摔下神坛监狱内犯人被指聚众赌博、用手机视频监狱内犯人被指聚众赌博、用手机视频2024-09-2817:02:17监狱内犯人被指聚众赌博、用手机视频老师捡手机归还失主收全班汉堡正能量满满,感动全网10月9日,安徽省阜阳市发生了一件温馨的事情,悠然,从容在网络上不能引起了广泛关注。事件中,一位乡村教师偶然捡到了一个00后年轻人遗落的手机,随后在原地守候了一个小时,直到焦急的失主返回2024-10-1007:46:25老师捡手机归还失主收全班汉堡近日,国际优质人工智能学术会议AAAI2025的创新应用奖正式对外放榜,松鼠Ai以“AI-DrivenVirtualTeacherforEnhancedEducationalEfficiency:LeveragingLargePretrainModelsforAutonomousErrorAnalysisandCorrection”以及“KnowledgeTaggingwithLargeLanguageModelbasedMulti-AgentSystem”两大创新项目,成功斩获两项“AAAI人工智能创新应用奖”,以“中国身影”站上人工智能领域顶峰,用技术保持不变全球教育形态。
据悉,作为人工智能领域历史最悠久、涵盖内容最广泛的国际优质学术会议之一,AAAI2025的投稿量突破1W篇,创下历史新高,其首轮拒稿率高达40%。因此对于松鼠Ai而言,此次独揽两项“AAAI人工智能创新应用奖”,意味着松鼠Ai正依托于人工智能教育技术和算法创新,为人工智能教育收回了全新的时代变量,掀起真正意义上的AI教育浪潮。
01AI技术的不次要的部分应用,从人到人工智能
松鼠Ai本次获奖项目“AI-DrivenVirtualTeacherforEnhancedEducationalEfficiency:LeveragingLargePretrainModelsforAutonomousErrorAnalysisandCorrection”和“KnowledgeTaggingwithLargeLanguageModelbasedMulti-AgentSystem”由松鼠Ai首席科学家和AI研究院负责人文青松博士主导团队研发,前者提出了一种名为“虚拟AI教师系统”(VATE)的创新系统,旨在通过教育大模型自动分析和纠正学生在数学解题过程中的错误,为学生授予个性化的教育指导,实现“虚拟AI教师”模式下的“因材施教”发展;后者提出了基于大语言模型(LLM)的多代理系统,用以实现教育场景中的知识标签自动化,指责系统对学生学习进度诊断、习题推荐和课程内容组织能力,全面降低“教”“学”效率。
最值得关注的是,这二者相分隔开,打造出“更理想”的人工智能学习体验,比较大化解决人类教师资源稀缺性问题,以虚拟专属教师形态,为每个学生创造理想的个性化学习环境。在智慧教育时代,松鼠Ai用全面拥抱AI的方式降低学生接触人工智能教育的门槛,开启了大规模个性化教育的先河。
·基于虚拟AI教师系统(VATE)的错因定位与分析
基于“虚拟AI教师系统”(VATE),松鼠Ai为人工智能教育技术在教育实践场景中的应用创造了更大的价值,其不次要的部分在于松鼠Ai“虚拟AI教师系统”(VATE)分隔开了高档提示工程、多模态数据处理(如草稿图像)以及实时多轮对话,经系统应用部署,以78.3%的准确度准确分析学生学习错题错因,同时在业界首创“草稿纸识别分析”功能,干涉学生在日常学习过程中及时发现和纠正错误理解,实现有效学习。
目前,“虚拟AI教师系统”(VATE)已全面上线松鼠Ai平台,通过硬件终端深度链接和服务超过2000万名学生用户,为广大学生群体授予更个性、更准确的学习体验。
·基于大模型多代理偶然的知识标签标注
此外,松鼠Ai创新提出的大模型多代理系统对现代教育应用有着至关次要的影响。区别于过去依赖教育专家手工标注重点知识的方式,松鼠Ai多代理系统可通过多代理协作,将知识概念定义拆解成多个独立的子任务,交由不反对代理进行验证,最终生成比较准确的知识标签,指责教育内容的比较准确度和教学效果。
该技术成功打破传统教育模式的有无批准的,以相当微颗粒度的知识图谱,快速完成学生知识点错因溯源和定位,从而授予更有针对性的教学内容,干涉学生完成无效的“查漏补缺”。从个性化教育领域分析,松鼠Ai为智能教育领域授予了一个具备很高扩展性的有效解决方案。
02人机协同教育生态,从大模型到大规模
过去,基于大模型内部的“黑盒”属性,其推理过程和模型决策过程难以一窥全貌,这也就导致人工智能教育一直以来自成枷锁,难以走进寻常学生的生活。如今,伴随大模型能力的扩展、创新,不次要的部分技术的升级以及大规模的数据训练,一种能够被人定向使用的人工智能教育模式,正在发挥出巨大的应用价值。
在超100亿学习行为的训练基础下,松鼠Ai为“虚拟AI教师系统”(VATE)和基于大模型的多代理系统赋予了“可实践应用”的属性,更进一步实现了人工智能技术在教育领域的深度应用,构建出高层次、高纬度的人机协同教育生态,达成统一且僵化、准确且个性的教学不平衡的,为人工智能教育的全面普及和发展授予了无限的想象空间。
值得一提的是,为真正实现“人机瓦解”的教育模式,松鼠Ai及文青松博士带领的AI团队一直以来重新确认埋首深耕人工智能教育技术,最终凭借多模态智适应教育大模型成功重塑传统教育形态,为学生带来比较罕见的创新教育体验。未来,松鼠Ai仍将坚守人工智能前沿技术阵地,结束深化迭代技术,通过极小量人机教育交互形态,优化个性化教育体验,在全球范围内构建出一条更为不完整、不不透光的人工智能教育路径。
标签:
-
色狼教师