时政
财经
科技
虚拟货币
其他
登录
AIGCLINK
关注
统计数据
49
文章
0
粉丝
0
获赞
97
阅读
热门文章
1
TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...
145
32
AIGCLINK
2个月前
从coze space到Minimax Agent下场,意味着大模型公司都在争抢通用Agent方向,很早之前就提过Manus这个方向是所有模型公司都会干的方向,通用不是一个好的增量赛道。
分享
评论 0
0
AIGCLINK
2个月前
火山的Force大会展区走了一圈,体感如下: 1.火山生态还是主要以to c场景为主,深水区to b场景任重道远 2.火山公布自己的token消耗量日均16.4万亿,这个消耗量按照4元/百万token计算,大概日消耗6560万,占中国总销量四分之一的话,那么国内的to c场景消耗大概在2.62亿,这个规模比想象中小太多,to c任重道远 3.国内的to c繁荣必须搬走三座大山:大厂的抄袭、3月以上过长的周期算法备案、资本对to c从业者的现金流包容 4.只有to c繁荣才能将消耗量提升10倍,否则规模太小了 #火山引擎 #豆包
#火山Force大会
#to C场景
#to B场景
#token消耗量
#国内市场
#抄袭问题
分享
评论 0
0
AIGCLINK
2个月前
一款多智能体交易系统:TradingAgents,它模拟真实的交易团队,通过分析、讨论和决策,来决定是否买卖股票 它有分析师、研究员、交易员、风险管理员几个智能体,综合财务数据、市场情绪、新闻报道等多个信息,智能体间进行动态讨论,进而做出全面合理的决策 比如,有的智能体认为股票值得买入,有的认为有风险,它们会通过辩论来达成一个最佳决策 可以自定义策略,你可以根据自己的交易风格和目标,调整智能体的行为,或者添加新智能体和功能模块 支持实时获取最新市场数据和缓存数据 系统基于LangGraph构建,它实验时使用的o1-preview和 gpt-4o作为深度思考和快速思考的模型 #AI交易系统 #TradingAgents #AI股票助手
#多智能体系统
#股票交易
#人工智能
#金融科技
#交易策略
#市场分析
分享
评论 0
0
AIGCLINK
2个月前
今天听了大半天的智源大会具身智能和机器人头部公司的各种观点,也算是代表国内具身智能领域的绝对能力了,体感是很失望,大家还停留在单点突破上,场景和全局考虑突破门都还没进入: 1、数据层面:具身数据数据收集还没有解决数据缺少的问题,主要的三大类数据:互联网视频数据、物理仿真数据、真机数据收集(其中又分了第一视角、第二视角、第三视角数据),但数据量最大的互联网第三视角数据的利用率非常非常低,如何能够利用好互联网数据是具身智能领域gpt时刻来临的关键。 2、硬件机器人标准不统一:就像自动驾驶行业一样,各家有各家的标准,所以每个部件都不统一,对于收集关节、运动数据等造成极大的浪费和泛化障碍,这块需要一个类似于cuda之类的操作系统来同一行业,就像之前分享的ros系统,而这个ros必须要由头部公司来主导,比如未来小米造机器人等。 3、VLA+ROS的联动几乎没有走这个路线的,有一家北京人形机器人创新研究中心的唐老师路线有些突破,想做平台,思路是对的,但vla没有突破之前,短期内很难有平台中间件突破,就像语言模型时代大模型催生了中间件平台产生。 4、不过北京人形机器人创新研究中心唐老师提出的vlm/vla——>世界模型——>奖励模型rm的闭环,值得学习:通过vlm/vla来规划机器人任务、然后通过世界模型仿真机器人指令执行得到结果反馈,让rm模型来做评测选择最合适的路径,这倒是一个值得学习的思路。 5、全球目前比较紧缺的是vla模型,vla模型的发生紧缺的是数据,数据来源最大、利用率最低的是第三视角的互联网数据,如何解决这个问题是有人要寻找一种算法路径来学习互联网视频数据——>具身智能机器人数据的转化,这样才能完成gpt时刻的到来。 #智源大会 #vla模型 #具身机器人
#智源大会
#具身智能
#机器人
#数据收集
#人工智能
#国内行业
#技术发展
分享
评论 0
0
AIGCLINK
2个月前
很有意思的一个项目,科研论文转换代码:Paper2Code Paper2Code可以读取机器学习领域的PDF/LaTeX格式的科研论文,然后自动帮你写出代码,且能自我质量评估 假如你想实现一篇论文里的算法,但懒得自己写代码,就用它帮你把论文里的内容写出代码 Paper2Code采用多智能体设计,工作流分成三部分,它先阅读论文,理解算法的整体结构和流程;然后分析论文中的关键细节,比如公式、变量、参数等等;最后根据分析结果,自动生成代码 实验评估,PaperCoder从机器学习论文中生成代码的质量高、接近作者实现水平,优于其他基线模型 #论文转代码 #Paper2Code
#科研工具
#自动编程
#论文转代码
#机器学习
#智能体设计
分享
评论 0
0
AIGCLINK
2个月前
近期交流了很多具身智能公司和机器人公司,包括机器人数据训练场等,对整体的产业链各方面做了整体的了解,得到一些体感和结论供大家参考: 1、具身智能领域还没有迎来gpt时刻,还处于局部优化阶段,大多数团队都是专注于电机、手臂、曲度、手抓能力等局部优化,全部优化团队非常缺少。 2、国内的大多数具身一线公司还没有进入VLA模型阶段,部分公司在尝试世界模型,但都集中在局部场景,精细度可以做到很高但场景泛化能力有限 3、比如群核科技在细分场景做的非常靠前,而且给出的3d设计可以直接用,像展位设计、装修设计、工厂3d建模生产排班等均可自动化,但还是偏向于局部场景。 4、VLA模型在国外有多家有一定的进展,Google的gemini robotic、figure01的模型等,多家在vla模型上都在尝试,国内也就智源在这个方向上有一些建树,其他家貌似还没有开始。 5、从我个人的观察和判断,未来还是需要多模态大模型公司实现从2d多模态到3d多模态突破,从而实现vla模型的突破,但是当下还没有看到哪家模型公司有苗头。 6、这里也呼吁国内的模型公司和团队要关注VLA模型这个方向,这个方向是抢占具身智能未来的关键一环,未来具身智能的三个关键要素:VLA模型+内化指令集的跨平台ROS+具身机器人材料部件。 #具身智能 #vla模型 #gemini
#具身智能
#机器人公司
#机器人数据训练场
#产业链
#gpt时刻
#VLA模型
#世界模型
#电机
#手臂
#曲度
#手抓能力
#局部优化
#整体优化
分享
评论 0
0
AIGCLINK
2个月前
今天跟圈里朋友聊,SH的1万台h200据说在落地中,不是1万张卡是1万台,感觉大概率会干崩h200价格和市场,真心是太激进了,所有做h200集群的朋友可能要慎重慎重再慎重。 拿国内头部的模型公司来说,训练所用到的h200集群也就是256-512台之间,单次训练时常大概在3个月左右,就算所有模型公司全上貌似也用不了这么多。一下子上来这么多机器,除了硬塞给各个高校、科研单位之类的,场景实在有限,没想到这么快h200集群就面临这么大的供给量。
#SH
#H200
#市场
#价格
#集群
#模型公司
#科研单位
分享
评论 0
0
AIGCLINK
2个月前
谷歌基于Gemini 2.5搞了个开源的Deep Research系统示例:gemini-fullstack-langgraph-quickstar,可以动态进行网络搜索、反思搜索结果,最终生成包含引用来源的答案 它会迭代式的进行研究和反思,直到收集足够的信息 支持低、中、高不同的搜索力度,来控制搜索广度和深度 动态生成查询,通过Gemini原生的Google搜索工具进行网络研究,进行反思推理 #DeepResearch #深度研究助手 #AI研究助手
谷歌Deep Research:AI操作系统雏形?· 58 条信息
#Gemini 2.5
#Deep Research系统
#开源
#AI研究助手
#网络搜索
分享
评论 0
0
AIGCLINK
3个月前
解决AI记忆能力的一款轻量级工具:Memvid,它把文本数据编码为视频,可以实现亚秒级的快速语义搜索 它把信息存储在视频里,省空间、速度快、方便携带,并且不用联网 支持语义搜索,内置聊天功能 可以直接导入和索引PDF文档,这样就可以把一些书籍、论文等资料快速构建成 AI 记忆库了 #AI记忆 #Memvid
#AI记忆
#Memvid
分享
评论 0
0
AIGCLINK
3个月前
谷歌基于Gemma 3的一款多模态医疗模型:MedGemma,可以根据医学影像和病历描述生成诊断报告 它在胸部X光片、皮肤病图像、眼科图像、病理切片等大量医疗数据上进行了预训练和微调 可以看图说话,给一张X光片,让它用文字描述图像内容;让它回答关于医学的问题;或给它一些医学影像和相关病历信息,让它生成一份诊断报告 两个版本, 4B 多模态版,支持图像和文本 27B 纯文本版 性能都优于其基础模型 应用场景可以用于医学图像分类;视觉问答,看X光片、看看皮肤照片、看眼底照片、看病理切片;报告生成等等;可做为开发医疗AI应用的起点 #AI医疗模型 #AI医疗助手 #MedGemma
#谷歌
#Gemma 3
#多模态医疗模型
#诊断报告生成
#医学影像
#病历
分享
评论 0
0
AIGCLINK
5个月前
这两天闹的沸沸扬扬的朱啸虎唱衰具身智能的言论部分认同: 1. 当前具身智能领域大都还在走传统的路线,犹如2023年之前AI1.0时代的NLP和CV路线,后来transformer出现后将原先语言和视觉路线干废。具身智能也需要经历一次这样的临界点,当前还处于1.0时代,未来VLA模型成熟后,必然会将门槛极大的降低下来,泛化性能增强。 2.当前国内的大多数具身智能公司,很多都是用国外开源的路线二开改来的没啥太强的门槛,泛化能力很差,包括头部几家机器人公司也是如此,这种路线不会持久,犹如元宇宙时代的数字人公司的性质。 3.VLA模型临界点过了之后,ROS和VLA模型协同后,那么整个具身智能领域会进入2.0新的阶段,就像数字人公司在大模型公司加持后,产生了更强的价值。 4.当前市面上的,具身智能公司有场景的公司微乎其微,因为泛化能力不行,针对场景的落地成本极高,大都需要定制,只有VlA成熟后,才能实现场景落地大爆发。 5.VLA模型上gemini和figure公司都弄了自己的VLA模型,国内智元说自己有,技术路线和商业路线不清晰,泡沫说实话太高,这点我认可朱啸虎。 6.至于大家会反驳宇树科技营收好,貌似很多人或者公司买就是为了拍视频装逼pr吧,不是实用性的消费,不进消费场景实际解决问题注定走不远。 #vla #具身智能
#朱啸虎
#具身智能
#AI1.0
#NLP
#CV
#transformer
#VLA模型
#泛化性能
#国内公司
#开源
分享
评论 0
0
AIGCLINK
5个月前
MCP 3D建模的一个用例 可以让Claude直接与Blender对话的MCP:blender-mcp,通过文字提示即可创建3D场景 #MCP #BlenderMCP #AI3D建模
#MCP
#BlenderMCP
#AI3D建模
分享
评论 0
0
AIGCLINK
5个月前
西北工业大学等放出来一款10秒生成完整歌曲的端到端生成模型:DiffRhythm 给一个参考风格和歌词,即可生成最长4分多钟的完整歌曲 可以同时生成人声和伴奏,支持中英文歌曲生成 支持多种生成模式,使用音频作为参考、使用文本描述风格,以及生成纯音乐 #歌曲生成模型 #DiffRhythm #AI歌曲
#歌曲生成模型
#DiffRhythm
#AI歌曲
分享
评论 0
0
AIGCLINK
5个月前
牛,Mistral刚刚发布了号称地表最强OCR,给文档理解设立了新标准! Mistral OCR具备强大认知能力,能准确理解文档中包括文本、图像、表格、公式等在内的每个元素 特点: 1、原生多语言和多模态,支持数千种文字、字体以及语言 2、能准确理解复杂的文档元素,包括图像、数学公式、表格以及 LaTeX 格式等,尤其擅长处理包含图表、图形、公式和插图的科学论文等富文档 3、在多个文档分析方面的基准测试中优于其他OCR模型,尤其在扫描文档、表格和数学公式识别上表现出色 4、处理速度很快,单节点每分钟可处理2000页 5、支持使用文档作为提示,以结构化格式比如 JSON输出 6、可选择性自托管 #OCR #MistralOCR #Mistral
#Mistral
#OCR
#科技创新
#文档理解
#多语言支持
#多模态
#科学论文
#地表最强
#文档元素
#复杂文档
分享
评论 0
0
AIGCLINK
6个月前
B站的一款TTS要出来了,IndexTTS,在词错误率上超过了CosyVoice2、Fish-Speech、F5-TTS等 IndexTTS基于XTTS和Tortoise开发,并做了改进 中文字符—拼音混合建模,可以直接输入拼音来纠正多音字的发音错误 结合Conformer条件编码器和BigVGAN2语音解码器,提高了训练稳定性、音色相似性以及声音质量 #TTS #IndexTTS #FishSpeech #F5TTS
分享
评论 0
0
AIGCLINK
6个月前
西北工业大学开源了一个语音理解模型:OSUM,支持8种语音理解任务,从ASR到情感识别,以及语音到文本的深度理解 支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC) 它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任务同时训练优化 #语音理解模型 #语音识别 #OSUM
#西北工业大学
#OSUM
#语音理解
#开源模型
#ASR
#情感识别
#Whisper
#Qwen2
#多任务支持
#语音识别技术
#科技新品
分享
评论 0
0
AIGCLINK
6个月前
国内现在各家公司基本上都是抢算法人才,23年和24年就有很多学校的硕士、博士算法人才都被公司提前给抢光预定了,算法人才价格在150-200万年薪之间,今年随着deepseek引爆市场人才价格估计会更深水涨船高。 #deepseek
#人才争夺
#算法
#DeepSeek
#高薪
#招聘
分享
评论 0
0
AIGCLINK
7个月前
阿里巴巴开源的一个新闻时间线摘要生成系统:CHRONOS,给它一个话题,它能生成一份按时间顺序整理好的重要事件摘要 具备迭代式自我提问机制,可以自己提问,自动找答案,按时间顺序整理重要信息 支持开放域新闻时间线生成,不限特定领域 处理速度快,可以处理大量新闻 #新闻助手 #新闻事件整理助手 #CHRONOS
#新闻助手
#新闻事件整理助手
#CHRONOS
分享
评论 0
0
AIGCLINK
7个月前
南京大学、字节等开源的一款提高视频清晰度的工具:STAR,它能在提高分辨率的同时,保持视频时间一致性和细节完整性,没有细节丢失、运动不自然的问题 它可以根据视频的不同部分,智能调整清晰度力度,以保证整体的清晰度,又避免过度锐化导致画面不自然 它用文本到视频模型学习到的视觉特征和时空信息来增强超分辨率过程,解决了画面连续性,使视频前后帧之间流畅,不会跳动,以及视频真实感的问题 #视频清晰度增强 #STAR #视频修复
#视频清晰度增强
#开源工具
#南京大学
#字节跳动
#超分辨率
#智能视频处理
分享
评论 0
0
AIGCLINK
7个月前
Adobe和香港科大开源的一款可以生成透明视频的项目:TransPixar,它可以生成包含烟雾、反射、水滴等透明元素的视频,看起来非常真实、更自然 这给比如电影特效制作、游戏画面渲染、虚拟现实创作提供了更多的便利性 #视频生成 #TransPixar
#视频生成
#TransPixar
分享
评论 0
0
AIGCLINK
7个月前
酷,多高校开源的一个AI文章检测工具:ImBD(Imitate Before Detect),可以检测文章是否被AI修改过,能检测纯AI生成的,还能检测被AI润色、改写、扩写的,准确率高 用来检测论文、稿件原创性就非常轻松,它仅使用1000个样本和5分钟的SPO训练就超过了商业的GPT-Zero 检测开源LLM修改文本上提高了13%,检测GPT-3.5和GPT-4o修改的文本上,性能提高了5%和19% 支持像改写、扩写、润色都可以,纯AI生成的检测率能到99.96%,改写87.39%,扩写97.58%,润色97.07% #AI文章检测 #论文检测工具 #ImBD
#AI检测
#ImBD工具
#论文原创性
#开源工具
#GPT-Zero对比
#AI文本修改检测
#SPO训练
#LLM修改文本
#GPT-3.5检测
#GPT-4o检测
分享
评论 0
0
AIGCLINK
8个月前
酷!智谱最新发布了其基于扩展强化学习技术训练的推理模型:GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题 在AIME 2024、MATH500 和 LiveCodeBench评测中,效果与OpenAI-o1-Preview相当 在逻辑推理方面,GLM-Zero-Preview 善于识别逻辑漏洞,能够模拟多种假设和可能性 在数学方面,GLM-Zero-Preview 具有强大的归纳与演绎能力,能够快速处理复杂的数学运算,解答包括代数、微积分、概率统计等领域的问题 #GLM #GLMZeroPreview #LLM
#智谱
#扩展强化学习
#GLM-Zero-Preview
#逻辑推理
#AIME 2024
#MATH500
#LiveCodeBench
#OpenAI-o1-Preview
#数学
分享
评论 0
0
AIGCLINK
8个月前
酷!北大等开源的一个可定制化的多人物漫画生成框架:DiffSensei,可以控制角色的外观和互动方式,可以基于文本调整角色的表情、姿势以及动作等 1、它能理解故事上下文,能同时处理多个角色,保持每个角色的独特形象以及角色之间的互动 2、可以根据对话提示调整表情,根据场景改变姿势,保持角色的一致性 3、支持不同的漫画分格方式,通过提示控制每个格子的构图,能处理连续的故事情节 4、支持批量生成连续漫画 #AI漫画生成 #漫画生成工具 #DiffSensei
#DiffSensei
#北大
#开源
#漫画生成
#多人物控制
#角色自定义
#图形AI
分享
评论 0
0
AIGCLINK
8个月前
基于Vision LLM把PDF转为Markdown的一款工具:vision-parse 智能提取,精确识别文本、表格 可以保留文档的层级结构、样式 支持多页,支持本地部署 #PDF转Markdown
#PDF转Markdown
#文件转换
#智能提取
#多页支持
#本地部署
#文本识别
#表格识别
分享
评论 0
0
上一页
1
2
个人主页
通知
我的投稿
我的关注
我的拉黑
我的评论
我的点赞