AIGCLINK2025-03-29 16:54:06这两天闹的沸沸扬扬的朱啸虎唱衰具身智能的言论部分认同: 1. 当前具身智能领域大都还在走传统的路线,犹如2023年之前AI1.0时代的NLP和CV路线,后来transformer出现后将原先语言和视觉路线干废。具身智能也需要经历一次这样的临界点,当前还处于1.0时代,未来VLA模型成熟后,必然会将门槛极大的降低下来,泛化性能增强。 2.当前国内的大多数具身智能公司,很多都是用国外开源的路线二开#朱啸虎#具身智能#AI1.0
AIGCLINK2025-03-12 08:52:54MCP 3D建模的一个用例 可以让Claude直接与Blender对话的MCP:blender-mcp,通过文字提示即可创建3D场景 #MCP #BlenderMCP #AI3D建模#MCP#BlenderMCP#AI3D建模
AIGCLINK2025-03-11 11:09:44西北工业大学等放出来一款10秒生成完整歌曲的端到端生成模型:DiffRhythm 给一个参考风格和歌词,即可生成最长4分多钟的完整歌曲 可以同时生成人声和伴奏,支持中英文歌曲生成 支持多种生成模式,使用音频作为参考、使用文本描述风格,以及生成纯音乐 #歌曲生成模型 #DiffRhythm #AI歌曲#歌曲生成模型#DiffRhythm#AI歌曲
AIGCLINK2025-03-07 10:44:31牛,Mistral刚刚发布了号称地表最强OCR,给文档理解设立了新标准! Mistral OCR具备强大认知能力,能准确理解文档中包括文本、图像、表格、公式等在内的每个元素 特点: 1、原生多语言和多模态,支持数千种文字、字体以及语言 2、能准确理解复杂的文档元素,包括图像、数学公式、表格以及 LaTeX 格式等,尤其擅长处理包含图表、图形、公式和插图的科学论文等富文档 3、在多个文档分析#Mistral#OCR#科技创新
AIGCLINK2025-02-20 16:14:11西北工业大学开源了一个语音理解模型:OSUM,支持8种语音理解任务,从ASR到情感识别,以及语音到文本的深度理解 支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC) 它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任务同时#西北工业大学#OSUM#语音理解
AIGCLINK2025-02-15 18:07:42国内现在各家公司基本上都是抢算法人才,23年和24年就有很多学校的硕士、博士算法人才都被公司提前给抢光预定了,算法人才价格在150-200万年薪之间,今年随着deepseek引爆市场人才价格估计会更深水涨船高。 #deepseek 预览#人才争夺#算法#DeepSeek
AIGCLINK2025-01-22 00:17:51阿里巴巴开源的一个新闻时间线摘要生成系统:CHRONOS,给它一个话题,它能生成一份按时间顺序整理好的重要事件摘要 具备迭代式自我提问机制,可以自己提问,自动找答案,按时间顺序整理重要信息 支持开放域新闻时间线生成,不限特定领域 处理速度快,可以处理大量新闻 #新闻助手 #新闻事件整理助手 #CHRONOS#新闻助手#新闻事件整理助手#CHRONOS
AIGCLINK2025-01-09 01:16:51南京大学、字节等开源的一款提高视频清晰度的工具:STAR,它能在提高分辨率的同时,保持视频时间一致性和细节完整性,没有细节丢失、运动不自然的问题 它可以根据视频的不同部分,智能调整清晰度力度,以保证整体的清晰度,又避免过度锐化导致画面不自然 它用文本到视频模型学习到的视觉特征和时空信息来增强超分辨率过程,解决了画面连续性,使视频前后帧之间流畅,不会跳动,以及视频真实感的问题 #视频清晰度增强#视频清晰度增强#开源工具#南京大学
AIGCLINK2025-01-08 23:10:40Adobe和香港科大开源的一款可以生成透明视频的项目:TransPixar,它可以生成包含烟雾、反射、水滴等透明元素的视频,看起来非常真实、更自然 这给比如电影特效制作、游戏画面渲染、虚拟现实创作提供了更多的便利性 #视频生成 #TransPixar#视频生成#TransPixar
AIGCLINK2025-01-08 02:48:22酷,多高校开源的一个AI文章检测工具:ImBD(Imitate Before Detect),可以检测文章是否被AI修改过,能检测纯AI生成的,还能检测被AI润色、改写、扩写的,准确率高 用来检测论文、稿件原创性就非常轻松,它仅使用1000个样本和5分钟的SPO训练就超过了商业的GPT-Zero 检测开源LLM修改文本上提高了13%,检测GPT-3.5和GPT-4o修改的文本上,性能提高了5%#AI检测#ImBD工具#论文原创性
AIGCLINK2024-12-31 07:24:55酷!智谱最新发布了其基于扩展强化学习技术训练的推理模型:GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题 在AIME 2024、MATH500 和 LiveCodeBench评测中,效果与OpenAI-o1-Preview相当 在逻辑推理方面,GLM-Zero-Preview 善于识别逻辑漏洞,能够模拟多种假设和可能性 在数学方面,GLM-Zero-Previ#智谱#扩展强化学习#GLM-Zero-Preview
AIGCLINK2024-12-30 08:07:01酷!北大等开源的一个可定制化的多人物漫画生成框架:DiffSensei,可以控制角色的外观和互动方式,可以基于文本调整角色的表情、姿势以及动作等 1、它能理解故事上下文,能同时处理多个角色,保持每个角色的独特形象以及角色之间的互动 2、可以根据对话提示调整表情,根据场景改变姿势,保持角色的一致性 3、支持不同的漫画分格方式,通过提示控制每个格子的构图,能处理连续的故事情节 4、支持批量生成#DiffSensei#北大#开源
AIGCLINK2024-12-27 00:44:49基于Vision LLM把PDF转为Markdown的一款工具:vision-parse 智能提取,精确识别文本、表格 可以保留文档的层级结构、样式 支持多页,支持本地部署 #PDF转Markdown#PDF转Markdown#文件转换#智能提取