AIGCLINK

统计数据

36
文章
0
粉丝
0
获赞
20
阅读

热门文章

1

TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...

145 32
avatar
AIGCLINK
4个月前
西北工业大学等放出来一款10秒生成完整歌曲的端到端生成模型:DiffRhythm 给一个参考风格和歌词,即可生成最长4分多钟的完整歌曲 可以同时生成人声和伴奏,支持中英文歌曲生成 支持多种生成模式,使用音频作为参考、使用文本描述风格,以及生成纯音乐 #歌曲生成模型 #DiffRhythm #AI歌曲
#歌曲生成模型 #DiffRhythm #AI歌曲
avatar
AIGCLINK
4个月前
牛,Mistral刚刚发布了号称地表最强OCR,给文档理解设立了新标准! Mistral OCR具备强大认知能力,能准确理解文档中包括文本、图像、表格、公式等在内的每个元素 特点: 1、原生多语言和多模态,支持数千种文字、字体以及语言 2、能准确理解复杂的文档元素,包括图像、数学公式、表格以及 LaTeX 格式等,尤其擅长处理包含图表、图形、公式和插图的科学论文等富文档 3、在多个文档分析方面的基准测试中优于其他OCR模型,尤其在扫描文档、表格和数学公式识别上表现出色 4、处理速度很快,单节点每分钟可处理2000页 5、支持使用文档作为提示,以结构化格式比如 JSON输出 6、可选择性自托管 #OCR #MistralOCR #Mistral
#Mistral #OCR #科技创新 #文档理解 #多语言支持 #多模态 #科学论文 #地表最强 #文档元素 #复杂文档
avatar
AIGCLINK
4个月前
西北工业大学开源了一个语音理解模型:OSUM,支持8种语音理解任务,从ASR到情感识别,以及语音到文本的深度理解 支持语音识别(ASR) 带时间戳的语音识别(SRWT) 声音事件检测(VED) 语音情感识别(SER) 说话风格识别(SSR) 说话者性别分类(SGC) 说话者年龄预测(SAP) 语音到文本对话(STTC) 它结合了Whisper和Qwen2,采用ASR+X训练策略,支持多任务同时训练优化 #语音理解模型 #语音识别 #OSUM
#西北工业大学 #OSUM #语音理解 #开源模型 #ASR #情感识别 #Whisper #Qwen2 #多任务支持 #语音识别技术 #科技新品
avatar
AIGCLINK
4个月前
国内现在各家公司基本上都是抢算法人才,23年和24年就有很多学校的硕士、博士算法人才都被公司提前给抢光预定了,算法人才价格在150-200万年薪之间,今年随着deepseek引爆市场人才价格估计会更深水涨船高。 #deepseek
#人才争夺 #算法 #DeepSeek #高薪 #招聘
avatar
AIGCLINK
5个月前
阿里巴巴开源的一个新闻时间线摘要生成系统:CHRONOS,给它一个话题,它能生成一份按时间顺序整理好的重要事件摘要 具备迭代式自我提问机制,可以自己提问,自动找答案,按时间顺序整理重要信息 支持开放域新闻时间线生成,不限特定领域 处理速度快,可以处理大量新闻 #新闻助手 #新闻事件整理助手 #CHRONOS
#新闻助手 #新闻事件整理助手 #CHRONOS
avatar
AIGCLINK
6个月前
南京大学、字节等开源的一款提高视频清晰度的工具:STAR,它能在提高分辨率的同时,保持视频时间一致性和细节完整性,没有细节丢失、运动不自然的问题 它可以根据视频的不同部分,智能调整清晰度力度,以保证整体的清晰度,又避免过度锐化导致画面不自然 它用文本到视频模型学习到的视觉特征和时空信息来增强超分辨率过程,解决了画面连续性,使视频前后帧之间流畅,不会跳动,以及视频真实感的问题 #视频清晰度增强 #STAR #视频修复
#视频清晰度增强 #开源工具 #南京大学 #字节跳动 #超分辨率 #智能视频处理
avatar
AIGCLINK
6个月前
Adobe和香港科大开源的一款可以生成透明视频的项目:TransPixar,它可以生成包含烟雾、反射、水滴等透明元素的视频,看起来非常真实、更自然 这给比如电影特效制作、游戏画面渲染、虚拟现实创作提供了更多的便利性 #视频生成 #TransPixar
#视频生成 #TransPixar
avatar
AIGCLINK
6个月前
酷,多高校开源的一个AI文章检测工具:ImBD(Imitate Before Detect),可以检测文章是否被AI修改过,能检测纯AI生成的,还能检测被AI润色、改写、扩写的,准确率高 用来检测论文、稿件原创性就非常轻松,它仅使用1000个样本和5分钟的SPO训练就超过了商业的GPT-Zero 检测开源LLM修改文本上提高了13%,检测GPT-3.5和GPT-4o修改的文本上,性能提高了5%和19% 支持像改写、扩写、润色都可以,纯AI生成的检测率能到99.96%,改写87.39%,扩写97.58%,润色97.07% #AI文章检测 #论文检测工具 #ImBD
#AI检测 #ImBD工具 #论文原创性 #开源工具 #GPT-Zero对比 #AI文本修改检测 #SPO训练 #LLM修改文本 #GPT-3.5检测 #GPT-4o检测
avatar
AIGCLINK
6个月前
酷!智谱最新发布了其基于扩展强化学习技术训练的推理模型:GLM-Zero-Preview 擅长处理数理逻辑、代码和需要深度推理的复杂问题 在AIME 2024、MATH500 和 LiveCodeBench评测中,效果与OpenAI-o1-Preview相当 在逻辑推理方面,GLM-Zero-Preview 善于识别逻辑漏洞,能够模拟多种假设和可能性 在数学方面,GLM-Zero-Preview 具有强大的归纳与演绎能力,能够快速处理复杂的数学运算,解答包括代数、微积分、概率统计等领域的问题 #GLM #GLMZeroPreview #LLM
#智谱 #扩展强化学习 #GLM-Zero-Preview #逻辑推理 #AIME 2024 #MATH500 #LiveCodeBench #OpenAI-o1-Preview #数学
avatar
AIGCLINK
6个月前
酷!北大等开源的一个可定制化的多人物漫画生成框架:DiffSensei,可以控制角色的外观和互动方式,可以基于文本调整角色的表情、姿势以及动作等 1、它能理解故事上下文,能同时处理多个角色,保持每个角色的独特形象以及角色之间的互动 2、可以根据对话提示调整表情,根据场景改变姿势,保持角色的一致性 3、支持不同的漫画分格方式,通过提示控制每个格子的构图,能处理连续的故事情节 4、支持批量生成连续漫画 #AI漫画生成 #漫画生成工具 #DiffSensei
#DiffSensei #北大 #开源 #漫画生成 #多人物控制 #角色自定义 #图形AI
avatar
AIGCLINK
6个月前
基于Vision LLM把PDF转为Markdown的一款工具:vision-parse 智能提取,精确识别文本、表格 可以保留文档的层级结构、样式 支持多页,支持本地部署 #PDF转Markdown
#PDF转Markdown #文件转换 #智能提取 #多页支持 #本地部署 #文本识别 #表格识别
© 2025 news.news. All rights reserved. 0.03411 秒. v1.0.17
我的评论