Tom Huang

Tom Huang

0 关注者

7个月前

这个也太酷了!支持本地部署,字节跳动刚刚宣布发布了一款 7B 的多模态模型⚡️ 支持思维链思考和生成图片,并且支持支持自然语言编辑能力,在开启 CoT 的基础上,性能超越 Gemini-2-exp 的生图能力 开源地址 👉

#字节跳动 #7B多模态模型 #思维链 #图像生成 #CoT #Gemini-2-exp #开源

相关新闻

placeholder

howie.serious

4周前

为什么 nano banana pro 的文字渲染和指令跟随,有如此大的进步? 以配图为例,分别是大量汉字的 PPT 和知识漫画,这种级别的文字生成,背后的 why,是真正有趣的地方。 === 对于扩散模型(diffusion model),生成图片的本质是去噪(denoising)。模型学习的是图像在潜空间(latent space)里的概率分布,通过预测逐渐减去噪声,逐步让图像“显形”,

placeholder

墙国蛙蛤蛤🐸(大自爆运动💣/大直连运动🌏)

4周前

TikTok确实还是挺自由,谢谢字节跳动张一鸣的分享!

placeholder

Gorden Sun

1个月前

GELab-Zero:完全开源的GUI Agent解决方案 集成了模型和基础设施,支持本地部署,提供完整的隐私控制。简化了手机GUI Agent的工程复杂度。能实现查找任务、操作APP等手机端任务。 Github:

placeholder

wsjack 🇭🇰 |𝟎𝐱𝐔

1个月前

看到红果短剧的DAU 超过B站,豆包AI几乎成为第一个国民级AI产品 不得不感叹,字节跳动是真牛逼。对流量的理解已经完全超越腾讯。

placeholder

Geek

1个月前

FluidVoice 完全开源的 macOS 语音转文字听写输入应用 核心功能: 🔹实时语音转录:Parakeet TDT v3 模型,悬浮窗预览。 🔹AI文本增强:支持OpenAI、Groq等API优化。 🔹多语言:25+种,自动检测。 🔹全局快捷键:随时捕捉语音。 🔹智能输入:文本直接输入任意应用

© 2025 news.news. All rights reserved. 0.05926 秒. v1.0.46
我的评论