Gorden Sun

统计数据

582

文章

0

粉丝

0

获赞

7787

阅读

11个月前

Janus-Pro：DeepSeek开源原生图片多模态模型能读图（基于SigLIP-L），能生图（借鉴LlamaGen），分1.5B和7B两个大小。要知道GPT-4o的图片生成多模态模型至今没开放。模型： Github：

#DeepSeek #图片多模态模型 #GPT-4o #开源 #人工智能 #计算机视觉

1年前

AI Video Starting Kit：AI时代的视频编辑器 fal开源的网页应用，整合了图片、视频、TTS、音乐的各种AI API，然后在网页里可以生成+编辑。功能目前还比较简陋。 Github：限时在线体验，可以免费使用可灵1.5和海螺视频模型、Flux Ultra图片模型：

#AI #视频编辑 #开源 #网页版应用 #GitHub #在线体验 #可灵1.5 #海螺视频模型 #Flux Ultra #TTS #音乐

1年前

Moondream 2B：性价比极佳的视觉多模态模型 2B大小，性能接近QWen2-VL 2B，但是需要的VRAM只有4G多（QWen2-VL 2B需要13G），个人电脑即可运行。同时还发布了0.5B的版本。 Github：在线使用：

#视觉多模态模型 #VRAM #个人电脑 #Moondream 2B #QWen2-VL 2B

1年前

VITA-1.5：开源版视频+语音模型效果类似ChatGPT APP的视频交互，能看能听能说，但不是原生多模态。视觉多模态LLM使用的是QWen2.5，语音延迟只有1.5秒，且支持打断。 Github：

#VITA-1.5 #开源 #视频模型 #语音模型 #ChatGPT #视频交互 #视觉多模态 #QWen2.5 #语音延迟 #GitHub

1年前

Sonnet 3.5就像是程序员，你的要求提的越精细，得到的结果越准确。你要一个钉子，他给你一个钉子；你要一个红色的铜的图钉，他给你一个红色的铜图钉。 OpenAI o1像是产品经理，有时他会退一步思考你的要求背后的真实需求。你要一个钉子，他会思考你要钉子是为了做什么，如果是为了挂一幅画，他会同时推荐钉子以外的方案，例如粘钩、强力胶。用o1辅助思考，用Sonnet辅助执行。

#程序员 #产品经理 #OpenAI #Sonnet 3.5 #执行力 #思考 #需求分析

1年前

TRELLIS：微软开源的图片生成3D模型效果超预期的好，一键生成手办不远了。这张芙莉莲的图片，之前没有任何一个产品能生成看得过去的模型。

2年前

用AI创作了一个儿童有声故事绘本。故事：ChatGPT-4；绘图提示词：ChatGPT-4；绘图：Midjourney-v5；朗读：elevenLabs； BGM：AIVA；

#AI创作 #儿童有声故事绘本 #ChatGPT-4 #绘图 #Midjourney-v5 #elevenlabs #AIVA #故事创作 #有声书

...