Gorden Sun

统计数据

266
文章
0
粉丝
0
获赞
642
阅读

热门文章

1

TechFlow 深潮 发布的文章:近期教育领域的变化引发了广泛讨论,我认为教育改革应该更加注重学生的个性化发展和创新能...

145 32
avatar
Gorden Sun
4个月前
还是多模态的模型好,GPT-4o可以同时兼顾绘画和语义。
#多模态模型 #GPT-4o #绘画 #语义能力
avatar
Gorden Sun
4个月前
Google AI Studio升级 最大的亮点是新增了很多Starter Apps,包括GIF Maker(生成动图)、Co-Drawing(辅助绘画)、Video Toys(基于视频创建教育应用)等许多有趣的小应用。 官方介绍:
#Google AI Studio #Starter Apps #GIF Maker #Co-Drawing #Video Toys #教育应用
avatar
Gorden Sun
6个月前
Mistral OCR:目前最佳OCR模型 支持多种语言,评分全面超过Gemini 2.0 Flash,支持在Le Chat使用和API调用。 调用API的话,别忘了之前ElevenLabs的大礼包,里面送25美元的Mistral API金额,免费领取地址: 在线使用: 官方介绍:
#Mistral OCR #OCR模型 #语言支持 #API使用 #elevenlabs #免费使用
avatar
Gorden Sun
6个月前
olmOCR:可能是目前最好的开源OCR模型 基于微调后的7B视觉语言模型,微调数据为260000页PDF页面,完全开源,包括模型权重、数据和训练代码、推理代码,4090可以本地运行。 Github: 模型: 在线使用:
#开源 #OCR #视觉语言模型 #模型权重 #微调 #PDF #GitHub #4090
avatar
Gorden Sun
6个月前
阿里开源Wan 2.1很不错,效果接近可灵1.5,需要抽卡,手部有时出问题。 在Fal上可以使用,支持图生视频、文生视频,每个视频耗费0.4美元,地址: 在ElevenLabs的免费大礼包里,可以免费领取50美元的Fal额度,可以用体验Wan 2.1和Google Veo 2。领取地址:
#阿里Wan 2.1 #图生视频 #文生视频 #Fal #elevenlabs
avatar
Gorden Sun
6个月前
灰度到了微信的AI搜索,很好用
#微信 #AI搜索 #灰度测试
avatar
Gorden Sun
6个月前
微软发布OmniParser 2.0版本,用于把屏幕截图转化成LLM可处理的结构化格式,再结合屏幕操作工具即可让LLM操作屏幕。 模型: Github:
#微软 #OmniParser 2.0 #屏幕截图 #LLM #结构化格式
avatar
Gorden Sun
7个月前
FireRedASR:小红书开源的语音识别模型 支持识别普通话、方言、英文,分2个版本: FireRedASR-LLM:8.3B,为端到端的语音多模态LLM设计,能力更强,中文准确率开源最佳 FireRedASR-AED:1.1B,兼具效率和效果。 Github: 模型:
#小红书 #语音识别 #开源模型 #方言识别 #英文识别 #多模态LLM #中文识别 #GitHub
avatar
Gorden Sun
7个月前
DeepSeek官网稳定的时候,体验是最好的,长下文长,能联网。但是用的人越来越多,几乎每次都是服务器繁忙了。 几个免费的备用方案: 1、英伟达NIM: 2、Github Models(需要手动调整输出长度为4K): 3、TogetherAI:
#DeepSeek #服务器繁忙 #备用方案
avatar
Gorden Sun
7个月前
悲报:Gemini开始拒绝中文聊天了 无论是AI Studio还是API,使用中文跟Gemini对话,都会报错“An internal error has occurred”,使用英文对话则不受影响。 显然是受DeepSeek的刺激,美国公司都开始草木皆兵了。 谷歌在昨天专门发布了一篇文章,来说明其对抗滥用生成式AI的措施: 简体中文的AI,以后就得靠我们自己了
#Gemini #中文对话 #AI对话限制 #DeepSeek影响 #生成式AI #谷歌
avatar
Gorden Sun
7个月前
Janus-Pro:DeepSeek开源原生图片多模态模型 能读图(基于SigLIP-L),能生图(借鉴LlamaGen),分1.5B和7B两个大小。要知道GPT-4o的图片生成多模态模型至今没开放。 模型: Github:
#DeepSeek #图片多模态模型 #GPT-4o #开源 #人工智能 #计算机视觉
avatar
Gorden Sun
7个月前
AI Video Starting Kit:AI时代的视频编辑器 fal开源的网页应用,整合了图片、视频、TTS、音乐的各种AI API,然后在网页里可以生成+编辑。功能目前还比较简陋。 Github: 限时在线体验,可以免费使用可灵1.5和海螺视频模型、Flux Ultra图片模型:
#AI #视频编辑 #开源 #网页版应用 #GitHub #在线体验 #可灵1.5 #海螺视频模型 #Flux Ultra #TTS #音乐
avatar
Gorden Sun
8个月前
Moondream 2B:性价比极佳的视觉多模态模型 2B大小,性能接近QWen2-VL 2B,但是需要的VRAM只有4G多(QWen2-VL 2B需要13G),个人电脑即可运行。同时还发布了0.5B的版本。 Github: 在线使用:
#视觉多模态模型 #VRAM #个人电脑 #Moondream 2B #QWen2-VL 2B
avatar
Gorden Sun
8个月前
VITA-1.5:开源版视频+语音模型 效果类似ChatGPT APP的视频交互,能看能听能说,但不是原生多模态。视觉多模态LLM使用的是QWen2.5,语音延迟只有1.5秒,且支持打断。 Github:
#VITA-1.5 #开源 #视频模型 #语音模型 #ChatGPT #视频交互 #视觉多模态 #QWen2.5 #语音延迟 #GitHub
avatar
Gorden Sun
8个月前
Sonnet 3.5就像是程序员,你的要求提的越精细,得到的结果越准确。你要一个钉子,他给你一个钉子;你要一个红色的铜的图钉,他给你一个红色的铜图钉。 OpenAI o1像是产品经理,有时他会退一步思考你的要求背后的真实需求。你要一个钉子,他会思考你要钉子是为了做什么,如果是为了挂一幅画,他会同时推荐钉子以外的方案,例如粘钩、强力胶。 用o1辅助思考,用Sonnet辅助执行。
#程序员 #产品经理 #OpenAI #Sonnet 3.5 #执行力 #思考 #需求分析
avatar
Gorden Sun
2年前
用AI创作了一个儿童有声故事绘本。 故事:ChatGPT-4; 绘图提示词:ChatGPT-4; 绘图:Midjourney-v5; 朗读:elevenLabs; BGM:AIVA;
#AI创作 #儿童有声故事绘本 #ChatGPT-4 #绘图 #Midjourney-v5 #elevenlabs #AIVA #故事创作 #有声书
© 2025 news.news. All rights reserved. 0.07386 秒. v1.0.46
我的评论