#沉浸式翻译

沉浸式翻译BabelDOC 大更新-BabelDOC 0.5 4 个月,我们憋了这些大招: 1⃣可以翻译表格和矢量图中的水平文字,之前的旧版 BabelDOC 会直接跳过图表和矢量图的文字内容 2⃣公式和表格线条优化,表格和公式里的线条终于得以保留,译文的排版也更接近原始文件 3⃣跨页段落连贯性增强,旧版 翻译 PDF 时,一句话正好跨栏或跨页,就会被拆开翻译,导致译文断裂、不连贯。 0.5版对这类问题进行了优化,能自动识别并合并这些跨页段落,翻译出来顺畅得多。 4⃣术语更加统一:同一个术语在不同的段落中,可能会被翻译成不同的词语。原因是旧版 BabelDOC 中采用的是并行翻译技术,能够加快翻译速度,但缺少统一术语机制。 新版加入了术语提取功能,在翻译时会进行以下步骤: 🌀先扫描全文,识别出重要术语; 🌀给每个术语协商一个唯一的译法; 🌀在翻译过程中自动应用,保证全篇术语一致。 从而尽可能保证术语名词在同一篇 PDF 文档中译文的一致性。 5⃣字号大小更稳定:原文和译文的长度经常会不同。通常来说,从英文翻译为德文可能会产生 20%-30% 的篇幅膨胀,而英文翻译为中文日文等东亚语种则会反过来,出现篇幅缩小。 旧版 BabelDOC 的动态缩放是逐段计算。这就导致了有的段落字很大,有的又很小,看起来不美观。 新版BabelDOC 0.5 版引入了「二阶段排版」技术,先为全文计算一个统一的缩放比例;大部分段落用统一比例显示;只有极少数重排过程中实在放不下的段落,才会继续缩小。这样一来,整份译文看起来就更加整齐,可读性和美观度都有明显的提升 详细更新说明:
哥飞
3个月前
昨天各个自媒体不嫌事大的说沉浸式翻译泄露隐私,给我感觉就是之前有多少人推荐说好话,昨天就有多少人在传播说坏话。 这事根源是什么呢? 沉浸式翻译提供了一个分享网页翻译结果给朋友的功能,用户 A 可以把正在看的网页翻译为别的语言,之后生成一份翻译结果快照网页,得到网址后分享给用户 B,用户 B 打开网址就能够看到翻译好的内容,而不需要 B 自己再翻译一遍。 这些翻译结果快照网页,沉浸式翻译没有设置禁止搜索引擎抓取,于是就被搜索引擎收录了,可以通过 site 语法看到一部分网页。 你说,这事有多严重吗? 其实也没多严重,因为分享是用户 A 的主动行为,内容是否敏感是否涉密,其实完全是靠用户 A 控制的。就像一个卖菜刀的,虽然大部分用户买回去是用来切菜的,但他没办法阻止有人拿菜刀去行凶。 如果有竞争对手知道沉浸式翻译的产品机制,他甚至可以去利用这个分享机制,故意去翻译一些涉及隐私的网页,得到网址后,使用一些方法,让搜索引擎收录这些翻译结果页面,就可以炮制出“沉浸式翻译会泄露用户隐私”这样的新闻了。 你看,这里就用到了几个 SEO 知识: 1.把生成的翻译结果放在一个特定目录下,在 robots.txt 文件里设置禁止抓取这个目录; 2.在翻译结果网页里设置 noindex 标签,再次强调禁止抓取; 3.翻译结果网页不要用后端渲染这种利于爬虫抓取的方式,而是用前端渲染,确保最大限度让爬虫抓不走; 4.有人通过把涉及隐私的翻译结果网页地址放到搜索引擎爬虫经常爬的网页里,加速涉及隐私结果网页被搜索引擎抓取; 5.有人传播 SEOer 才会使用的 site 搜索语法,让广大非 SEOer 快速验证“沉浸式翻译会泄露隐私”这件事。 所以,各位朋友,懂点 SEO 还是很有必要的。