跳转到内容

维基百科讨论:字詞轉換處理

页面内容不支持其他语言。
添加话题
维基百科,自由的百科全书
PexEric在话题“是否有办法引入AI辅助进行字词转换”中的最新留言:1个月前


是否有办法引入AI辅助进行字词转换

[编辑]

目前的AI应该比机械的字词转换(简繁、地区词)强不少,对于一词多义、一简对多繁的情况可能比较有优势。--Kethyga留言2025年2月12日 (三) 03:38 (UTC)回复

去年试过,似乎现成的AI不太行,现在不知道是否好一些了。很大可能需要重新微调训练才能达到实际能用的地步--百無一用是書生 () 2025年2月12日 (三) 03:41 (UTC)回复
deepseekChatGPT试了2022年澎湖縣村里長列表的序言部分,「村里长」转换无误,知道此处的「里」是行政单位,不需要转换。--Kethyga留言2025年2月12日 (三) 03:48 (UTC)回复
使用大模型一是要确保足够的准确性(基于大模型的原理,这一点解决起来可能比较有难度,除非对准确性的要求不高),二是成本太高,估计只有基金会有这个财力去做。而且即使不用微调等方法,拿来即可用,目前好像也没有免费开放API接口的大模型吧?--百無一用是書生 () 2025年2月12日 (三) 03:56 (UTC)回复
像专有名词中「于」字的过度转换问题,于荣光序言转换无误,姓氏的「于」和用作介词的「于」可以正确分别转换。(可能知名度高的人名、地名等名词识别准确度比较高)(好像哪里说的基金会不缺钱☺️)--Kethyga留言2025年2月12日 (三) 04:40 (UTC)回复
好奇该如何实现辅助。--YFdyh000留言2025年2月12日 (三) 03:43 (UTC)回复
啊,我以为是处理繁简转换的问题。仔细一看是直接全文繁简转换么,那就当作AI翻译来处理就好了。但同样的,不确定转换效果如何--百無一用是書生 () 2025年2月12日 (三) 03:51 (UTC)回复
没有说全文转换吧。能找出规则缺失、过度转换也好,或者辅助标注,但可能挺难的,让AI准确理解。--YFdyh000留言2025年2月12日 (三) 04:29 (UTC)回复
看deepseek在深度思考(R1)的过程,有在考虑词语的成分(「于荣光」的于和「生于北京」的于)。--Kethyga留言2025年2月12日 (三) 04:48 (UTC)回复
R1成本高,不太可能自动化调用。广撒网怎么用(或者只是偶尔“辅助”?),怎么标注和优化结果,让AI先理解wiki语法等,恐怕挺复杂。--YFdyh000留言2025年2月12日 (三) 05:02 (UTC)回复
按照现成的字词转换系统,社群可以做一个接入AI的机器人来自动为新条目匹配转换组。--PexEric💬|📝 2025年2月13日 (四) 08:01 (UTC)回复
听上去不错。老条目也可以用这个,由于新条目变化比较频繁。需要人工快速复审。--YFdyh000留言2025年2月13日 (四) 19:29 (UTC)回复
是指將note ta灌進去讓ai bot自動轉換嗎--Kanshui0943留言2025年2月15日 (六) 15:48 (UTC)回复
( π )题外话API接口应该挺费钱的--花开夜 留言 ·签名 ·贡献 2025年2月14日 (五) 20:22 (UTC)回复
成本持续降低。让基金会出机器部署或者买云服务(幻想阶段)。用低精度或者训练专门的小模型。有高速模型出现。可以只输入序言/前xx字/分类等简单信息。--YFdyh000留言2025年2月15日 (六) 02:58 (UTC)回复

@KethygaShizhaoYFdyh000Kanshui0943花开夜

在这将囍鵲君在文库写字间发布的消息同步给诸位:

先使用HanLP对文本进行分词,再利用繁简词对字典对包含语义和上下文关系的最小单位“词”进行字体转换,从根本上解决了过去仅仅通过单字匹配方式转化后产生的分歧词问题。

--PexEric💬|📝 2025年3月21日 (五) 05:08 (UTC)回复