第1741章别被技术细节吓住（2 / 3）_重生87，半年爆赚200亿美金_精英小说网

精英小说网

www.jyjsw.com.cn

首页
书库
完本
足迹

第1741章别被技术细节吓住（2 / 3）

词做成词典库，然后匹配。

二是基于统计，分析大量文本，找出经常连在一起出现的字组合。

最好的办法是两者结合。”

贾瀞雯记下最后几个字，笔尖顿了顿：“浩哥，这些概念你怎么都懂？你又没学过计算机。”

陈浩笑了：“我是不懂具体编程，但我懂逻辑，懂原理。

而且我看得多，想得多。

搜索引擎的核心不是技术多炫，而是理解人想要什么，然后从数据里找出来。”

他顿了顿：“瀞雯，你告诉团队，别被技术细节吓住。

我们不是在写完美的学术论文，是在做一个能用的工具。

第一版可以粗糙，可以有问题，但要快，要让用户能用上。

改进可以慢慢来。”

挂断电话后，贾瀞雯把笔记整理成文档，打印了五份。

第二天开会，她把陈浩的话转述给团队。

“陈总说，第一版可以粗糙，但要快。”她看着五张年轻的脸，“我们不求完美，但求可用。”

李明眼睛一亮：“这就对了。

我们总想一次做到最好，结果越想越不敢动手。

其实可以先做个最简单的版本，能跑起来就行。”

“对！”张涛一拍桌子，“爬虫可以先从几个固定的网站开始，比如新闻网站。

这些网站结构规范，容易抓取。

分词可以先做基于词典的简单版本，复杂的以后再说。”

团队的气氛活跃起来。

年轻人就是这样，不怕困难，就怕迷茫。

一旦有了方向，哪怕方向不完美，他们也敢往前冲。

三天后，新的问题来了。

这次是王磊提出的。

他在研究分词算法时，遇到了一个具体难题。

“贾总，我们试了基于词典的方法，但遇到一个问题。”王磊在白板上写了个例子，“比如‘乒乓球拍卖完了’这句话。

怎么分？”

他画出两种分法：“‘乒乓球/拍卖/完了’，这是说乒乓球被拍卖掉了。

但也可以是‘乒乓/球拍/卖完了’，这是说球拍卖光了。

同一个句子，两种分法，意思完全不一样。”

贾瀞雯看着白板上的句子，也皱起眉。

确实，这太难了。

当晚的电话汇报，她重点说了这个问题。

陈浩听完，没有马上回答。

“这个问题很关键。”他说，“中文的歧义切分是搜索引擎必须要解决的。

这样，你让团队等一下，我想想。”

电话挂断了。

贾瀞雯以为陈浩要思考几天，没想到第二天一早，她就接到了电话。

“瀞雯，我画了个图。”陈浩的声音听起来有些疲惫，像是熬了夜，“我让助理去传真给你，你看一下。”

半小时后，传真机响了。

五页纸，上面是手绘的流程图和说明。

贾瀞雯拿起来看。

第一页是总览，标题是“中文分词歧义处理逻辑”。

后面四页是详细的流程图，每一步都有说明。

她看不懂技术细节，但能看懂思路。

陈浩提出了一个“双向最大匹配”的方法。

从左到右扫描一遍，从右到左再扫描一遍，比较两种结果。

如果一致，就用这个结果。

如果不一致，就启用歧义处理规则--检查上下文，查词典，甚至用简单的概率统计。

最下面还有一行小字：初期可用简单规则，后续逐步完善。

上一页书页/目录下一页

site stats