跳转到内容
主菜单
主菜单
移至侧栏
隐藏
导航
首页
最近更改
随机页面
MediaWiki帮助
代码酷
搜索
搜索
中文(中国大陆)
外观
创建账号
登录
个人工具
创建账号
登录
未登录编辑者的页面
了解详情
贡献
讨论
编辑“︁
分类:搜索引擎
”︁(章节)
分类
讨论
大陆简体
阅读
编辑
编辑源代码
查看历史
工具
工具
移至侧栏
隐藏
操作
阅读
编辑
编辑源代码
查看历史
常规
链入页面
相关更改
特殊页面
页面信息
外观
移至侧栏
隐藏
警告:
您没有登录。如果您进行任何编辑,您的IP地址会公开展示。如果您
登录
或
创建账号
,您的编辑会以您的用户名署名,此外还有其他益处。
反垃圾检查。
不要
加入这个!
== 关键技术 == === 倒排索引 === 倒排索引是搜索引擎的核心数据结构,它将文档中的词项映射到包含该词项的文档列表。 <syntaxhighlight lang="python"> # 简单的倒排索引示例 index = { "搜索引擎": [1, 3, 5], "数据库": [2, 3, 4], "全文检索": [1, 5] } </syntaxhighlight> === 相关性排序 === 常用的排序算法包括: * TF-IDF(词频-逆文档频率) * BM25 * 神经网络排序模型 <math> score(D,Q) = \sum_{t \in Q} IDF(t) \cdot \frac{TF(t,D) \cdot (k_1 + 1)}{TF(t,D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{avgdl})} </math>
摘要:
请注意,所有对代码酷的贡献均被视为依照知识共享署名-非商业性使用-相同方式共享发表(详情请见
代码酷:著作权
)。如果您不希望您的文字作品被随意编辑和分发传播,请不要在此提交。
您同时也向我们承诺,您提交的内容为您自己所创作,或是复制自公共领域或类似自由来源。
未经许可,请勿提交受著作权保护的作品!
取消
编辑帮助
(在新窗口中打开)