计算机科学与技术专业预处理和挖掘Web日志数据网站个性化毕业论(5)

来源：网络收集时间：2025-09-10 下载这篇文档手机版

说明：文章内容仅供预览，部分内容可能不全，需要完整文档或者需要复制内容，请下载word后使用。下载word有问题请添加微信号:xuecool-com或QQ：370150219 处理（尽可能给您提供完整文档），感谢您的支持与谅解。

户只要她删除的Cookie的体系。此外，如果用户注册，该协会登录cookie是可以在输入数据，然后可以跟踪用户后，还原她删除的cookie.

这种机制使检测非人类的用户，如系统诊断诊断和监测方案。通过检查的数量分配给cookie每个用户，我们发现，用户登录‘test009’被派到以上24.000独特的Cookie。这不仅是可能的，如果用户是一些程序，自动删除指定的cookie，例如：系统诊断程序。

2.2网站的网址

一方面，有一些标准化的网页必须形成的统一的网址，以消除不相关的句法的差异。例如，主机可以在IP格式或自身格式，如131.114.2.91是相同的主机作为kdd.di.unipi.it。另一方面，也有一些网络服务器程序采用非标准格式的参数传递。网站的vivacity.it 服务器程序是其中之一。例如，在以下网址：http://roma.vivacity.it/speciali/EditColonnaSpeciale/1，3478，|DX，00.html文件的名字1,3478，|DX,载有00码的地方网站，网页识别码（3478）及其专用的参数（DX型）。

上述的形式设计了效率的机器进程。作为一个例子，网页标识是一个关键的数据库表的网页模板发现，虽然参数可以检索的网页内容在一些其他就座。不幸的是，这是一场噩梦时，挖掘点击的网址。句法功能的网址是很少的帮助：我们需要一些语义信息，或本论文指定的网址。

在最好的，我们可以预期，一个应用程序级别的日志是，即日志的访问语义相关的对象。例如，应用程序级日志是记录用户进入网站主页，然后参观了体育与新闻页面上足球代表队，等等。这将需要一个系统模块监测用户的步骤在语义水平的力度。在这个ClickWorld项目中这样一个模块被称为ClickObserve。不幸地，然而，该模块是一个可交付的项目，它不适用于在收集数据的开始该项目。

因此，我们决定提取两个句法和语义信息从网址通过一个半自动的办法。该办法包括通过在逆向工程的网址，从网站设计者说明这意味着每一个URL路径，网页id和网页的参数。使用PERL脚本，从设计师的描述，我们从原来的提取网址以下信息：

本地网络服务器，即vivacity.it或roma.vivacity.it等，这些亲志愿给我们一些空间信息的用户的利益;第一级分类的网址有24种，其中一些是：家庭，新闻，财政，照片，笑话，购物。论坛，酒吧;第二个级别的网址取决于第一级之一，

百度搜索“70edu”或“70教育网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读，70教育网，提供经典教育范文计算机科学与技术专业预处理和挖掘Web日志数据网站个性化毕业论(5)在线全文阅读。

计算机科学与技术专业预处理和挖掘Web日志数据网站个性化毕业论(5).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档

本文链接：https://www.70edu.com/fanwen/1177360.html（转载请注明文章来源）

上一篇：法规工作的税政综合管理作用
下一篇：亚拓ALIGN——450PRO说明书