2.2.2.1属性分类
首先,需要确定使用的主要数据来源和用户标识:
1.1X EVDO呼叫测量记录:用户信息索引为ESN/MEID,IMSI
2.1X呼叫测量记录:用户信息索引为MIN。根据MIN号提取相关信息时,选择service
option为1、3和68的语音业务,以此判断是否为手机终端用户。通过
46003+MIN=IMSI对应关系,可建立1X和1X EVDO呼叫测量记录的关联关系。
第9页/共143页
中国电信集团公司
3.终端信息表:ESN/MEID与终端类型的对应表。用户信息索引为ESN/MEID 。列
入此表的均为手机终端用户,并且包含此手机的具体型号。
然后,结合以上数据源将用户终端分为以下几类:
1.IMSI出现在EVDO话单中,并且在1X中进行过语音呼叫:手机
2.ESN/MEI和IMSI在终端信息表中:手机
3.不符合以上条件,但有可用IMSI:数据卡
4.不符合以上所有条件:未知
通过分类算法,可对数据卡和手机进行分类。如需要进行细致化的用户模型分析,可以采用属性分类方式(如操作系统、套餐等)。由于智能手机是目前的一个关注焦点,因此本分册采用了操作系统的属性分类方式,将手机终端分类需进一步细化,以判断用户行为的差异性。具体分类如下:
1.数据卡:只使用EVDO数据业务的USB/PCMCIA 卡
2.手机:产生EVDO PCMD记录,并且1X PCMD 有语音呼叫记录或者所对应的
ESN/MEID和IMSI 在终端信息表里存在的终端。
智能手机:操作系统是Android, Windows mobile, windows CE, RIM和其他一些高级操作系统(比如BADA)
普通手机:Brew和其他一些比较低端的操作系统
未知手机:终端型号和操作系统不可知的手机
根据以上关联关系,可建立区分3G用户类别区分算法计算流程图:
第10页/共143页
中国电信集团公司
2.2.2.2未知终端
未知终端的记录是由于EVDO呼叫测量记录未出现IMSI信息。当用户关闭手机连接重启终端后,终端进行Session协商后不会进行ANAAA鉴权,因此AN中无用户IMSI信息,如果此时发生Idle Session Transfer则会出现不含IMSI的话单。通过用户业务模型统计,也可以看出此类用户基本不产生业务,这部分有HWID无IMSI,且不能在终端信息表中找到的用户,可在用户业务模型统计中做去除处理。
2.2.2.3未知手机
计算终端类别模型时,需要使用唯一的(MEID/ESN,IMSI)进行终端信息表匹配。但在进行用户数预估时,过多的未知手机会影响预估和评估的结果。因此,需对未知手机做进一步的分类评估。
在进行不同终端类别的用户数统计时,对于未知手机类别区分可采用以下两种方法:
1.根据模型统计,进行用户数的划分:参考
2.2.2.
3.1
2.根据IMSI统计,进行用户数的划分:参考2.2.2.
3.2
2.2.2.
3.1模型评估
未知手机的模型,可采用统计学的理论计算,大致计算智能手机和非智能手机的比例,采用“每用户”的方式给设备归类,这主要是由于对这三类设备的统计基本是独立的:
1.每用户连接数
2.每用户总RLP字节数
3.每用户空口连接时长
部分关键的假设:
1.在所有的“未知手机”里,只存在极小部分接近数据卡模型的手机用户。如用户
使用手机进行modem拨号上网。
2.智能手机/普通手机/数据卡用户的行为方式对于已经进行过分类统计的用户和尚
未进行过统计分类的用户是完全相同的。
步骤如下:
1.判别数据卡:通过统计“每用户总RLP字节数”,筛选出那些总的数据流量超过
阀值A的用户。阀值A主要是用于确保剩余百分之九十九的用户均为智能手机或
者普通手机的用户。如此筛选的的用户就可以被认为根据X%分布的数据卡用户
(注:之所以选择“每用户总RLP字节数”是因为它总是处于正态分布,并且在三
种“每用户”统计方式里最能够区分出手机和数据卡用户)。
第11页/共143页
中国电信集团公司
2.计算智能手机和普通手机:用以下的公式来计算每种统计方式下智能手机和普通
手机的分布:
SMARTPHONE_AVG*a% + FEATUREPHONE_AVG*(1-a%-x%) = UNKNOWN_HANDSET_AVG
模型统计的区分计算方式是未知手机的一种归类算法。同时,也可根据不同需求,使用IMSI(详见2.2.2.3.2)和HWID(详见2.2.3)进行分类算法。
2.2.2.
3.2IMSI分类
以用户类别(IMSI)作为索引的分类判断算法,可作为现网用户数的另一种估计方法。具体算法如下:
此类算法可最大程度将用户进行类别划分。但是由于未做HWID的匹配,有部分用户可能使用了非天翼定制机(未上报更新后的终端类型),造成普通手机和智能手机的比例差异。后续将继续对用户上报终端信息库的字段进行研究,完善终端类别的统计。
2.2.3性能分类算法
以终端类别HWID(MEID/ESN)作为索引的分类判断算法,可作为终端性能的估计方法。主要使用在终端性能评估中。具体算法如下:
第12页/共143页
中国电信集团公司
此类算法可最大程度将终端进行类别划分。在统计终端性能时,将以HWID(MEID/ESN)作为天翼定制机的评估分类依据。
2.2.4用户群匹配模型算法
针对特殊用户群(如iPhone),可建立特殊用户群的跟踪算法。
用户群匹配模型流程
第13页/共143页
中国电信集团公司
通过特定用户群号码(IMSI)列表从EVDO话单中提取IMSI、流量、时长等字段,计算用户数,连接次数,前、反向流量连接时长等用户模型。
目前智能手机用户匹配方法采用终端信息表匹配,可能存在时延和手机未上报的问题。后续将研究其他关联方式,提高用户的匹配度。
2.2.5时间均分算法
均分化流程
由于PCMD呼叫测量记录是在每次呼叫完成后才形成记录的,并以1小时为最小保存周期(例如,一个数据卡用户在8点10分发起数据连接,9点30分断开数据连接,记录将保存在10点生成的1X EVDO PCMD文件中)。因此,从时域维度上进行小时化分析,存在话务统计的滞后性。为了解决这个问题,在计算中需引入PCMD均分化算法。
目前由于话单记录不能区分业务,因此模型分析中不区分每业务的具体模型。后续将对每业务模型特征做进一步的研究分析。
2.2.6连接模型算法
以每连接话单作为样本,对连接模型进行统计。通过对每连接时长、每连接前/反向流量、连接间隔的计算,建立各类型用户的每连接模型。
每连接时长:对各类用户每条话单的连接时长进行平均,得出不同类型用户的每连接时长(可根据需求设定门限值,将连接时长超长话单或异常话单从样本中剔
除);
每连接前/反向流量:对各类用户每条话单的RLP层前/反向流量进行求平均,得出不同类型用户每连接前/反向流量;
第14页/共143页
中国电信集团公司
平均连接间隔:通过将每连接的连接建立时间与连接时长求和,得出连接结束时间。以IMSI为标识,计算同一用户时间相邻的话单中,后一条话单的连接建立时
间与前一条话单的连接结束时间的差值,并对同类用户的差值求平均,得到各类
用户的平均连接间隔。(注1:当用户在统计周期内仅存在1条话单记录,则在
统计平均连接间隔时将此用户剔去。注2:当计算跨天连接间隔时,需将后一条
话单的连接建立时间+N*24小时,其中N为相隔日期数)。
通过以上算法,可分析各类用户的连接特性,并可以通过每连接模型的分布,对心跳机制等行为特征进行研究。
2.3模型特征
2.3.1时域
2.3.1.1同类终端不同资源
由于智能手机的应用多样性,用户不同时段应用存在差异使其不同资源占用最忙时及24小时变化趋势存在差异。
下图为智能手机24小时流量和连接数变化趋势图:
从智能手机24小时流量和连接数变化情况可以看到,智能手机流量忙时出现在晚上18:00-19:00,而连接忙时出现在下午14:00-15:00。反映出智能手机用户不同时段的应用特性存在差异。因此分析同类终端的不同资源维度时,需关注不同的最忙时特性。
第15页/共143页
中国电信集团公司2.3.1.2不同终端同类资源
不同类别终端,因用户使用业务特性差异,同类资源消耗的时域特征存在差异。
下图分别为智能手机和数据卡工作日24小时流量变化趋势:
通过一周工作日24小时流量变化趋势对比可以看出:智能手机的流量最忙时出现在18:00-19:00,而数据卡的流量最忙时出现在21:00-22:00。不同终端类别的流量最忙时不同,流量变化趋势也存在差异。因此分析不同终端的同类资源维度时,同样需关注不同的最忙时特性。
2.3.1.3忙时迁移
同类终端(尤其是智能手机),随着应用的快速发展,用户的使用习惯发生变化,也使得终端资源占用特性在逐渐变化。
下图为3个月的智能手机24小时流量变化趋势:
第16页/共143页
中国电信集团公司
通过三个月智能手机用户的流量最忙时统计可以看出,忙时从18:00-19:00迁移至6月21:00-22:00。因此对于终端资源占用的忙时特征,需要持续跟踪分析。
2.3.2地域
由于终端特性不同,不同时段用户的移动性存在明显差异,造成地域特性的差异。通过PCMD可以针对不同终端类型进行移动性变化分析。
下图为某智能手机24小时用户数变化趋势:
下图为某智能手机部分时段地域活跃度:
与
同,但用户分布的扇区数明显高于晚忙时,说明用户的移动性较强。
针对不同终端类别的移动性特征,将做进一步的研究。找出移动性与性能指标和呼叫记录之间的关系,从而制定相应的优化策略研究。
第17页/共143页
中国电信集团公司
第18页 /共143页 2.3.3 统计方式
确定资源忙时后,可通过PCMD 针对相应时段各终端类别进行模型分析,按模型统计对象不同,可分为每用户模型和每连接模型:
1. 每用户模型:反映不同终端的总体资源占用特征值
2. 每连接模型:反映不同终端各类资源消耗特征的聚集性
百度搜索“70edu”或“70教育网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,70教育网,提供经典知识文库中国电信3G业务规模发展优化手册(上海贝尔分册)(2)在线全文阅读。
相关推荐: