A method and system for detecting coincidences in a data set of objects,
where each object has a number of attributes. Iteratively, equally-sized
subsets of the data set of sampled, and coincidences (co-occurrences of a
plurality of attribute values in one or more objects in the subset) are
recorded. For each coincidence of interest, the expected coincidence count
is determined and compared with the observed coincidence count; this
comparison is used to determine a measure of correlation for the plurality
of attributes for the coincidence. The resulting set of k-tuples of
correlated attributes is reported, a k-tuple of correlated attributes
being a plurality of attributes for which the measure of correlation is
above a predetermined threshold. The method and system (implemented on an
array of processing nodes) is suitable for protein structure analysis,
e.g. in HIV research.
Um método e um sistema para detectar coincidências em uma série de dados de dos objetos, onde cada objeto tem um número de atributos. Iterativa, os subconjuntos igual-feitos sob medida da série de dados de do provado, e as coincidências (co-ocorrências de um plurality de valores do atributo em um ou mais objeto no subconjunto) são gravados. Para cada coincidência do interesse, a contagem prevista da coincidência é determinada e comparada com a contagem observada da coincidência; esta comparação é usada determinar uma medida da correlação para o plurality dos atributos para a coincidência. O jogo resultante dos k-k-tuples de atributos correlacionados é relatado, um k-k-tuple dos atributos correlacionados que são um plurality dos atributos para que a medida da correlação está acima de um ponto inicial predeterminado. O método e o sistema (executados em uma disposição de nós processando) são apropriados para a análise da estrutura da proteína, por exemplo na pesquisa do HIV.