Com acesso a 5 anos de dados de saúde para 2 milhões de pessoas nos EUA de uma seguradora privada, como você poderia prever os resultados de saúde da comunidade?

Assim.

O que você quer dizer com “dados de saúde”? Presumivelmente você quer dizer seu histórico de sinistros. Quanto disso? Inclui farmácia, internamento, ambulatório, saúde domiciliar, equipamentos médicos duráveis? Reivindicações finais adjudicadas apenas, ou incluirá reclamações provisórias? As alegações de saúde comportamental foram redigidas? Você pode combinar indivíduos ou fornecedores ao longo do tempo neste conjunto de dados? E quanto aos pedidos de laboratório e resultados de laboratório e teste? Mais alguma coisa mais clinicamente orientada – peso / altura / IMC, tabagismo? Os resultados de saúde relatados por conta própria por meio de uma avaliação de risco do paciente ou outra ferramenta? E quanto às características do paciente – você tem acesso aos arquivos de inscrição? Dados demográficos, endereços ou CEP? Raça / etnia? O que você sabe sobre como esses indivíduos foram inscritos, seus empregadores? Existe alguma coisa incomum sobre como eles estão inscritos, por exemplo, isso contém um ESRD ou um pool de saúde mental?

Quando você diz “resultados de saúde da comunidade”, você agrega pacientes ou provedores nessas comunidades (você está interessado em saber onde as pessoas moram ou onde elas recebem seus cuidados?).

O que você quer dizer com resultados, de qualquer forma – estado de saúde auto-relatado, controle de diabetes ou outras condições crônicas, re-hospitalizações, bons pesos de nascimento para recém-nascidos, taxas de utilização de ER, etc.? Existe uma hipótese específica que você está tentando testar – por exemplo, os CEPs e a idade / sexo por si só preveem a utilização / custo melhor do que um escore de comorbidade de CHC ou Charlson? Existe uma intervenção que você está tentando monitorar?

Que tipos de recursos você tem acesso – pesquisadores, médicos, codificadores de registros médicos, poder de computação, habilidades de programação? Que tipo de produtos entregues você espera produzir, em que prazo?

E isso é apenas o topo da minha cabeça. Assim que você tiver dados, dicionários de dados e uma compreensão de como os dados são gerados e o que eles contêm e o mais importante não contém (caso contrário, suas inferências serão totalmente ignoradas), você terá ainda mais perguntas para responder, antes você pode chegar ao design do seu modelo preditivo.