Sou cientista de dados por formação (estatístico), mas trabalhei como engenheiro de dados a maior parte da última década.
Depende muito dos stack usado. Tem muito trabalho "one off", a gente precisa limpar um CSV de 40 giga que foi corrompido por um bug antes de colocar ele no banco. Nesse tipo de trabalho, nada supera as ferramentas de linha de comando do UNIX/GNU - awk, sed e smilares. Mexer nesse volume de dados no Python demora horas, o AWK processa esse arquivo em um minuto. Os programadores que entraram no mercado no começo dos anos 2000 usam muito PERL também.
Em pipelines bem estabelecidas - por exemplo, um sistema quebaixa segundo a segundo dados novos da bolsa de valores ou algo assim, distribuição automática é o nome do jogo. Você quer um Spark, Hadoop, Nifi da vida para dividir o processamento automaticamente entre vários servidores. Fora do ecossistema Azure, Python não lida bem com isso, ele não foi planejado para distribuição e concorrência (mudanças nesse sentido estão ocorrendo, mas devagar). Todos os sistemas tem espaço para plugin em Python, mas Python não é o método preferido de nenhum. Noções de Java são obrigatórias aqui, tudo roda na JVM (googleia por aí linguagens da JVM que não são Java).
O lugar onde Python sempre aparece é prova de conceito e tooling.
Preciso fazer um sistema só para provar que a qualidade dos dados está boa (googleia data quality analysis), faço em Python. Cientista de dados faz isso todo dia.
Preciso fazer uma tool permitir ao usuário final leigo monitorar um único job do Nifi - faço em Python. Preciso ligar um BI legado no servidor? Middleware em Python. Isso é meu dia a dia como Engenheiro de Dados.
Hoje em dia faço muita comunicação com LLM. Quase tudo é Python e servidor com GPU. Apesar de se falar muito, a maior parte das empresas não consegue pagar a conta e larga "IA corporativa".