1 L’interaction comme corps à corps
« Dans la situation qu’est chaque rencontre, se constitue le secret inépuisable de l’autre — la dissimulation de son existence, l’indétermination de son existence enracinée dans la liberté. Ce secret ne devient objet d’expérience que dans l’offrande de soi, l’invitation ou l’ordre, dans les gestes, l’attitude, la mimique, dans le regard et dans toutes les manifestations corporelles »
(Buytendijk, 1952 : 7)
Dans cette étude de la multimodalité, nous partirons du corps et non de l’outil pour étudier la façon dont il se transforme, se transfigure dans l’interaction en ligne. Les interactions sont des corps à corps et comme nous l’avons notifié plus haut concernant la phénoménotechnique, de toujours les interactions ont été outillées d’une manière plus ou moins technique. C’est pourquoi, à notre sens, la multimodalité ne concerne pas seulement l’outil mais également le corps. Nous partirons donc des différents aspects du corps — corporéité, gestualité, visage, regard — pour en étudier leur signifiance en présentiel et leur transfiguration en ligne. Toujours dans une logique autant interactionniste que phénoménologique de l’expérience du corps en interaction numérique.
1.1 La corporéité
« Within interaction the body is a dynamic, temporally unfolding field that displays a reflexive stance toward other coparticipants, the current talk, and the actions in progress. »
(Goodwin, 2000 : 1519).
1.1.1 Corporéité hors écran
Grande est la tentation pour de nombreux chercheurs de considérer le corps comme un objet parmi d’autres. L’opposition entre le corps et l’esprit semble responsable de cette matérialisation de ce que d’aucuns nomment « enveloppe » corporel. Mais « cette vision du monde qui isole le corps, hypostasie l’esprit et suspend l’homme comme une hypothèse secondaire et sans doute négligeable, est confrontée aujourd’hui à une résistance sociale et à un questionnement éthique généralisé. » (Le Breton, 2002 : 2). Comme l’explique Merleau-Ponty dans sa Phénoménologie de la perception, le corps ne peut être considéré comme un objet au monde mais comme moyen de notre communication avec lui. Il se définit comme « horizon latent de notre expérience, présent sans cesse, lui aussi, avant toute pensée déterminante » (Merleau-Ponty, 1945 : 109). Les objets extérieurs peuvent être maniés, inspectés par le corps. Quant à ce-dernier, je ne l’observe pas lui-même : « il faudrait pour pouvoir le faire, disposer d’un second corps qui lui-même ne serait pas observable » (Ibid.). Qu’il s’agisse du corps visuel ou du corps tactile, jamais je ne peux appréhender mon corps comme j’appréhende un objet du monde. Si mon corps est toujours près de moi, toujours là pour moi, il n’est jamais vraiment devant moi, « je ne peux pas le déployer sous mon regard », « il demeure en marge de toutes mes perceptions », « il est avec moi » (Merleau-Ponty, 1945 : 106).
Aussi, bien que le corps visuel puisse sembler un objet dans ses parties éloignée de la tête, à mesure que mon regard s’approche de mon visage et de mes yeux, ce corps se sépare des objets, « il ménage au milieu d’eux un quasi-espace où il n’a pas accès » (Ibid. : 108). Quand bien-même je souhaiterais combler ce vide en projetant l’image de mon corps sur un miroir, cette image « me renvoie encore à un original du corps qui n’est pas là-bas, parmi les choses, mais de mon côté, en deçà de toute vision » (Ibid.). Dans la même mesure, Merleau-Ponty effectue un parallèle avec le corps tactile. Chacun de nos membres ne peut être qu’alternativement touchant ou touché jamais simultanément. Ainsi si je peux, de ma main gauche, toucher ma main droite tandis qu’elle touche un objet extérieur, ma main droite touchée est différente de ma main droite touchante : « la première est un entrelacement d’os, de muscles et de chair écrasé en un point de l’espace, la seconde traverse l’espace comme une fusée pour aller révéler l’objet extérieur en son lieu. » (Ibid.). Dès lors, en tant qu’il voit et qu’il touche le monde, mon corps ne peut donc être ni vu ni touché par lui-même. C’est pourquoi le corps ne peut être un objet, ni être jamais « complètement constitué » ; il est ce par quoi il y a des objets. Comme l’explique Merleau-Ponty, le corps « n’est ni tangible ni visible dans la mesure où il est ce qui voit et ce qui touche. » (1945 : 108).
Ainsi, le contour de mon corps constitue une frontière que les relations d’espace ordinaires ne peuvent franchir (Merleau-Ponty, 1945 : 114). L’appréhension par le sujet du corps et de la position de chacun de ses membres passe par un schéma corporel (Ibid.). Ce dernier ne renvoie pas au simple résumé des expériences corporelles, mais bien plus à une « prise de conscience globale de ma posture dans le monde intersensoriel, une « forme » » (Ibid. : 116). Néanmoins au-delà d’être une forme le schéma corporel est une dynamique en ce sens que le corps apparaît au sujet comme posture en vue de l’accomplissement d’une certaine tâche actuelle ou possible. Il convient alors de considérer la spatialité du corps différemment de celle des objets extérieurs. Les objets tiennent d’une spatialité de position, tandis que le corps tient d’une spatialité de situation. » (Ibid.).
Dès lors, l’application d’un déictique du type « ici » à la position du corps ne désigne pas, comme pour un objet extérieur, une position déterminée par rapport à d’autres positions mais l’ancrage du corps actif dans un objet, la situation du corps face à ses tâches. Il apparaît que le corps est « polarisé par ses tâches, il existe vers elles, il se ramasse lui-même pour atteindre son but, et le schéma corporel est finalement une manière d’exprimer que mon corps est au monde. » (Merleau-Ponty, 1945 : 117). Le corps tend à incorporer les actions dans lesquelles il s’engage au point que ces actions participent à la structure du corps. Un accord s’établit entre ce que vise le sujet et ce qui est donné — entre l’intention et l’effectuation. Le corps se révèle alors l’ancrage du sujet au monde. Il en résulte que le corps n’est ni dans l’espace ni dans le temps ; il habite l’espace et le temps. » (Ibid. : 162). Selon Merleau-Ponty, « en tant que j’ai un corps […] je suis à l’espace et au temps, mon corps s’applique à eux et les embrasse » (1945 : 164).
Se dégagent quatre types d’espaces où l’action et la perception participent de « l’incorporation, de l’internalisation et de l’externalisation des données vivantes et vécues » (Andrieu, 2010 : 40) : espace réel, espace incorporé, espace internalisé, espace perçu. L’espace réel constitue l’espace physique extérieur au corps, il est le résultat de l’interaction entre les structures et fonctions du corps et le monde. L’espace incorporé est l’espace du message sensoriel, il est le résultat de la constitution d’une représentation interne de l’espace à partir des données sensorielles du corps. L’espace internalisé renvoie aux simulations et calculs neuronaux réalisés par le cerveau s’accordant par là même au monde extérieur. Enfin, l’espace perçu résulte de ces calculs neuronaux et s’apparente au corps vécu. Ces différents espaces ne coexistent pas en parfaite indépendance mais au contraire communiquent entre eux de la manière suivante (Andrieu, 2010 : 41) :
Espace Réelisé –Sensation– Espace Incorporant
Espace Incorporé –Incorporation- Espace Internalisant
Espace Internalisé –Action- Espace Percevant
Espace Perçu –Perception- Espace Réelisant
Le corps, pour le sujet, se fait donc médiateur du monde. Le sujet pensant se fonde sur le sujet incarné. En outre, il ne suffit pas que deux individus possèdent les mêmes organes et le même système nerveux pour que les mêmes émotions s’expriment de façon équivalente chez chacun d’eux. Ce qui importe c’est la manière qu’a chaque sujet de faire usage de son corps — la mise en forme simultanée de son corps et de son monde dans l’émotion. L’usage que fait le sujet de son corps est transcendant au corps simplement biologique. Chez l’Homme « tout est fabriqué et tout est naturel, comme on voudra dire, en ce sens qu’il n’est pas un mot, pas une conduite qui ne doive quelque chose à l’être simplement biologique — et qui en même temps ne se dérobe à la simplicité de la vie animale » (Merleau-Ponty, 1945 : 220-221).
Ce corps capable d’agentivité et de spontanéité, impliqué dans le monde, peut être dénommé « corps vivant » ; il ne s’agit pas du corps biologique mais du « corps-en-vie », du sujet incarné, du lieu de l’expérience (Hastrup, 1995 : 3). Le corps vivant, en contraste avec le corps biologique, ne peut être séparé du monde qu’il habite. (Streeck, 2013 : 71). Il est à noter qu’il ne s’agit plus du corps vécu — un corps formé des expériences passés — mais du corps vivant — un corps en cours d’expérimentation.
Heidegger fonde la compréhension — tant la compréhension mutuelle dans la communication que la compréhension du monde — dans l’activité corporelle et traite le corps et le monde comme se constituant mutuellement. Heidegger ira jusqu’à écrire « nous n’entendons pas parce que nous avons des oreilles. Nous avons des oreilles, nous pouvons être dotés d’oreilles corporelles, parce que nous entendons » (1958 : 259). Le corps n’est pas considéré comme une simple structure anatomique ni comme un objet matériel ni encore comme un instrument de l’esprit, mais comme un ensemble de pratiques sociales partagées dont la mise en œuvre rend le monde intelligible. Ce fonctionnement du corps reflète la nature duelle de l’existence incorporée ; les sujets sont des « corps vivants » se mouvant spontanément, agissant, percevant leurs mouvements, mais également capables d’intégrer leurs mouvements à des intentions conscientes (Streeck, 2013 : 88).
Lorsque le sujet perçoit ou imagine un objet, il ne le fait pas simplement au travers d’un corps-outil mais par le biais de sa personnalité, son individualité (Schilder, 1936 : 15). Pour autant le schéma corporel ne repose pas strictement sur l’individualité d’un sujet face au monde mais dans les relations interpersonnelles. Joas, prenant appui sur la théorie de l’intersubjectivité de Mead, suggère que « the relation of the actor to his body is itself already shaped by intersubjective structures […] the body schema is itself constituted in an intersubjective process » (1996 : 181).
1.1.2 Corporéité par écran
Le corps est ainsi partie prise et partie prenante de Soi, l’Autre et le monde. Reste que d’autres médiums viennent prendre part à cette triade ; les technologies. Et avec l’avènement des nouvelles technologies, le corps est perçu par certains comme « un indigne vestige archéologique amené à disparaître » (Le Breton, 2001 : 20). Le Breton ajoute que pour ces enthousiastes des nouvelles technologies, le corps « se mue en membre surnuméraire, en entrave à l’émergence d’une humanité (que certains appellent déjà une posthumanité) enfin parvenue à se défaire de toutes ces entraves, dont la plus cuisante est le fardeau du corps. » (Ibid.). Le sujet équipé de moyens de communication avec l’Autre de plus en plus variés ne doit plus nécessairement passer par une rencontre dite « physique » et obsolète « face au dialogue passionné du possesseur de portable ou d’ordinateur avec leurs interlocuteurs invisibles et diserts » (Ibid. : 23).
Ainsi les franges radicales de la « cyberculture » souhaitent l’affranchissement du corps perçu comme une limite nécessitant son abolition. La disparition du corps, anachronique, permettrait, dans cette optique, l’accès à une humanité glorieuse délivrée d’un corps inutile qu’il faut nourrir, soigner, entretenir, etc. (Le Breton 2002 : 491). Si la problématique de la relation entre le corps et les technologies fascine et inquiète tant, c’est qu’elle renvoie au mythe d’un esprit séparé du corps, d’un être artificiel que le savant pourrait créer, d’une communication parfaite sans malentendu (Flichy, 2009 : 11).
Depuis les années Quatre-vingt-dix, l’on fait face, selon Casilli (2012) à une crise de la sensibilité du corps. Le concept de crise renvoie ici au mot grec pour « passage, transition entre deux époques » et celui de sensibilité du corps à « l’ensemble des attitudes, discours et représentations imaginaires à l’égard du corps façonnant et légitimant ses pratiques » (Ibid.). Cette crise de sensibilité du corps implique donc une tension entre deux modes différents de se rapporter au corps ; en l’occurrence la tension entre une vision biomécanique héritée de la modernité et une vision virtuelle du corps issue de la postmodernité (Casilli, 2012 : 6). Cette crise du corps prend une importance d’autant plus forte que les limites du corps « dessinent à leur échelle l’ordre moral et signifiant du monde » (Le Breton, 2001 : 26). C’est pourquoi penser le corps équivaut d’une certaine manière à penser le monde et le lien social ; « un trouble introduit dans la configuration du corps est un trouble introduit dans la cohérence du monde » (Le Breton, 2001 : 26).
Et c’est précisément parce que le corps figure au centre des préoccupations des individus dans les sociétés contemporaines que l’on a pu déclarer sa perte – comme autrefois on annonçait la mort de Dieu – selon Casilli (2009). Or la crainte de la disparition du corps « englouti par un écran d’ordinateur est moins un risque réel qu’une réaction paradoxale à son hypertrophie imaginaire, à son omniprésence » et ce car notre société exalte le corps en référent ultime (Casilli, 2009 : 3). Avec le numérique, tous les accomplissements et toutes les procédures du quotidien de l’individu sont plus fluides, induisant une manière de « vivre à l’état gazeux » (Vial, 2013 : 239). Cet « état gazeux » de l’existence a introduit l’idée qu’une expérience interactive consistait en un « détachement du corps », mais l’ontophanie numérique affectant globalement la présence phénoménologique des choses mêmes, il ne s’agit pas d’une disparition du corps mais de nouvelles formes d’apparitions corporelles (Ibid.). Les interactions numériques révèlent des traces corporelles monodimensionnelles (pseudonymes, émoticônes, etc.), bidimensionnelles (photos, avatars 2D, profils, etc.) et tridimensionnelles (avatars 3D, personnages virtuel, etc.) qui sont autant de repères cognitifs permettant de dessiner les caractéristiques physiques, les sensibilités et le comportement des interlocuteurs en ligne (Casilli, 2012).
Le corps du sujet en ligne se rend présent par une mise en scène, une forme de monstration naturaliste ou idéalisée, lui permettant d’interagir avec les autres sujets en ligne (Casilli, 2012 : 16). Il s’agit de « customiser », adapter les images, projeter des aspirations ; en somme faire preuve d’un « souci de soi » par la négociation d’une « présence corporelle assistée par ordinateur » (Ibid. : 20). Casilli fait le lien avec les travaux de Michel Foucault en évoquant une « technologie du soi », dans la mesure où « à travers la projection des traces corporelles se met en place un procédé réalisant dans le corps même le travail de réflexion sur soi, de déchiffrement des désirs et des aspirations personnelles. » (Ibid.).
Par ailleurs, au-delà de la manifestation numérique du corps, une manipulation de l’outil numérique par le corps est indispensable. D’une part les outils technologiques ne fonctionnent pas ex nihilo – leur utilisation requière un sujet corporel, d’autre part le corps associé aux interfaces numériques peut permettre une activité sensori-motrice dans un univers artificiel.
Le premier cas s’illustre par les interfaces graphiques dites conviviales, lancées par Apple et reprises ensuite dans Windows. L’usager interagit avec son ordinateur en manipulant un pointeur permettant de sélectionner des icônes à l’écran. Bien que cette manipulation soit dorénavant routinière pour la plupart des utilisateurs, elle constitue en réalité une rupture profonde avec ce qu’était l’informatique d’il y a trente ans (Flichy, 2009 : 5). En outre le skeuomorphisme – le recours à des éléments d’interface informatique reproduisant des objets physiques (par exemple des textures : cuir, papier, bois) dans le but de donner des repères facilement accessibles à l’utilisateur – place le corps de l’usager au centre de l’interaction homme-machine (par exemple tourner les pages d’un livre numérique sur tablette avec son doigt). L’engagement du corps de l’utilisateur est aujourd’hui réel, ce qui n’était pas le cas autrefois. Cet embodiment numérique résulte d’une tradition de recherche impulsée notamment par Norman qui cherche à « défendre les attributs humains à l’époque de la machine » (1994).
Dans le second cas, on parle de « réalité virtuelle ». Si jusqu’alors les ordinateurs ont évolué comme « une race de têtes séparés du corps, sans aucun sens du plaisir, enfermés dans leurs mécanismes communicationnels » (Laurel, 1995), désormais le développement de la réalité virtuelle cherche, au contraire, à associer le corps à l’esprit. La réalité virtuelle s’intéresse en effet aux caractéristiques du corps : le fonctionnement des sens, la manière dont le corps se déplace, comment l’individu ressent le fait d’être quelque part, comment l’impression de la présence physique affecte l’individu (Ibid.).
Aussi, contraire à l’idée d’une disparition postmoderne du corps et d’un dualisme cartésien âme – corps, Frias soutient-il qu’avec l’avènement du numérique, la corporéité de l’individu est certes transfigurée mais demeure « un vecteur symbolique central dans les échanges scripturaires sur les tchats comme dans les usages cognitifs de l’ordinateur » (Frias, 2004 : 2). En effet, si le numérique concerne les « immatériaux » – images et textes virtuels – la réalisation de ceux-ci suppose de passer par le digital, à savoir la matérialité et le toucher : les doigts de la main et la tactilité. C’est pourquoi l’interaction numérique met en présence trois entités : la technique, l’intellectuel et le sensitif ; l’artefact, le conceptuel et le corporel (Ibid. : 6). Et l’écran devenu tactile, visuel et sonore en est l’illustration. De là Frias peut affirmer que « la porosité de ces interfaces fait s’interpénétrer la chair du sujet et le corps de l’objet en une inextricable hybridation » (Frias, 2004 : 6).
En outre la nécessaire corporéisation (présence au monde) numérique est rendu possible par des opérations symboliques : graphies, codes, affects. Comme l’explique Sauvageot « les jargons, les détournements de caractère, l’alphabet « smiley » tirent le texte vers le geste pour instaurer le contact, créer la proximité, abolir la distance » (1996 : 216). Ces marqueurs symboliques font office de substituts et de prolongements de « l’individu-substrat » et rendent possible, par-delà et au travers de l’écran, une coprésence à distance à la fois sociale et symbolique (Frias, 2004 : 10). C’est ce que Casilli nomme un « régime de métaphores corporelles » (2009 : 2). L’écran est touché par le corps qui lui-même est inspiré par l’écran et la corporéité postmoderne se vit dans cet dialectique entre la technique et les sens. Le numérique « impose une nouvelle écoute du corps, il engage à une recherche originale de sensations et de formes de l’apparence. » (Casilli, 2009 : 2). Le corps est finalement au centre exact de la société numérique (Ibid.), il est l’instrument d’une hybridation entre le réel et le virtuel (Flichy, 2009 : 12). De ce fait,
« Ce qui survient avec le numérique, c’est une hybridation complexe entre la pensée et le geste, entre l’objet-ordinateur et le sujet-utilisateur qui déploie un savoir-faire habile et non systématique, relevant du flou, de l’à-peu-près, du bricolage créatif autant que des routines. Voisinent ainsi deux ontologies : un corps somatique et un corps virtuel. Étant en résonance, comme peuvent l’être le réel et l’imaginaire, ils constituent de ce fait deux modalités du même « moi » aux contours labiles. Loin de disparaître, le corps se virtualise en redéployant ses lignes, ses limites et son mode d’être social. »
(Frias, 2004 : 10).
C’est pourquoi, penser le corps en ligne nécessite de développer plus avant les conceptualisations phénoménologiques. En effet le numérique renouvelle les théories phénoménologiques en ce qu’il suppose que je ne suis plus seulement dans mon corps, et je ne suis plus seulement mon corps, mais je suis désormais également devant mon corps (Quéau, 2008). Le virtuel s’avère être un « espace noué et nouant » (Ibid. : 76).
1.2 La gestualité
« L’espace corporel peut se distinguer de l’espace extérieur et envelopper ses parties au lieu de les déployer parce qu’il est l’obscurité de la salle nécessaire à la clarté du spectacle, le fond de sommeil ou la réserve de puissance vague sur lesquels se détachent le geste et son but »
(Merleau-Ponty, 1945 : 117).
1.2.1 Gestualité hors écran
La kinesthésie — sens du mouvement — peut être considérée comme la source de l’agentivité des individus en ce sens que l’agentivité s’instruit dès lors qu’une chance est donnée au corps de se sentir se mouvant dans l’espace et même contrôlant ces mouvements (Noland, 2009 : 1). Le mouvement spontané est constitutif de l’agentivité, la subjectivité, l’individualité ; il induit le noyau dynamique de notre sens de nous-mêmes comme des acteurs, des sujets agissants (Sheets-Johnstone, 2012 : 119). Ainsi la kinesthésie, et plus spécifiquement la perception kinesthésique de leurs propres gestes, fournit aux interactants des indications sur ce qu’ils accomplissent dans l’interaction en cours. Les gestes rendent le corps introspectivement disponible à lui-même (Streeck, 2013: 75). Le sujet pensant se fonde sur le sujet incarné.
Néanmoins, l’individu ne cherche pas en lui même ni dans son expérience passée le sens des gestes dont il est le témoin. Le sens du geste n’est pas contenu dans le geste comme phénomène physique ou physiologique aussi bien que le sens du mot n’est pas contenu dans le mot comme son. Le corps s’approprie « dans une série indéfinie d’actes discontinus des noyaux significatifs qui dépassent et transfigurent ses pouvoirs naturels » (Merleau-Ponty, 1945 : 226). Pour exemple un geste de colère : « le geste ne me fait pas penser à la colère, il est la colère elle-même » (Merleau-Ponty, 1945 : 215). En effet, la communication du geste ainsi que sa compréhension s’obtiennent par la réciprocité de mes intentions et des gestes d’autrui, celle de mes gestes et des intentions perceptibles d’autrui. Le geste fait figure d’intention. La communication s’accomplit lorsque le geste s’actualise, lorsque les intentions du Soi habitent le corps d’Autrui ou que celles d’Autrui habitent le corps du Soi. Merleau-Ponty explique qu’il y a alors « confirmation d’autrui par moi et de moi par autrui […] c’est par mon corps que je comprends autrui, comme c’est par mon corps que je perçois des choses. » (1945 : 215-216).
L’intérêt des gestes dans la communication a été largement étudié (Efron, 1941 ; Greimas, 1968 ; Mahl, 1968 ; Ekman & Friesen, 1969 ; Scheflen, 1973 ; etc.) et de ces différents travaux, Cosnier (1977) retire trois grandes remarques. D’une part, un langage gestuel de nature différente du langage parlé existe dans la communication interindividuelle et présente un grand intérêt sémiotique. D’autre part, des facteurs environnementaux et socio-culturels peuvent influencer ce langage gestuel. Enfin, ce dernier accompagne le langage parlé et se révèle d’une grande importance dans les processus d’interaction (Cosnier, 1977 : 2057). En effet, les interactions en présentiel — dites face-à-face — sont par nature des interactions de corps à corps et la corporéité des interactants y intervient autant en terme de « corps statique » que de « corps dynamique » (Cosnier, 2004 : 1). Le corps statique renvoie au corps contextuel doté de marques et marqueurs (sexe, âge, morphologie, ethnicité ainsi que parures, coiffures, décorations etc.) et joue un rôle certain dans le cadrage de l’interaction. Le corps dynamique relève du corps co-textuel de la posturo-mimo-gestualité (mimiques faciales, gestes, changements posturaux). Le corps dynamique nous rappelle en effet que « l’échange interlocutoire est spectaculairement multicanal et multimodal : il y a du verbal (du « textuel ») mais aussi du posturo-mimo-gestuel qui avec la voix constitue du « co-textuel » » (Ibid.).
Les gestes du corps dynamique remplissent ainsi des fonctions particulières au cours de l’interaction : fonction énoncive, fonction énonciative, et fonction de co-pilotage de l’échange (Cosnier, 2004). La fonction énoncive renvoie au fait que la posturo-mimo-gestualité contribue à la constitution de l’énoncé multimodal ou « énoncé total » ; on parle de gestes « co-verbaux ». La fonction énonciative introduit le fait que les gestes induisent une dynamogénie énonciative : le travail énonciatif parolier s’associe nécessairement à une activité motrice corporelle. Les gestes facilitent l’expression orale et au-delà « la mise en corps de la pensée servirait d’intermédiaire nécessaire à sa mise en mots » (Ibid.). Enfin, la troisième fonction se rapporte à la contribution de la gestualité à la maintenance et au co-pilotage de l’échange. Cette fonction a valeur de coordination en ce que les gestes ne favorisent pas uniquement l’émission d’énoncé, ils permettent de surcroît de s’assurer que l’énoncé est bien reçu, évaluer la façon dont il est compris et interprété par l’interlocuteur, et partager le temps de parole entre les interactants (notamment par les regards et hochements de tête).
La posturo-mimo-gestuelle mise en place cherche à faciliter la « synchronie interactionnelle » incluant l’auto-synchronie (« la synergie chez le locuteur des événements paroliers et des mouvements des divers segments corporels enregistrés ») et l’hétéro-synchronie (« la synergie chez l’allocutaire d’activités segmentaires synchrones des événements paroliers produits par son partenaire-locuteur ») (Condon & Ogston, 1966). La « félicité interactionnelle » consiste alors en ce que le locuteur puisse exprimer sa pensée, la faire comprendre voire être approuvé, partager une opinion, etc. (Cosnier, 1996). Elle est conditionnée par la réponse aux « quatre questions du parleur » : M’entend-on ? M’écoute-t-on ? Me comprend-on ? Qu’en pense-t-on ? (Ibid.). Et la réponse à ces questions appelle des indices rétroactifs verbaux ou kinésiques de la part de l’interlocuteur. De surcroît la quatrième question implique un cadrage affectif consistant pour les locuteurs à gérer leurs émotions et l’expression de leurs sentiments réels ou affichés ainsi qu’à percevoir celles de leurs interlocuteurs. Cette communication affective est de deux ordres : émotionnelle (manifestations spontanées des états internes telles que les rires, pleurs, etc. : on parle d’indices) et émotive (résultat d’un travail affectif permettant la mise en scène contrôlée des affects réels, potentiels ou non réels, on parle d’indicateurs). Dans ce dernier cas, la communication émotive, deux types d’affects se distinguent : des affects toniques qui varient peu au cours de l’interaction (humeurs, timidité, embarras, etc.) et des affects phasiques — états passagers — qui fluctuent au cours de l’échange. Ces états seront alors communiqués notamment par la posturo-mimo-gestuelle (Cosnier, 1996).
Par ailleurs, en plus d’être communiqué par un locuteur, ces affects gestuellement codifiés peuvent faire l’objet d’un phénomène d’échoïsation conduisant à un accordage affectif (Cosnier, 1996). L’échoïsation consiste en une extériorisation en miroir des mimiques, gestes et postures du locuteur par l’interlocuteur : « le sourire et les rires appellent le sourire et les rires, les pleurs, les pleurs ou du moins une mimiques compassionnelle etc.… » (Ibid. : 5). Cette échoïsation corporelle faciliterait alors la perception des affects d’autrui au cours de l’interaction et ferait naître ces mêmes affects chez soi. En effet, par un système d’ « analyseur corporel » (Lipps, 1903), l’interactant « a tendance à échoïser le comportement de son partenaire (modèle effecteur) et cette imitation non verbale induit chez lui par un processus de rétroaction interne un état affectif correspondant à celui dudit partenaire » (Cosnier, 2004 : 2). Cette induction émotionnelle introduite par la posturo-mimo-gestuelle serait fondamentale dans l’instruction de la convergence communicative ou à l’inverse sa divergence (Ibid.). Ainsi, selon Cosnier (2004) « si l’énonciateur pense et parle avec son corps, l’énonciataire perçoit et interprète aussi avec son corps ».
Ainsi, à partir de travaux antérieurs et de ses propres travaux, Cosnier a pu établir une classification des gestes communicatifs que nous résumons schématiquement dans l’arbre suivant :
Classification des gestes à partir des travaux de Cosnier (1977, 1982, 1996, 1997, 2004, etc.)
Quelques définitions des catégories employées dans la classification des gestes communicatifs :
Gestes communicatifs
Quasilinguistiques (ou emblèmes) : gestes pouvant être produits sans parole concomitante et peuvent être substituables à la parole.
Syllinguistiques (ou co-verbaux) : gestes employés en co-occurrence avec la production verbale.
Synchronisateurs (ou coordinateurs) : gestes réalisés par le locuteur ou l’interlocuteur pour assurer la coordination de l’interaction.
Gestes quasilinguistiques
Les conatifs : gestes destinés à influencer autrui (ex : stop, silence, venez ici, etc.)
Les phatiques : rituels de contact, appels, déictiques d’interaction.
Les opératoires : gestes qui transmettent une information
Gestes syllinguistiques
Les illustratifs : gestes liés au contenu propositionnel du discours, équivalents verbaux pouvant être utilisés seuls ou en illustration.
Les déictiques : ils désignent un référent présent ou symbolique.
Les iconiques : gestes représentant les formes des objets
Les expressifs : ils connotent le discours ou situent métacommunicativement la position des locuteurs, la plupart sont des mimiques faciales.
Les idéographiques ou métaphoriques : ils représentent des objets abstraits.
Les spatiographiques : gestes illustrant la disposition spatiale.
Les bâtons ou battements ou intonatifs : mouvement en deux temps de la tête ou des mains, ce sont des marqueurs pragmatiques.
Gestes synchronisateurs
Les phatiques : activité du locuteur destinée à vérifier ou entretenir le contact (regard, intonation, ou contact physique).
Les régulateurs : ils désignent l’activité de l’interlocuteur en réponse aux phatiques (hochement de tête, sourires, etc.)
Gestes extracommunicatifs
Les extracommunicatifs regroupent les gestes qui paraissent étrangers à la fois à la communication et à la stratégie de l’interaction.
Les autocentrés : gestes tels que grattages, tapotements, onychophagie, bâillements, etc.
Les ludiques : gestes de manipulation d’objet ou d’activités ludiques (plier du papier, dessiner automatiquement, fumer, etc.)
Les mouvements de confort : croisement de jambes ou de bras, changement de position, etc.
Cette classification des gestes communicatifs nous révèle que le corps constitue un outil essentiel dans l’interaction. Les gestes induisent en effet tant la compréhension mutuelle que la coordination interactionnelle et le cadrage affectif durant l’interaction sociale.
1.2.2 Gestualité par écran
Au cours d’une interaction numérique, la gestualité du corps ne pourra être visible qu’à condition de recourir à une webcam. C’est le cas des échanges écraniques par visio avec des applications telles que Skype. Dans l’interaction par visio, « l’image permet l’introduction d’une coprésence virtuelle des interactants […] qui joue un rôle essentiel dans la construction d’une orientation mutuelle des participants permettant la réalisation commune et négociée des tâches conversationnelles » (De Fornel, 1994 : 110). Les interactants par visio doivent maintenir une situation d’engagement réciproque et à cette fin ils cherchent à maintenir un accès visuel au visage et au buste de leur interlocuteur « pour mobiliser en particulier la gestualité liée au discours » (Ibid. : 114). La gestion des ressources posturo-mimo-gestuelles en ligne se révèle primordiale pour la bonne conduite de l’interaction par visio mais est contrainte par le dispositif technique. Son étude est donc particulièrement valable mais ne fait encore que peu l’objet de recherches en Sciences Humaines. Nous notons cependant l’intérêt porté à la gestualité dans les échanges par visio dans l’ouvrage « Décrire la conversation en ligne » (Develotte, Kern & Lamy, 2011) portant sur un corpus de données similaire au nôtre. Deux études retiennent particulièrement notre attention en ce qu’elle porte sur l’effet du dispositif technique sur la production gestuelle, celle de De Chanay et celle de Cosnier et Develotte.
Dans cette première étude, De Chanay constate que la fixité du dispositif technique dans ce corpus (webcam et ordinateurs fixes) contraint les interactants à un échange en posture assise devant l’écran réduisant par la même leurs mouvements en général et les mouvements perçus en particulier. De Chanay explique que ne sont perçues que les postures « qui sont dans le champ de la caméra, c’est-à-dire, […] limitées aux avancées, reculs et penchements du buste, et aux mouvements de la tête. » (De Chanay, 2011 : 149). De même, peu de gestes sont visibles à l’écran, « ce qui ne veut pas dire que peu de gestes soient effectués » (Ibid.).
Dans la seconde étude citée, Cosnier et Develotte confirment que la gestualité visible des mains et des avant-bras se trouve limitée par le dispositif (2011 : 30). En effet le champ d’une webcam est restreint et capte principalement le visage et le haut du buste du locuteur se plaçant devant elle. La catégorie de gestes effectivement perceptibles par l’interlocuteur se constitue alors essentiellement des extracommunicatifs autocentrés et quelques co-verbaux illustratifs (Ibid.). Néanmoins, à l’aide de caméras externes, les analyses révèlent qu’une autre gestualité existe, bien que non perceptible par l’interlocuteur. Ce sont d’une part des auto-manipulations des mains et des mouvements des mains autour du clavier, à certains moments opérant des frappes sur le clavier (notamment pour communiquer par écrit — tchat) et d’autres part des gestes co-verbaux idéographiques ainsi que des co-verbaux déictiques. La prégnance de ce second type de gestes confirme qu’il ne s’agit pas d’une gestualité constitutive de l’énoncé mais plutôt d’une gestualité énonciative, qui facilite l’activité parolière du locuteur (Bekdache 1976 ; Cosnier 1984). Et lorsque ces mêmes gestes sont mis en visibilité à l’écran, il est possible de conjecturer qu’ils le sont volontairement pour cette fois faciliter la compréhension par l’interlocuteur (Cosnier & Develotte, 2011 : 41).
1.3 Le visage
1.3.1 Visage hors écran
L’apparition d’Autrui, cet être qui a priori est donné à Soi comme l’est tout objet « comme l’ensemble du monde, comme le spectacle du monde » (Levinas, 1986 : 116), se réalise par son visage. Le visage n’est en effet « pas simplement une forme plastique, mais est aussitôt un engagement pour moi, un appel à moi, un ordre pour moi de me trouver à son service » (Ibid.). L’engagement de Soi se fait vis à vis du visage d’Autrui et de l’individualité qui apparaît par ce visage, dans sa nudité, son dénuement, sans moyens, sans protection (Ibid.).
Pour autant, cette manière dont Autrui se présente à soi, par le visage, ne consiste pas à figurer comme simple thème se déroulant sous le regard. Le visage d’Autrui ne s’étale pas comme un ensemble de qualités formant une image, au contraire il dépasse l’image plastique qu’il laisse. Il ne se manifeste pas que par ses qualités propres, mais Κα φ’ α υ τ ο [lui-même] (Levinas, 1961 : 21). Il est par lui-même et non point par référence à un système (Ibid. : 47). Le visage s’exprime. Pour Levinas, le visage n’est pas neutre, il contient une notion de vérité, une expression : « l’étant perce toutes les enveloppes et généralités de l’être, pour étaler dans sa « forme » la totalité de son « contenu », pour supprimer, en fin de compte, la distinction de forme et de contenu » (Ibid. : 22). Ce phénomène résulte non pas d’une modification de la connaissance qui thématise, mais de la conversion de la thématisation en discours (Ibid.). C’est ainsi que le visage parle et que sa manifestation est déjà discours. L’expression du visage consiste à défaire la forme ou l’étant, se révéler. Cette révélation résulte en une « coïncidence de l’exprimé et de celui qui exprime, manifestation, par là même privilégiée d’Autrui, manifestation d’un visage par-delà la forme » (Levinas, 1961 : 37). Le visage navigue alors entre nudité et expression, il est « une nudité habillée d’expressions » (Milon, 2008 : 203). Par ses mimiques, le visage donne à voir de l’extérieur ce qu’Autrui éprouve à l’intérieur. La « carte » du visage est vivante et transformable à l’infini et de par sa position privilégiée elle est le lieu où se concentrent les expressions corporelles les plus explicites, notamment celles liées aux relations intersubjectives (Ibid.).
Ainsi, si le visage parle alors il invite à une relation. La présentation du visage d’Autrui, son épiphanie, appelle Soi, elle met en rapport les êtres (Levinas, 1961 : 187). L’apparition de l’être par le visage renvoie à une exceptionnelle présentation à Autrui de Soi par Soi, sans commune mesure avec la présentation d’objets simplement donnés. L’épiphanie du visage est fondamentalement intersubjective. Et quand le visage d’Autrui parle à Soi, il surmonte à tout moment, l’aspect plastique de sa manifestation : « se manifester comme visage, c’est s’imposer par-delà la forme, manifestée et purement phénoménale, se présenter d’une façon, irréductible à la manifestation, comme la droiture même du face-à-face, sans intermédiaire d’aucune image dans sa nudité » (Levinas, 1961 : 174). Selon Levinas, toute relation intersubjective, tient de la présentation de l’Autre à Soi, sans aucun intermédiaire d’image ou de signe, par la seule expression du visage (Ibid. : 188). Se pose alors la question de l’ontophanie numérique de l’épiphanie du visage, quand le visage n’apparaît pas nécessairement ou que ses formes d’apparitions rompent avec les relations présentielles.
1.3.2 Visage par écran
En interaction numérique l’ontophanie du visage est fonction du mode de communication. Le visage est soit invisible de l’interlocuteur (mail, forum, etc.), soit une représentation du visage (photo, avatar, etc.) ou de ses émotions (ponctuation, émoticônes, etc.) est proposée ou encore le visage se révèle au travers de l’écran par le biais de la webcam.
1.3.2.1 Le visage en interaction numérique écrite
Dans le cas des échanges numériques par tchat, les contraintes liées à la communication écrite associée la modalité quasi-synchronique proche de l’oralité conduisent les interactants à développer « un certain nombre de procédés destinés à indiquer leur subjectivité, fondés sur l’emploi de signes graphiques, reproductibles aisément grâce à un clavier » (Halté, 2013 : 5). Par ces signes les locuteurs en ligne expriment instantanément leurs émotions et modalisent leur énoncé. La subjectivité des interactants réalisée en présentiel par la posturo-mimo-gestualité et la prosodie se trouve moins aisée à exprimer en ligne à l’écrit. Les néologismes sémiotiques viennent alors pallier la non-visibilité du corps par l’autre. Ils sont apparus dans les tchats avant de se systématiser et se répandre aux autres formes de communication écrite numérique (forums, mails, sms, etc.).
Les manifestations de subjectivité en interaction écrite numérique sont de plusieurs ordres : les interjections, les signes de ponctuation, les lettres capitalisées ou redoublées, les séquences animées et les émoticônes. Selon Halté, « les interjections posent la question de ce qui, dans la langue, ne sert pas à conceptualiser, à dire, mais plutôt de ce qui sert à montrer : produire l’énoncé « aïe ! », ce n’est pas décrire sa douleur, c’est la montrer, la mettre en scène, voire la performer » (2013 : 12). Si les interactants en ligne cherchent à substituer leurs mimiques par des néologismes sémiotiques ce n’est en effet pas dans le but de représenter conceptuellement, propositionnellement (le « dictum » de Bally, le « dit » de Wittgenstein, le « symbolique » de Peirce), mais dans celui de montrer, de faire (le « modus » de Bally, le « montré » de Wittgenstein, l’« indiciel » de Peirce) (Ibid.). C’est le cas dans l’utilisation d’acronymes interjectifs (du type « lol » pour « laughing out loud », « mdr » pour « mort de rire », mettant en scène le rire du locuteur). En outre, à l’instar des bulles de bande dessiné, les productions écrites numériques contiennent des signes de ponctuation produits sans verbal afin de montrer une attitude (interrogative (?), surprise (!), etc.). Par ailleurs, les mimiques du visage peuvent être exposées en modifiant la casse des lettres c’est le cas notamment du cri représenté par des lettres capitales (« NON ») ou en étirant certains morphèmes en reproduisant plusieurs fois la lettre finale d’un mot (« bisoussss ») ou d’autres lettres (« nooooon ») (Halté, 2013 : 24). Une autre pratique, celle-ci nécessitant une connaissance informatique moins limitée, repose sur la production d’une courte séquence animée (de format .gif) « le plus souvent issue de la culture populaire partagée par la plupart des internautes (comme les films de série B par exemple). Aussi un utilisateur de forum peut-il montrer sa joie en affichant une image de Jean-Claude Van Damme en train de sourire » (Ibid. : 35). Néanmoins, le procédé le plus couramment usité et le plus proche d’une apparition du visage est celui de l’émoticône.
L’émoticône est définie par Halté comme « l’ensemble des icônes s’intégrant aux énoncés verbaux lors d’une communication médiée par ordinateur, quelle qu’elle soit (chat, sms, etc.), et dont la fonction est d’être l’indice d’une émotion ou d’une attitude subjective portant sur l’énonciation d’un contenu » (2013 : 28). La notion d’indice, à partir de Pierce, est entendue comme un signe qui rend perceptible un objet du monde qui ne le serait pas sans celui-ci, et celle d’icône comme un signe qui imite un objet du monde (Ibid.). Les émoticônes sont initialement produites à partir de signes de ponctuation imitant une mimique faciale (telle que le désormais célèbre « smiley » 🙂 ). Les émoticônes doivent être lues comme des images, des icônes de mimiques faciales ou de gestes. » (Halté, 2013 : 7). Du reste désormais dans les applications de réseaux sociaux numériques, les traitements de texte ainsi que les téléphones mobiles, les émoticônes produites à partir de signes de ponctuation sur le clavier par l’usager sont automatiquement transformées en pictogramme (« J »). De même dans certains tchats et forums, les acronymes interjectifs sont automatiquement remplacés par un pictogramme (pour exemple « : lol : », transformé en visage rieur). Par ailleurs, existent des sites internet spécifiquement réservés au téléchargement d’émoticônes de toutes sortes classées par thématiques (amour, jeux, sports, etc.), ce sont les « banques d’émoticônes ». Les émoticônes se trouvent alors de plus en plus souvent animées et complexes (Halté, 2013 : 32).
Pour autant, « les émoticônes les plus employées sont toujours les plus simples, comme l’émoticône de sourire ou de tristesse, ou encore le clin d’œil » (Ibid. : 34). La rapidité du flux de communication étant le propre du numérique, l’accès simple et immédiat aux signes de ponctuation sur le clavier fait des émoticônes simplistes les plus usitées. Dans le tableau suivant sont renseignées les émoticônes courantes :
Les émoticônes courantes (Halté, 2013)
Reste que Yus (2011) nuance l’association émoticône–émotion en ce sens que l’émoticône peut représenter non pas une émotion per se mais un état émotionnel général voire une performance, un acte de langage. En effet, pour Yus :
» The source of the term, a combination of the words emotion and icon, is misleading. As Drenser & Herring (2010 : 252) correctly clarify, the purpose of emoticons is not only to express the users’ emotions, since “many facial emotions do not seem to express a single emotion, or indeed any emotion at all. Is a face with the tongue sticking out – for example ;-p – a sign of a specific emotion? Various sources attribute to it the meanings of teasing, flirting, and sarcasm, all of which may be associated with emotional states, but are not emotions per se. Or consider the familiar winking face 😉 : Conventionnaly, it indicates that the writer is joking, but surely jokes are not associated with a single emotive state. People may joke when they are happy or sad. »
(Yus 2011, p. 166)
Le visage et ses expressions ne peuvent être fidèlement exprimés dans l’interaction numérique écrite. Aussi demeure-t-il l’objet d’une aura phénoménologique restreinte. En revanche la visio, permettant son apparition, lui confère un degré d’aura phénoménologique plus élevé, à condition néanmoins de faire l’objet d’une maitrise technique de la part des participants.
1.3.2.2 Le visage en interaction numérique vidéo
Dès lors que l’interaction numérique se réalise au moyen d’une webcam, les participants cherchent à gérer l’apparition du corps et du visage à l’écran. En effet, au cours d’une communication visiophonique, les interactants « tendent à positionner leur visage au centre de l’écran, coproduisant une « écologie œil à œil » (Goffman, 1963) se rapprochant du face-à-face » (Morel & Licoppe, 2012 : 183). Cette configuration tient au fait que le visage « occupe une place centrale dans la régulation de l’interaction » (De Fornel, 1994 : 114). Il est ainsi conventionnel de regarder non seulement dans la direction de son interlocuteur mais plus précisément son visage. À défaut, le locuteur remarquera ce manquement et pourra le signaler interactionnellement. De même, au cours de l’interaction par visio, la taille réduite de l’écran et du champ de la webcam force le participant à ne se mouvoir que peu et à diriger son visage vers ladite webcam afin d’apparaître au mieux sur l’écran de son interlocuteur. Et si « les interlocuteurs ne regardent pas l’écran, il y a violation de ce qui est conventionnellement approprié, et possibilité de sanctions rituelles » (De Fornel, 1994 : 114). Morel et Licoppe distinguent plusieurs caractéristiques propres aux communications visiophoniques dont ce qu’ils nomment « la configuration têtes parlantes » (2012) à la suite des travaux sur les « talking heads » de O’Conaill et Whittaker (1993). Cette configuration constitue le format par défaut des échanges par visio et consiste en ce que les participants se positionnent face à l’écran de sorte à maximiser la visualisation de l’entièreté de leur visage (Morel & Licoppe, 2012 : 184). Cette configuration des « têtes parlantes » implique, dans une communication multipartite, que doit être mis à l’écran le locuteur en cours ou celui identifié comme étant le prochain. L’interaction par visio tient sur la maxime « mets le visage du locuteur actuel à l’écran » (Ibid.). L’agencement des visages face à l’écran est partie prise et partie prenante du cadre participatif de l’interaction. Ainsi « le travail de production d’une image pertinente est lisible (et lu) comme une interprétation de l’organisation de la conversation en cours (Ibid.).
Reste que les participants à l’interaction visiophonique n’ont pas nécessairement la maîtrise complète du dispositif technique et le souci de leur corps à l’écran. C’est pourquoi Develotte, Guichon et Vincent (2010) dans leur analyse d’un corpus proche du nôtre, distinguent plusieurs degrés d’investissement de la webcam. Le degré zéro correspond à la non-visibilité du locuteur à l’écran (soit il est hors du cadre, soit le canal visuel est inutilisable). Dans le degré un, le locuteur est visible mais ne regarde pas l’écran. Le degré deux repose uniquement sur la visibilité du locuteur qui regarde l’écran tandis qu’au degré trois le locuteur produit de surcroît des mimiques et des gestes. Enfin le degré quatre d’investissement de la webcam tient à l’usage du regard caméra par le locuteur (pour donner l’illusion de regarder son interlocuteur dans les yeux). Nous ajouterons que la proxémique — les relations spatiales qu’entretiennent les sujets entre eux — joue également un rôle fondamental dans le cadrage du visage du locuteur. Si en présentiel, Hall (1978) distingue quatre sphères proxémiques : sphère intime (moins de quarante centimètres), sphère personnelle (quarante-cinq à cent-vingt-cinq centimètres), sphère sociale (cent-vingt à trois-cent-soixante centimètres), sphère publique (au delà de trois-cent soixante centimètres), en ligne la spatialité est tout autre. La distance à l’autre est aussi lointaine (distance géographique plus ou moins importante) qu’elle est excessivement restreinte. Le locuteur positionne son visage très proche de l’écran pour faciliter l’échange mais il ne doit être ni trop avancé (effet « faux-jeton » décrit par De Fornel, 1994) ni trop éloigné. La configuration proxémique en visio se joue alors au centimètre près.
Le degré 3 d’investissement de la webcam semble le plus courant puisque dans leur étude (mentionnée plus haut), Cosnier et Develotte considère que l’une des caractéristiques propre à la visio est la compensation de la réduction de l’efficacité des gestes par une augmentation de l’activité communicative faciale (2011 : 30). Cette « intense activité faciale interactive » est spécifique aux interactions par écran puisqu’on rencontre « quatre à cinq fois plus d’activités mimiques dans le face à face en ligne » où « la face joue un rôle majeur dans l’expression et la régulation » (Ibid. : 41). L’activité faciale prend alors en charge des fonctions usuellement prises en charge par la gestualité en présentiel telles que les expressions affectives, connotations textuelles, régulations interactives (Ibid. : 49).
Il nous apparaît que cette intense activité faciale pourrait être due à la présence de l’image du locuteur à l’écran. En effet, en plus de voir le visage de son interlocuteur à l’écran, le locuteur perçoit également son propre visage en interaction. Les locuteurs peuvent ainsi observer et donc contrôler les mimiques qu’ils projettent à l’autre, voire les exagérer afin qu’elles soient plus visibles à l’écran (tout comme certains locuteurs parlent plus fort au téléphone qu’en face à face pour être sûrs d’être entendus par l’interlocuteur).
1.4 Le regard
1.4.1 Regard hors écran
« Dans une rencontre, l’expression de l’autre est un visage qui parle. Même un visage qui se ferme exprime en lumière noire sa propre fermeture, qui m’éclaire, en lumière noire, douloureusement. Mais lorsque l’autre reste ouvert, son visage rayonne l’espace où s’ouvre mon regard. En ce regard que je porte sur l’autre et qui se tient dans cette ouverture, je ne rencontre l’autre qu’à m’y trouver moi-même. L’épiphanie d’un existant dans le regard d’un autre exige l’autophanie de celui-ci dans ce même regard. »
(Maldiney, 2003 : 16)
Le regard du sujet figure son entrée dans l’interaction avec Autrui. Et la présence d’Autrui se fait par la pointe de son regard qui fixe Soi. À travers le visage, « percent les yeux, l’indissimulable langage des yeux. L’œil ne luit pas, il parle. » (Levinas, 1961 : 38). Merleau-Ponty perçoit la relation interindividuelle comme une relation d’être à regard, « l’être n’est pas un être-pour-le-sujet-pensant, mais un être-pour-le-regard qui le rencontre » (1945 : 292). Mais le regard vers un visage contient un double risque : celui de n’être que superficiel et manquer la rencontre avec l’autre, et inversement celui d’être trop exhaustif, trop profond, violant alors l’intimité de l’autre. Tout regard de Soi sur l’Autre, toute perception « est alors à la fois protection et menace », protection en ce que du point de vue éthique le regard se doit de s’arrêter au seuil de l’intimité, menace si l’irrépressible secret d’Autrui est percé, son essence pénétrée par infraction (Dugravier, 2012 : 71). La relation entre Soi et l’Autre au cours de la rencontre se nourrit du lien entre l’apparence et l’essence (Ibid.), et le regard navigue sur ce lien ténu. Le regard prend alors le risque d’être trop partiel ou au contraire trop partial.
En outre, le regard fait l’objet d’une dialectique entre regardé et regardant. Au cours de la rencontre, la présentation de soi du regardé comme acte de présence offerte au regard coïncide avec la représentation comme image formée par le sujet regardant (Ibid. : 73). Le regard est constitutivement lié à l’intentionnalité du regardant, il est pétri de subjectivité. Le regard cherche à dé-couvrir le visage, le dé-voiler, permettant l’identification d’Autrui regardé. Dès lors, le regard est « emblématique de la perception parce qu’il est cet acte unique me permettant de saisir l’apparence du visage, ainsi que de rassembler sous l’unité de l’identification la multiplicité des détails perçus » (Dugravier, 2012 : 72). Le regard ne voyant pas tout, il cherche à capter un à un les éléments nécessaires à sa compréhension du regardé. À cette fin, le regardant découpe les images qu’il perçoit du réel selon ses propres limites et représentations avant de les reconstituer et reconstruire par là même l’unité du sujet perçu. Le regard se révèle donc constitutif de la relation entre les sujets.
Pour maintenir une situation d’engagement réciproque entre les interactants, un accès visuel aux visages relève donc de l’indispensable (De Fornel, 1994 : 114). Ainsi, le regard ne se constitue pas simplement de l’orientation des yeux vers un point de l’espace afin d’y récolter des informations, il est « projection sur le monde de préperceptions, il est décision de regarder en fonction des intentions du sujet ; le regard est capture du monde et d’autrui, il est anticipation, il est construction d’un monde par le sujet percevant » (Berthoz, 2008 : 33). C’est pourquoi lorsque les regards se croisent, il y a « commune union ou communion » entre les sujets qui échangent, transmettent et reçoivent des messages et élaborent un vécu partagé (Ibid.). À partir des propos de Merleau-Ponty selon lesquels « la vision est palpation par le regard », Berthoz étaye et suggère que le contact par le regard est l’équivalent du contact par la main (2008 : 36). Il est le lien à autrui. Le regard tient un « rôle fondamental d’équilibre interactionnel » (Ibid.).
Il est possible de distinguer plusieurs modes d’échange par le regard. Emery (2000) classe cinq catégories neuroéthologiques du regard : le regard partagé ou échangé (dont le regard direct et le regard dévié), le suivi de regard (lien dynamique avec poursuite oculaire), l’attention conjointe (le regard de l’autre induit une attention portée au même objet), l’attention partagée (triade entre les deux regardants et le regardé), et la théorie de l’esprit (le sujet attribue à autrui une intention sur l’objet regardé par exemple le saisir). Il n’existe donc pas un mais de multiples regards « certains automatiques, réactifs, d’autres élaborés, exploratoires, d’autres encore projectifs, ou même libérés du mouvement de l’œil comme dans l’expression « jeter un certain regard sur » » (Berthoz, 2008 : 45). Ces divers regards participent de la régulation de l’échange entre les sujets. Comme le souligne Cosnier « du côté phatique, le regard constitue un des éléments majeurs du système d’inter-régulation et va constituer un « signal intra-tour » » (2008 : 123). En effet, le locuteur ne regarde pas son interlocuteur en permanence sinon il risquerait d’enfreindre sa territorialité et de menacer sa face. Le regard ponctuel a valeur de signal : préciser son discours, proposer un changement de tour de parole, marquer son engagement ou son désengagement dans l’interaction permettant la suspension ou la reprise de la conversation (Ibid.).
Aussi, lors d’interaction numérique la problématique du regard est-elle d’autant plus complexe. Certes à aucun moment en interaction numérique les interactants ne peuvent se regarder littéralement les yeux dans les yeux. Néanmoins comme nous venons de le démontrer le regard peut renfermer plusieurs modes et fonctions.
1.4.2 Regard par écran
Comme mentionné à plusieurs reprise, les visages des locuteurs en visio sont généralement cadrés de face et en plan serré permettant un accès privilégié aux mimiques faciales et donc a priori au regard. Néanmoins, cette accessibilité ne se réalise pas de la même manière que dans un face à face présentiel. En visio, les participants à l’interaction font l’objet d’un enregistrement vidéo par webcam retransmis sur l’écran, ils ne sont pas en présence physique immédiate les uns des autres. Ils font face à une image vidéo de leur visage. Et la « disjonction spatiale entre la webcam qui capte les images et l’écran qui permet de les voir (aussi bien la sienne que celle de l’interlocuteur) interdit de se regarder les yeux dans les yeux (contact Y-Y) » (De Chanay, 2011 : 149).
Du fait de cette disjonction, pour que l’interlocuteur ait l’impression d’être regardé droit dans les yeux, le locuteur doit détourner les yeux de l’image de son interlocuteur (ou de la sienne, ou de celle du tchat) pour les porter sur la webcam qui captera son regard et le retransmettra sur l’écran. Cette configuration s’avère contraignante en ce qu’elle induit une perte immédiate de tout feed-back visuel. La perte de ce feed-back apparaît « doublement gênante : on cesse de voir l’autre et / ou de voir ce qu’il voit (soi). » (Ibid.). De surcroît, si locuteur et interlocuteur cherchaient simultanément à donner l’impression de se regarder dans les yeux en fixant tous deux la webcam le résultat serait contreproductif puisqu’ils cesseraient de se voir « c’est-à-dire qu’ils ne verraient pas l’autre les regarder, et que simultanément ils n’en seraient pas vus non plus. » (Ibid.).
Cependant, les webcams désormais intégrées aux écrans ne sont plus si éloignées de l’image de l’interlocuteur et sont en réalité dans le champ visuel du locuteur. Cette disjonction entre écran et caméra n’est que partielle. En outre, Cosnier et Develotte (2011 : 41) concluent, à partir d’entretiens avec des participants aux interactions visiophoniques, que si la régulation des échanges de regard en ligne « peut constituer une gêne au début, une habituation rapide la fait pratiquement disparaître ».
La gestion du regard dans l’interaction en ligne, au même titre que celle du corps, des gestes et des mimiques, se révèle donc fonction d’une maîtrise plus ou moins accrue des rituels conversationnels classiques du face à face présentiel ainsi que des outils techniques et corporels mis à la disposition des interactants.
Nous aurons compris par, l’attention que nous venons de porter à l’analyse multimodale des interactions, que ces dernières sont largement configurées par les participants. Ceux-ci ouvrent l’interaction, la construisent tour de parole après tour de parole, au moyen de ressources posturo-mimo-gestuelles et sémiotiques jusqu’à sa clôture. L’issu de la rencontre est alors fonction de l’engagement des sujets et de leurs compétences sociotechniques. Et cette issue se révèle dans les productions interactionnelles des sujets qui y construisent leurs identités.